0 收听	12 听众	383 主题

二代测序宏基因组真实数据拼接

发表于 2022-12-26 09:58:00 | 查看: 22154| 回复: 1

本帖最后由生信喵于 2022-12-27 17:36 编辑

背景前面我们模拟混合了几种细菌的数据拼接，本次带来的是文献《Complete and validated genomes from a metagenome》中的数据，步骤就是下载数据，开始拼接。
一、案例数据下载
从宏基因组测序中拼接细菌完成图，《Complete and validated genomes from a metagenome 》2012 年加拿大 Northern Alberta 油砂尾矿池附近海藻细菌培养分离样品， 2019 年重新培养提取。

文献地址：https://www.biorxiv.org/content/10.1101/2020.04.08.032540v1
数据：https://www.ebi.ac.uk/ena/browser/view/PRJEB36155
脚本：https://zenodo.org/record/3745531#.Xw7hoBPitnJ

复制代码

数据一般都在文章结尾的“Data availability ”部分，从中找到 BioProject 号或者 SRA 号即可。例如改文章中给出了数据的 BioProject 号为 PRJEB 36115。

数据下载（nanopore和illumina）
axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR399/000/ERR3994080/ERR3994080_1.fastq.gz
axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR400/002/ERR4007992/ERR4007992_1.fastq.gz
axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR400/002/ERR4007992/ERR4007992_2.fastq.gz

复制代码

二、利用 megahit 拼接
MEGAHIT是一个二代测序从头组装工具，用于以时间和成本有效的方式组装大型和复杂的宏基因组数据。被誉为是宏基因组版本的 SOAPdenovo ，继承了 SOAPdenovo 快速，节省内存的优点。 MEGAHIT 操作简单，运行速度非常快，这对于数据量和计算量大的宏基因组拼接非常重要。并且最重要的是， megahit 是超快的宏基因组序列拼接中，还能得到非常好的拼接结果。在同类软件评估中， MEGAHIT 通常有着最少的计算时间和 N50 ，同时也拥有最低的嵌合体比例错误率 ))；尤其在土壤等复杂环境样本组装、大量样本混合组装方面优势明显，成为行业的主流组装软件。与其他一些常用的二代宏基因组拼接软件 SPAdes 和IDBA UD 相比，计算时间和内存消耗方面优势非常明显。

官方主页：http://www.l3 bioinfo.com/products/megahit.html
github主页： https://github.com/voutcn/megahit
软件安装：conda install -y megahit

复制代码

使用案例：

echo "time megahit -t 24 -o megahit/ -1 ERR4007992_1.fastq.gz -2 ERR4007992_2.fastq.gz 1>megahit.log 2>megahit.err" >megahit.sh
bsub -q fat -n 24 -o %J.log -e %J.err sh megahit.sh

复制代码

选项参数
   -1 reads 1
   -2 reads 2
   -o ：数据文件夹
   -h 显示参数详细
   --k min 27 k max 191 k step 20 # 手动设置 kmer
   -r 单端
   -t 设置线程数，默认全用
   --use gpu 支持 GPU 运算
   --continue 支持中断继续运行
耗时1小时10分钟，结果：

total 270M
-rw-rw-r-- 1 xiehs xiehs 945 Dec 26 15:23 options.json
drwxrwxr-x 2 xiehs xiehs 4.0K Dec 26 16:37 intermediate_contigs/
-rw-rw-r-- 1 xiehs xiehs 269M Dec 26 16:37 final.contigs.fa
-rw-rw-r-- 1 xiehs xiehs 166 Dec 26 16:37 checkpoints.txt
-rw-rw-r-- 1 xiehs xiehs 0 Dec 26 16:37 done
-rw-rw-r-- 1 xiehs xiehs 144K Dec 26 16:37 log

复制代码

seqkit stat final.contigs.fa
file format type num_seqs sum_len min_len avg_len max_len
final.contigs.fa FASTA DNA 170,308 275,083,965 200 1,615.2 481,000

复制代码

可以用拼接后的结果，做centrifuge物种鉴定，因为序列长，较直接用fastq原read文件去做物种鉴定，会少掉最后一列的丰度信息。

三、metaSPAdes 拼接
spades是一款优秀的基因组拼接工具， SPAdes 是由俄罗斯科学院 St. Petersburg AcademicUniversity 与美国科学家合作开发的主要应用于小型基因组如细菌，真菌等基因组测序数据的拼接软件。该软件开发至今已经走过 1 0 多年的时间，目前依然在持续更新。软件主要用于 illumina 测序数据拼接，支持多种类型 illumina 测序数据。并且支持 ion torrent 测序数据和 CCS 模式下的 pacbio 数据。此外，可以将二代测序短读长测序数据与三代长读长 pacbio和 nanopore 的测序数据进行混合拼接。 SPAdes 包含多个模块，特别针对二倍体，宏基因组，质粒， RNAseq 测序数据进行拼接。在二代测序宏基因组研究中使用比较广泛，相比于其他拼接软件，可以得到更好的结果，不过对计算机资源消耗较大，需要消耗更大的内存和计算时间。

软件官网：http://cab.spbu.ru/software/spades/
github主页： https://github.com/ablab/spades

复制代码

使用案例：

which spades.py # 得到软件路径
echo "time python /share/home/xiehs/bin/spades.py -t 46 -o metaSPAdes/ --meta -1 ERR4007992_1.fastq.gz -2 ERR4007992_2.fastq.gz 1>spades.log 2>spades.err" >spades.sh
bsub -q fat -n 46 -o %J.log -e %J.err sh spades.sh

复制代码

时间确实很长，跑了16个半小时才完成拼接。

real 987m35.910s
user 20374m16.109s
sys 1186m52.813s

复制代码

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册