|
发表于 2022-12-26 09:58:00
|
查看: 20734 |
回复: 1
本帖最后由 生信喵 于 2022-12-27 17:36 编辑
背景 前面我们模拟混合了几种细菌的数据拼接,本次带来的是文献《Complete and validated genomes from a metagenome》中的数据,步骤就是下载数据,开始拼接。
一、案例数据下载
从宏基因组测序中拼接细菌完成图,《Complete and validated genomes from a metagenome 》2012 年加拿大 Northern Alberta 油砂尾矿池 附近海藻细菌培养分离样品, 2019 年重新培养提取。
- 文献地址:https://www.biorxiv.org/content/10.1101/2020.04.08.032540v1
- 数据:https://www.ebi.ac.uk/ena/browser/view/PRJEB36155
- 脚本:https://zenodo.org/record/3745531#.Xw7hoBPitnJ
复制代码 数据一般都在文章结尾的“Data availability ”部分,从中找到 BioProject 号或者 SRA 号即可。例如改文章中给出了数据的 BioProject 号为 PRJEB 36115。- 数据下载(nanopore和illumina)
- axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR399/000/ERR3994080/ERR3994080_1.fastq.gz
- axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR400/002/ERR4007992/ERR4007992_1.fastq.gz
- axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR400/002/ERR4007992/ERR4007992_2.fastq.gz
复制代码
二、利用 megahit 拼接
MEGAHIT是一个二代测序从头组装工具,用于以时间和成本有效的方式组装大型和复杂的宏基因组数据。 被誉为是宏基因组版本的 SOAPdenovo ,继承了 SOAPdenovo 快速,节省内存的优点。 MEGAHIT 操作简单,运行速度非常快,这对于数据量和计算量大的宏基因组拼接非常重要。并且最重要的是, megahit 是超快的宏基因组序列 拼接中,还能得到非常好的拼接结果。 在同类软件评估中, MEGAHIT 通常有着最少的计算时间和 N50 ,同 时也拥有最低的嵌合体比例 错误率 ));尤其在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,成为行业的主流组装软件。 与其他一些常用的二代宏基因组拼接软件 SPAdes 和IDBA UD 相比,计算时间和内存消耗方面优势非常明显。
- 官方主页:http://www.l3 bioinfo.com/products/megahit.html
- github主页: https://github.com/voutcn/megahit
- 软件安装:conda install -y megahit
复制代码 使用案例:
- echo "time megahit -t 24 -o megahit/ -1 ERR4007992_1.fastq.gz -2 ERR4007992_2.fastq.gz 1>megahit.log 2>megahit.err" >megahit.sh
- bsub -q fat -n 24 -o %J.log -e %J.err sh megahit.sh
复制代码 选项参数
-1 reads 1
-2 reads 2
-o :数据文件夹
-h 显示参数详细
--k min 27 k max 191 k step 20 # 手动设置 kmer
-r 单端
-t 设置线程数,默认全用
--use gpu 支持 GPU 运算
--continue 支持中断继续运行
耗时1小时10分钟,结果:- total 270M
- -rw-rw-r-- 1 xiehs xiehs 945 Dec 26 15:23 options.json
- drwxrwxr-x 2 xiehs xiehs 4.0K Dec 26 16:37 intermediate_contigs/
- -rw-rw-r-- 1 xiehs xiehs 269M Dec 26 16:37 final.contigs.fa
- -rw-rw-r-- 1 xiehs xiehs 166 Dec 26 16:37 checkpoints.txt
- -rw-rw-r-- 1 xiehs xiehs 0 Dec 26 16:37 done
- -rw-rw-r-- 1 xiehs xiehs 144K Dec 26 16:37 log
复制代码- seqkit stat final.contigs.fa
- file format type num_seqs sum_len min_len avg_len max_len
- final.contigs.fa FASTA DNA 170,308 275,083,965 200 1,615.2 481,000
复制代码 可以用拼接后的结果,做centrifuge物种鉴定,因为序列长,较直接用fastq原read文件去做物种鉴定,会少掉最后一列的丰度信息。
三、metaSPAdes 拼接
spades是一款优秀的基因组拼接工具, SPAdes 是由俄罗斯科学院 St. Petersburg AcademicUniversity 与美国科学家合作开发的主要应用于小型基因组如细菌,真菌等基因组测序数据的拼接软件。该软件开发至今已经走过 1 0 多年的时间,目前依然在持续更新 。软件主要用于 illumina 测序数据拼接,支持多种类型 illumina 测序数据。并且支持 ion torrent 测序数据和 CCS 模式下的 pacbio 数据。 此外,可以将二代测序短读长测序数据与三代长读长 pacbio和 nanopore 的测序数据 进行混合拼接。 SPAdes 包含多个模块,特别针对二倍体,宏基因组,质粒, RNAseq 测序数据进行拼接。在二代测序宏基因组研究中使用比较广泛,相比于其他拼接软件,可以得到更好的结果,不过对计算机资源消耗较大,需要消耗更大的内存和计算时间。
- 软件官网:http://cab.spbu.ru/software/spades/
- github主页: https://github.com/ablab/spades
复制代码 使用案例:
- which spades.py # 得到软件路径
- echo "time python /share/home/xiehs/bin/spades.py -t 46 -o metaSPAdes/ --meta -1 ERR4007992_1.fastq.gz -2 ERR4007992_2.fastq.gz 1>spades.log 2>spades.err" >spades.sh
- bsub -q fat -n 46 -o %J.log -e %J.err sh spades.sh
复制代码 时间确实很长,跑了16个半小时才完成拼接。- real 987m35.910s
- user 20374m16.109s
- sys 1186m52.813s
复制代码
|
|