生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

318

主题
发表于 2022-12-26 09:58:00 | 查看: 20736| 回复: 1
本帖最后由 生信喵 于 2022-12-27 17:36 编辑

背景       前面我们模拟混合了几种细菌的数据拼接,本次带来的是文献《Complete and validated genomes from a metagenome》中的数据,步骤就是下载数据,开始拼接。
一、案例数据下载
       从宏基因组测序中拼接细菌完成图,《Complete and validated genomes from a metagenome 》2012 年加拿大 Northern Alberta 油砂尾矿池 附近海藻细菌培养分离样品, 2019 年重新培养提取。
  1. 文献地址:https://www.biorxiv.org/content/10.1101/2020.04.08.032540v1
  2. 数据:https://www.ebi.ac.uk/ena/browser/view/PRJEB36155
  3. 脚本:https://zenodo.org/record/3745531#.Xw7hoBPitnJ
复制代码
      数据一般都在文章结尾的“Data availability ”部分,从中找到 BioProject 号或者 SRA 号即可。例如改文章中给出了数据的 BioProject 号为 PRJEB 36115。
  1. 数据下载(nanopore和illumina)
  2. axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR399/000/ERR3994080/ERR3994080_1.fastq.gz
  3. axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR400/002/ERR4007992/ERR4007992_1.fastq.gz
  4. axel -n 100 http://ftp.sra.ebi.ac.uk/vol1/fastq/ERR400/002/ERR4007992/ERR4007992_2.fastq.gz
复制代码

二、利用 megahit 拼接
      MEGAHIT是一个二代测序从头组装工具,用于以时间和成本有效的方式组装大型和复杂的宏基因组数据。 被誉为是宏基因组版本的 SOAPdenovo ,继承了 SOAPdenovo 快速,节省内存的优点。 MEGAHIT 操作简单,运行速度非常快,这对于数据量和计算量大的宏基因组拼接非常重要。并且最重要的是, megahit 是超快的宏基因组序列 拼接中,还能得到非常好的拼接结果。 在同类软件评估中, MEGAHIT 通常有着最少的计算时间和 N50 ,同 时也拥有最低的嵌合体比例 错误率 ));尤其在土壤等复杂环境样本组装、大量样本混合组装方面优势明显,成为行业的主流组装软件。 与其他一些常用的二代宏基因组拼接软件 SPAdes 和IDBA UD 相比,计算时间和内存消耗方面优势非常明显。
  1. 官方主页:http://www.l3 bioinfo.com/products/megahit.html
  2. github主页: https://github.com/voutcn/megahit
  3. 软件安装:conda install -y megahit
复制代码
使用案例:
  1. echo "time megahit -t 24 -o megahit/ -1 ERR4007992_1.fastq.gz -2 ERR4007992_2.fastq.gz 1>megahit.log 2>megahit.err" >megahit.sh
  2. bsub -q fat -n 24 -o %J.log -e %J.err sh megahit.sh
复制代码
选项参数
      -1 reads 1
      -2 reads 2
      -o :数据文件夹
      -h 显示参数详细
      --k min 27 k max 191 k step 20 # 手动设置 kmer
      -r 单端
      -t 设置线程数,默认全用
      --use gpu 支持 GPU 运算
      --continue 支持中断继续运行
耗时1小时10分钟,结果:
  1. total 270M
  2. -rw-rw-r-- 1 xiehs xiehs  945 Dec 26 15:23 options.json
  3. drwxrwxr-x 2 xiehs xiehs 4.0K Dec 26 16:37 intermediate_contigs/
  4. -rw-rw-r-- 1 xiehs xiehs 269M Dec 26 16:37 final.contigs.fa
  5. -rw-rw-r-- 1 xiehs xiehs  166 Dec 26 16:37 checkpoints.txt
  6. -rw-rw-r-- 1 xiehs xiehs    0 Dec 26 16:37 done
  7. -rw-rw-r-- 1 xiehs xiehs 144K Dec 26 16:37 log
复制代码
  1. seqkit stat final.contigs.fa
  2. file              format  type  num_seqs      sum_len  min_len  avg_len  max_len
  3. final.contigs.fa  FASTA   DNA    170,308  275,083,965      200  1,615.2  481,000
复制代码
     可以用拼接后的结果,做centrifuge物种鉴定,因为序列长,较直接用fastq原read文件去做物种鉴定,会少掉最后一列的丰度信息。

三、metaSPAdes 拼接
      spades是一款优秀的基因组拼接工具, SPAdes 是由俄罗斯科学院 St. Petersburg AcademicUniversity 与美国科学家合作开发的主要应用于小型基因组如细菌,真菌等基因组测序数据的拼接软件。该软件开发至今已经走过 1 0 多年的时间,目前依然在持续更新 。软件主要用于 illumina 测序数据拼接,支持多种类型 illumina 测序数据。并且支持 ion torrent 测序数据和 CCS 模式下的 pacbio 数据。 此外,可以将二代测序短读长测序数据与三代长读长 pacbio和 nanopore 的测序数据 进行混合拼接。 SPAdes 包含多个模块,特别针对二倍体,宏基因组,质粒, RNAseq 测序数据进行拼接。在二代测序宏基因组研究中使用比较广泛,相比于其他拼接软件,可以得到更好的结果,不过对计算机资源消耗较大,需要消耗更大的内存和计算时间。
  1. 软件官网:http://cab.spbu.ru/software/spades/
  2. github主页: https://github.com/ablab/spades
复制代码
使用案例:
  1. which spades.py # 得到软件路径
  2. echo "time python /share/home/xiehs/bin/spades.py -t 46 -o metaSPAdes/ --meta -1 ERR4007992_1.fastq.gz -2 ERR4007992_2.fastq.gz 1>spades.log 2>spades.err" >spades.sh
  3. bsub -q fat -n 46 -o %J.log -e %J.err sh spades.sh
复制代码
     时间确实很长,跑了16个半小时才完成拼接。
  1. real    987m35.910s
  2. user    20374m16.109s
  3. sys     1186m52.813s
复制代码


您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-11-21 23:57 , Processed in 0.075670 second(s), 29 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表