生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

318

主题
发表于 2022-10-26 23:20:49 | 查看: 10027| 回复: 0
一、mock 数据集
       人为添加 10 种微生物,其中包括 8 株细菌,两株真菌。分为两种模式,一种按比例平均分配,称为 Even 数据集,8 株细菌各占 8%,2 株真菌各占 4%。另一种按照对数进行分配,称为 Log 数据集。并且包括 illumina 与 nanopore 数据。
  1. https://github.com/LomanLab/mockcommunity
  2. https://lomanlab.github.io/mockcommunity/
复制代码

二、土壤样品
  1. 文章列表:https://www.biorxiv.org/content/10.1101/2020.04.08.032540v1
  2. 练习数据:https://www.ebi.ac.uk/ena/browser/view/PRJEB36155
复制代码
      2012 年加拿大 Northern Alberta 油砂尾矿池附近海藻细菌培养分离样品,2019 年重新培养提取。
脚本路径:
  1. https://zenodo.org/record/3745531#.Y1lAd7ZBxPa
复制代码
      《Complete and validated genomes from a metagenome》
       数据一般都在文章结尾的“Data availability”部分,从中找到 BioProject 号或者 SRA 号即可。例如该文章中给出了数据的 BioProject 号为 PRJEB36115。


三、centrifuge 物种鉴定
       centrifuge 的使用非常简单,输入数据包含测序的数据以及索引文件。可支持二代和三代测序数据,输入为 fastq 格式文件即可,也支持 fasta 格式以及原始 qseq 格式文件,同时支持pairend 数据,也支持压缩格式。其中索引只写前缀名即可。

  1. #centrifuge 进行物种分类鉴定
  2. centrifuge -x centrifuge_h+p+v_20200318/hpv -U nanopore.fastq.gz --report-file
  3. report.tsv -S result.tsv -p 64 >centrifuge.log
复制代码


四、结果解读
       centrifuge 默认会输出两个文件,分别是按照 reads 进行统计的结果与按照物种进行统计的结果。
1、按照 reads 进行统计的结果 centrifuge_output.tsv

       centrifuge 结果展示
      
该文件一共分类 8 列 。
       1:原始 read ID ;
       2、比对到数据库中的序列 ID,如果使用的是 Refseq 数据库或者 nt 库,则是序列的 AccessionID;
       3、物种分类 ID,第二列比对上序列对应的物种分类 ID;
       4、classification 的分值,比对上的序列之和;
       5、第二好比对结果分值;
       6、比对到序列的长度;
       7、比对的 reads 长度;
       8、这条 reads 比对上多少个物种序列;

2、按照比对上的物种进行统计 centrifuge_report.tsv
      
       1、比对上物种名字,如果鉴定不到种,则上升一级;
       2、物种分类 ID;
       3、物种分类层级 rank;
       4、对应基因组大小;
       5、比对到的 reads 数目,包括多重比对的结果;
       6、唯一比对上的 reads 数目;
       7、比对的丰度,比对上区域/基因组长度。


五、过滤结果
       由于序列相似性的缘故,一条序列可能会比对到数据库中多个物种,Centrifuge 原始的结果会鉴定到很多物种,这就需要对原始数据进行过滤,通常选择每条序列最优的比对。然后根据每个物种比对上的 reads 数进行过滤,同时也可以根据鉴定到的物种水平进行筛选。

  1. awk -F "\t" '{if ($3=="species" && $6 >5) print $1"\t"$6}' 0.01_report.tsv >0.01.txt
复制代码
      当然也可以用R语言去筛选和排序表格。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-11-23 21:42 , Processed in 0.089745 second(s), 30 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表