生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

278

主题
发表于 2022-10-29 23:56:36 | 查看: 11295| 回复: 0
本帖最后由 生信喵 于 2022-11-1 10:40 编辑

一、二代宏基因组分析的特点
优势:
       1、高通量,可以测序出低丰度样品;
       2、价格低,适合大规模样品测序;
       3、准确性高,鉴定结果准确;
不足:
       1、读长短,容易出现多重比对;
       2、设备重,不方便现场测序;
       3、容易收到 GC 偏向性影响;
       4、需要扩增,容易引入偏向性。

二、二代测序宏基因组分析流程
              二代宏基因组分析流程图
       1、数据质控:使用 kneaddata 软件,该软件先调用 Trimmomatic 过滤数据,然后利用bowtie2 或 bmtagger 比对宿主数据库去除宿主数据 (也可以去除核糖体数据)。
       2、如果不拼接,则可以进行物种分类鉴定,包括组成件鉴定和功能鉴定,物种丰度分析,使用软件 MetaPhlAn2 或 Kraken2 实现序列的物种分类。功能鉴定可以使用 Humann 完成。
       3、也可以对基因组进行拼接,使用 megahit 和 metaspades 软件按照样本进行宏基因组组装。拼接完整之后,可以进行基因预测,使用 prokka 软件直接从组装好的 contig 或者scafford 预测基因,并使用 cd-hit 构建非冗余基因集。然后对预测得到的基因进行功能分析,与已知数据库例如 NR, COG, GO, KEGG, CAZY, ARDB 等数据库注释基因的功能。
如果想做基因丰度分析,有两种方案,第一种非比对方案,使用 Salmon 软件;第二种比对方案,bwa 或其他比对软件比对,bedtools 丰度统计。
       4、如果有多样品,可以进行分组统计,将得到物种/基因/功能表后利用 R 语言或者 STAMP等软件在物种,基因,功能等三个层面进行差异分析。

三、宏基因组分析团队
3.1 The Huttenhower Lab
  1. 官方主页:http://huttenhower.sph.harvard.edu/
  2. biobakery 主页:https://github.com/biobakery
  3. Galaxy 主页:http://huttenhower.sph.harvard.edu/galaxy/
复制代码
3.2 意大利特伦托大学 Nicola Segata
  1. 官方主页:http://segatalab.cibio.unitn.it/
  2. github 主页:https://github.com/biobakery
复制代码
  1. 开发维护软件:http://segatalab.cibio.unitn.it/tools/index.html
  2. MetaPhlAn (2022 ),PhyloPhlAn (2020),ViromeQC (2019),curatedMD (2017),MetaMLST
  3. (2016),StrainPhlAn (2022),MetAML (2016),PanPhlAn (2020),GraPhlAn (2015),MetaRef
  4. (2014),MetaPhlAn (2012),LEfSe (2011),ShortBRED (2015),MicroPITA (2014),HUMAnN
  5. (2012)
复制代码

四、软件安装以及数据库下载
4.1 软件安装
  1. #bioBakery:http://segatalab.cibio.unitn.it/tools/biobakery/index.html
  2. conda create -n biobakery python=3.7 -y
  3. conda activate biobakery
  4. conda config --add channels biobakery

  5. #安装软件humann,kneaddata
  6. conda install -y -c bioconda humann
  7. #conda install -y -c biobakery humann 或者这个点安装
  8. conda install -y -c biobakery kneaddata
  9. conda install -y krona
  10. conda install -y -c biobakery hclust2

  11. #python2.7环境
  12. conda create -n graphlan python=2.7 -y
  13. conda activate graphlan
  14. conda install -y graphlan
  15. conda install -y export2graphlan
  16. #conda install -y -c bioconda strainphlan  没安装上
复制代码
4.2 kneaddata 配置
  1. $ kneaddata_database
  2. KneadData Databases ( database : build = location )
  3. human_genome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
  4. human_genome : bmtagger = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_BMTagger_v0.1.tar.gz
  5. human_transcriptome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg38_transcriptome_Bowtie2_v0.1.tar.gz
  6. ribosomal_RNA : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/SILVA_128_LSUParc_SSUParc_ribosomal_RNA_v0.2.tar.gz
  7. mouse_C57BL : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/mouse_C57BL_6NJ_Bowtie2_v0.1.tar.gz
  8. #可以将以上链接复制去本地迅雷下载,再上传到服务器 比较快
  9. kneaddata_database --download human_genome bowtie2 ./ #自带命令下载比较慢
  10. #第二种:国家微生物科学中心下载,挺快
  11. lftp ftp://download.nmdc.cn/tools/kneaddata
  12. mirror human_genome

  13. #自建bowtie2索引
  14. #下载拟南芥
  15. axel -n 100 http://ftp.ensemblgenomes.org/pub/plants/release-53/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
  16. gunzip Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
  17. mv Arabidopsis_thaliana.TAIR10.dna.toplevel.fa tair10.fa
  18. # bowtie2构建索引
  19. bowtie2-build -f tair10.fa tair10 --threads 12
复制代码
4.3 metaphlan 配置
  1. #安装 metaphlan
  2. conda create --name mpa -c bioconda python=3.7 metaphlan
  3. #官网下载,
  4. Zenodo:https://zenodo.org/record/3957592#.YrFQd4dBwQ8
  5.     wget https://zenodo.org/record/3957592/files/mpa_v30_CHOCOPhlAn_201901_marker_info.txt.bz2
  6.     wget https://zenodo.org/record/3957592/files/mpa_v30_CHOCOPhlAn_201901.tar

  7. Segatalab FTP:http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/
  8.     http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/mpa_v31_CHOCOPhlAn_201901_marker_info.txt.bz2
  9.     http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/mpa_v31_CHOCOPhlAn_201901.tar
  10.     可以用迅雷下载完上传,两个文件共计400M左右。

  11. #国家微生物科学中心下载,版本可能不对,建议还是上述迅雷下载
  12. lftp ftp://download.nmdc.cn/tools/humann3
  13. mirror metaphlan_databases/

  14. #配置数据库
  15. cd ~/Software/miniconda3/envs/mpa/lib/python3.7/site-packages/metaphlan/metaphlan_databases/
  16. cp /share/home/xiehs/17.meta/database/metaphlan/* ./ #刚才下载文件所在的目录
  17.     $ ll
  18.     total 400M
  19.     -rw-rw-r-- 2 xiehs xiehs   50 Oct 26 20:59 README.txt
  20.     -rw-rw-r-- 1 xiehs xiehs  14M Oct 31 10:35 mpa_v31_CHOCOPhlAn_201901_marker_info.txt.bz2
  21.     -rw-rw-r-- 1 xiehs xiehs 408M Oct 31 10:35 mpa_v31_CHOCOPhlAn_201901.tar
复制代码
4.4 humann 配置
       软件的安装非常简单,一条命令即可,关键在于数据库的配置。humann 需要依赖很多数据库。首先需要配置好 metaphlan,其次下载一些 humann 需要的数据库,具体数据库见下面介绍 。
       1、MetaPhlAn 的 Marker 基因集,用于物种组成分析,物种包括古菌、细菌、真核生物和病毒;
       2、ChocoPhlAn 泛基因组数据库, 可以更快速准确获得功能谱,可获得基因组、基因和通路层面的结果;
       3、UniRef:数据库提供基因家族的定义,UniRef 包含三个子库,按照序列相似度分别为UniRef100,UniRef90 和 UniRef50。UniRef100 无相同序列,而 UniRef90 和 UniRef50 则是非冗余的,聚类相似度 90%和 50%。不要将 uniref 数据放到同一目录下,会先比较 uniref90在比较 uniref50;
       4、MetaCyc:通路基因通路的定义;
       5、MinPath:提供定义的最小通路集。
  1. #方法1:从官网下载数据库,速度比较慢
  2. #显示数据库内容
  3. humann_databases
  4.     http://huttenhower.sph.harvard.edu/humann_data/chocophlan/full_chocophlan.v296_201901b.tar.gz
  5. #创建数据库目录
  6. mkdir humann3_databases
  7. #方法1:官网下载,下载速度慢,用迅雷吧
  8. humann_databases --download chocophlan full humann3_databases
  9. humann_databases --download uniref uniref90_diamond humann3_databases
  10. #humann_databases --download uniref uniref90_ec_filtered_diamond humann3_databases
  11. humann_databases --download uniref uniref50_diamond humann3_databases
  12. #humann_databases --download uniref uniref50_ec_filtered_diamond humann3_databases
  13. humann_databases --download utility_mapping full humann3_databases

  14. #方法2:国家微生物科学数据中心下载数据库,版本不对,这种方式下载不建议
  15. lftp ftp://download.nmdc.cn/tools/
  16. ls
  17. mirror humann3 #full_chocophlan.v201901.tar.gz可见版本不对,不是前面humann_databases中的01b版本,这种方式下载不建议
  18. mkdir chocophlan uniref utility_mapping

  19. 将4个数据库分别下载上传后,解压到各自目录

  20. #3 更新数据库
  21. humann_config --print
  22. #数据库目录 /ifs1/MetaDatabase/humann3_databases,这里选用90的ref,准一些
  23. humann_config --update database_folders nucleotide /share/home/xiehs/17.meta/database/humann3_databases/full_chocophlan
  24. humann_config --update database_folders protein /share/home/xiehs/17.meta/database/humann3_databases/uniref90_diamond
  25. humann_config --update database_folders utility_mapping /share/home/xiehs/17.meta/database/humann3_databases/utility_mapping
  26. #更新完检查
  27. humann_config --print
  28. #修改线程
  29. humann_config --update run_modes threads 12
复制代码

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-4-30 14:58 , Processed in 0.039508 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表