生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

318

主题
发表于 2023-5-4 18:13:51 | 查看: 2863| 回复: 0
一、16S 分析软件比较
       16S 的分析软件有很多,2009 年 mothur 软件发布,可以在一款软件中完成 16S 的分析,在2010 年发布 qiime1 软件,qiime 其实是一个流程,里面整合了多种方法,例如 OTU 聚类就有 mothur 和 USEARCH 方法。2010 年发布 usearch,usearch 一款工具即可完成 16S 全部的分析内容。usearch 作者是该领域内非常有名的 Robert C.Edgar 的作品,而且软件一直在更新进化,从最开始的 UPARSE 算法,到 UCHIME 嵌合体检测算法,在到后来的 Unoise2 和Unoise3。不过 Usearch 软件 64 位版本是收费的,而 32 位软件免费,32 位软件最大只能使用 4G 内存,对于大数据处理不方便。
       由于 USEARCH 不开源,并且没有给出其软件中具体算法的详细描述。最主要的原因还有USEARCH免费的版本只有32位版本在使用时有4GB的使用内存限制。于是Torbjørn Rognes模仿 usearch,在 2016 年发布了 vsearch,VSEARCH 是一个开源免费的 64 位,无内存限制的扩增子数据处理分析软件,且功能和结果与 usearch 类似。
       同年,2016 年发布了 dada2 软件,dada2 是一个 R 包,dada2 挑战了之前 16S 数据分析的金标准 OTU,推出了 ASV 的新概念,目前已经有越来越多的学者开始转向 ASV 的聚类算法,成为 16S 研究的新标准。
       2019 年,qiime 升级到了新版本 qiime2,qiime2 摒弃之前 qiime1 的方法,重新构建 qimme2,是 qiime2 变成一个平台工具。
  1. mothur:http://mothur.org/
  2. qiime2: https://www.qiime2.org
  3. vsearch:https://github.com/torognes/vsearch
  4. usearch:http://www.drive5.com/usearch/
  5. data2:https://benjjneb.github.io/dada2/index.html
  6. phyloseq:https://github.com/joey711/phyloseq
  7. vegan:https://vegan.r-forge.r-project.org
复制代码
      无论使用哪款软件,16S 的核心都是得到 OTU/ASV 矩阵,和物种分类矩阵。后续统计分析基于矩阵。
      
        16S 得到矩阵之后分析

二、数据库下载
2.1 Silva
       SILVA 数据库,SILVA 数据库由德国马普研究所和 Ribocon 主持,提供最新的核糖体大小亚基 rRNA 注释信息。SILVA 数据库是软件包 ARB 的官方数据库,提供全面的,高质量的可比对的小亚基(如 16S/18S,SSU),以及大亚基(23S/28S,LSU)的 rRNA 序列,用于细菌,古生菌,以及真菌分析。silva 也是 mothur 软件中推荐使用的数据库。silva 数据库里面包含五个独立的部分,分别是小亚基的 SSU Parc,SSU Ref 以及 SSU Ref NR,还有大亚基的 LSU Parc 与 LSU Ref。
       这些库之间有什么差别呢。这是根据不同的序列长度以及聚类的序列相似性来生成的。官网上面有详细的介绍。我们可以通过网页或者 ftp 服务器下载 silva 的数据库。里面包括 arb 文件和 fasta 文件,如果不使用 arb 的软件,我们只需下载 fasta 的文件。ARB_files 存储的为arb 格式的文件,Export 为 fasta 序列格式的文件。在 16S 序列分析中,我们推荐使用 SSU Ref NR 这个数据库,这个是使用 99%的 identity 标准来进行非冗余处理,准确性更高,在 18S序列分析中,使用 LSU Ref。并且这些版本的数据库包含一个 Guide Tree。

  1. 网站链接:http://www.arb-silva.de/
复制代码
      最大最全的数据库,但是缺点是假阳性率会更高。


2.2 GreenGene
       Greengenes 数据库由 Lawrence Berkeley National Laboratory 构建。目前已经不再提供更新。之前很多 16S 分析软件默认的库都是 GreenGene,例如 qiime 软件中默认使用的是greengene 数 据 库 , 为 97_otus.fasta 这 个 文 件 , 以 及 一 个 对 应 的 注 释 文 件97_otu_taxonomy.txt,一个构建好的系统发育树 97_otus.tree。16S 功能分析工具 PICRUSt也是基于该数据库的。主要是人工整理,比较准确。分类采用常用的七级界门纲目科属种,方便理解和阅读。

  1. https://greengenes.secondgenome.com/
复制代码


2.3 RDP
       RDP 数据库来自于(Ribosomal Database Project),是由密歇根州立大学开发维护的在线工具,包括数据库和分析工具两部分。 其中数据库提供核糖体相关数据和服务,包括在线的数据分析、比对、16S rRNA 序列的注释。RDP 数据库提供 16S rRNA序列比对和分类、进化树构建、物种分类 heatmap、功能基因分析等方便的数据处理功能。RDP 项目提供了完整的 16S 和 18S 分析方案。

  1. http://rdp.cme.msu.edu/
复制代码

2.4 UNITE
       UNITE 数据库的全称是 User-friendly Nordic ITS Ectomycorrhiza Database,直译过来是北欧友好的外生菌根真菌 ITS 数据库。它并不包含所有真菌 ITS 的参考序列,因为这方面目前累计的数据还比较少,没有 16S 或者 18S 的信息那么多。虽然里面包含的真菌序列不是特别全,但是 UNITE 数据库官方介绍它的一大优势是准确性比较高,追求质量和放弃数量。数据库筛选过程比较严格,收入的都是高质量以及分类鉴定很清晰的真菌。里面包含一个 fasta格式的序列文件,用于比对,以及一个比对之后的点 tax 格式的物种注释文件。这个和 16S的类似。ITS 的分析同样可以使用 16S 分析的各种流程软件。

  1. https://unite.ut.ee/
复制代码


三、软件安装
3.1 16S 分析软件安装

  1. #创建16S虚拟环境
  2. conda create -n 16s -y
  3. conda activate 16s
  4. conda install -y sabre
  5. conda install -y vsearch
  6. conda install -y cutadapt
  7. conda install -y fastqc
  8. conda install -y multiqc
  9. conda install -y bioconductor-phyloseq
  10. conda install -y bioconductor-dada2
  11. conda install -y r-vegan
  12. conda install -y bioconductor-decipher
  13. conda install -y bioconductor-msa
  14. #安装picrust2
  15. conda create -n picrust2 -y picrust2
  16. conda activate picrust2
复制代码

3.2 qiime 软件安装
       conda 安装 qiime2
  1. wget https://data.qiime2.org/distro/core/qiime2-2022.2-py38-linux-conda.yml
  2. conda env create -n qiime2-2022.2 --file qiime2-2022.2-py38-linux-conda.yml
  3. conda activate qiime2-2022.2
复制代码


3.3 下载数据库
  1. #https://nmdc.cn/datadownload
  2. #RDP
  3. lftp        
  4. ftp://download.nmdc.cn/tools/soft/EasyAmplicon/usearch/
  5. mget rdp_16s_v16_sp.fa.gz

  6. #SILVA
  7. lftp ftp://download.nmdc.cn/tools/silva/
  8. mget silva_16s_v123.fa.gz

  9. #UNITE
  10. lftp ftp://download.nmdc.cn/tools/soft/EasyAmplicon/usearch/
  11. mget utax_reference_dataset_all_04.02.2020.fasta.gz

  12. #从qiime2网站下载
  13. #https://docs.qiime2.org/2022.2/data-resources/
复制代码


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-11-23 21:37 , Processed in 0.105395 second(s), 31 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表