生信人»论坛 › 生信基础 › 入门基础 › 二代测序宏基因组分析软件安装及数据库下载 ...

0 收听	12 听众	278 主题

二代测序宏基因组分析软件安装及数据库下载

发表于 2022-10-29 23:56:36 | 查看: 11295| 回复: 0

本帖最后由生信喵于 2022-11-1 10:40 编辑

一、二代宏基因组分析的特点
优势：
   1、高通量，可以测序出低丰度样品；
   2、价格低，适合大规模样品测序；
   3、准确性高，鉴定结果准确；
不足：
   1、读长短，容易出现多重比对；
   2、设备重，不方便现场测序；
   3、容易收到 GC 偏向性影响；
   4、需要扩增，容易引入偏向性。

二、二代测序宏基因组分析流程
            二代宏基因组分析流程图
   1、数据质控：使用 kneaddata 软件，该软件先调用 Trimmomatic 过滤数据，然后利用bowtie2 或 bmtagger 比对宿主数据库去除宿主数据 (也可以去除核糖体数据)。
   2、如果不拼接，则可以进行物种分类鉴定，包括组成件鉴定和功能鉴定，物种丰度分析，使用软件 MetaPhlAn2 或 Kraken2 实现序列的物种分类。功能鉴定可以使用 Humann 完成。
   3、也可以对基因组进行拼接，使用 megahit 和 metaspades 软件按照样本进行宏基因组组装。拼接完整之后，可以进行基因预测，使用 prokka 软件直接从组装好的 contig 或者scafford 预测基因，并使用 cd-hit 构建非冗余基因集。然后对预测得到的基因进行功能分析，与已知数据库例如 NR, COG, GO, KEGG, CAZY, ARDB 等数据库注释基因的功能。
如果想做基因丰度分析，有两种方案，第一种非比对方案，使用 Salmon 软件；第二种比对方案，bwa 或其他比对软件比对，bedtools 丰度统计。
   4、如果有多样品，可以进行分组统计，将得到物种/基因/功能表后利用 R 语言或者 STAMP等软件在物种，基因，功能等三个层面进行差异分析。

三、宏基因组分析团队
3.1 The Huttenhower Lab

官方主页：http://huttenhower.sph.harvard.edu/
biobakery 主页：https://github.com/biobakery
Galaxy 主页：http://huttenhower.sph.harvard.edu/galaxy/

复制代码

3.2 意大利特伦托大学 Nicola Segata

官方主页：http://segatalab.cibio.unitn.it/
github 主页：https://github.com/biobakery

复制代码

开发维护软件：http://segatalab.cibio.unitn.it/tools/index.html
MetaPhlAn (2022 )，PhyloPhlAn (2020)，ViromeQC (2019)，curatedMD (2017)，MetaMLST
(2016)，StrainPhlAn (2022)，MetAML (2016)，PanPhlAn (2020)，GraPhlAn (2015)，MetaRef
(2014)，MetaPhlAn (2012)，LEfSe (2011)，ShortBRED (2015)，MicroPITA (2014)，HUMAnN
(2012)

复制代码

四、软件安装以及数据库下载
4.1 软件安装

#bioBakery：http://segatalab.cibio.unitn.it/tools/biobakery/index.html
conda create -n biobakery python=3.7 -y
conda activate biobakery
conda config --add channels biobakery
#安装软件humann,kneaddata
conda install -y -c bioconda humann
#conda install -y -c biobakery humann 或者这个点安装
conda install -y -c biobakery kneaddata
conda install -y krona
conda install -y -c biobakery hclust2
#python2.7环境
conda create -n graphlan python=2.7 -y
conda activate graphlan
conda install -y graphlan
conda install -y export2graphlan
#conda install -y -c bioconda strainphlan 没安装上

复制代码

4.2 kneaddata 配置

$ kneaddata_database
KneadData Databases ( database : build = location )
human_genome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg37_and_human_contamination_Bowtie2_v0.1.tar.gz
human_genome : bmtagger = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_BMTagger_v0.1.tar.gz
human_transcriptome : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/Homo_sapiens_hg38_transcriptome_Bowtie2_v0.1.tar.gz
ribosomal_RNA : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/SILVA_128_LSUParc_SSUParc_ribosomal_RNA_v0.2.tar.gz
mouse_C57BL : bowtie2 = http://huttenhower.sph.harvard.edu/kneadData_databases/mouse_C57BL_6NJ_Bowtie2_v0.1.tar.gz
#可以将以上链接复制去本地迅雷下载，再上传到服务器比较快
kneaddata_database --download human_genome bowtie2 ./ #自带命令下载比较慢
#第二种：国家微生物科学中心下载，挺快
lftp ftp://download.nmdc.cn/tools/kneaddata
mirror human_genome
#自建bowtie2索引
#下载拟南芥
axel -n 100 http://ftp.ensemblgenomes.org/pub/plants/release-53/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
gunzip Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
mv Arabidopsis_thaliana.TAIR10.dna.toplevel.fa tair10.fa
# bowtie2构建索引
bowtie2-build -f tair10.fa tair10 --threads 12

复制代码

4.3 metaphlan 配置

#安装 metaphlan
conda create --name mpa -c bioconda python=3.7 metaphlan
#官网下载，
Zenodo：https://zenodo.org/record/3957592#.YrFQd4dBwQ8
wget https://zenodo.org/record/3957592/files/mpa_v30_CHOCOPhlAn_201901_marker_info.txt.bz2
wget https://zenodo.org/record/3957592/files/mpa_v30_CHOCOPhlAn_201901.tar
Segatalab FTP：http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/
http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/mpa_v31_CHOCOPhlAn_201901_marker_info.txt.bz2
http://cmprod1.cibio.unitn.it/biobakery3/metaphlan_databases/mpa_v31_CHOCOPhlAn_201901.tar
可以用迅雷下载完上传，两个文件共计400M左右。
#国家微生物科学中心下载，版本可能不对，建议还是上述迅雷下载
lftp ftp://download.nmdc.cn/tools/humann3
mirror metaphlan_databases/
#配置数据库
cd ~/Software/miniconda3/envs/mpa/lib/python3.7/site-packages/metaphlan/metaphlan_databases/
cp /share/home/xiehs/17.meta/database/metaphlan/* ./ #刚才下载文件所在的目录
$ ll
total 400M
-rw-rw-r-- 2 xiehs xiehs 50 Oct 26 20:59 README.txt
-rw-rw-r-- 1 xiehs xiehs 14M Oct 31 10:35 mpa_v31_CHOCOPhlAn_201901_marker_info.txt.bz2
-rw-rw-r-- 1 xiehs xiehs 408M Oct 31 10:35 mpa_v31_CHOCOPhlAn_201901.tar

复制代码

4.4 humann 配置
   软件的安装非常简单，一条命令即可，关键在于数据库的配置。humann 需要依赖很多数据库。首先需要配置好 metaphlan，其次下载一些 humann 需要的数据库，具体数据库见下面介绍。
   1、MetaPhlAn 的 Marker 基因集，用于物种组成分析，物种包括古菌、细菌、真核生物和病毒；
   2、ChocoPhlAn 泛基因组数据库，可以更快速准确获得功能谱，可获得基因组、基因和通路层面的结果；
   3、UniRef：数据库提供基因家族的定义，UniRef 包含三个子库，按照序列相似度分别为UniRef100，UniRef90 和 UniRef50。UniRef100 无相同序列，而 UniRef90 和 UniRef50 则是非冗余的，聚类相似度 90%和 50%。不要将 uniref 数据放到同一目录下，会先比较 uniref90在比较 uniref50；
   4、MetaCyc：通路基因通路的定义；
   5、MinPath：提供定义的最小通路集。

#方法1：从官网下载数据库，速度比较慢
#显示数据库内容
humann_databases
http://huttenhower.sph.harvard.edu/humann_data/chocophlan/full_chocophlan.v296_201901b.tar.gz
#创建数据库目录
mkdir humann3_databases
#方法1：官网下载，下载速度慢，用迅雷吧
humann_databases --download chocophlan full humann3_databases
humann_databases --download uniref uniref90_diamond humann3_databases
#humann_databases --download uniref uniref90_ec_filtered_diamond humann3_databases
humann_databases --download uniref uniref50_diamond humann3_databases
#humann_databases --download uniref uniref50_ec_filtered_diamond humann3_databases
humann_databases --download utility_mapping full humann3_databases
#方法2：国家微生物科学数据中心下载数据库，版本不对，这种方式下载不建议
lftp ftp://download.nmdc.cn/tools/
ls
mirror humann3 #full_chocophlan.v201901.tar.gz可见版本不对，不是前面humann_databases中的01b版本，这种方式下载不建议
mkdir chocophlan uniref utility_mapping
将4个数据库分别下载上传后，解压到各自目录
#3 更新数据库
humann_config --print
#数据库目录 /ifs1/MetaDatabase/humann3_databases，这里选用90的ref，准一些
humann_config --update database_folders nucleotide /share/home/xiehs/17.meta/database/humann3_databases/full_chocophlan
humann_config --update database_folders protein /share/home/xiehs/17.meta/database/humann3_databases/uniref90_diamond
humann_config --update database_folders utility_mapping /share/home/xiehs/17.meta/database/humann3_databases/utility_mapping
#更新完检查
humann_config --print
#修改线程
humann_config --update run_modes threads 12

复制代码

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册