|
发表于 2022-10-18 12:09:54
|
查看: 9935 |
回复: 0
本帖最后由 生信喵 于 2022-10-18 16:33 编辑
一、安装软件
- #创建meta虚拟环境
- conda create -n meta -y
- conda activate meta
- conda install -y fastqc
- conda install -y multiqc
- conda install -y fastp
- conda install -y seqkit
- conda install -y bwa
- conda install -y bwa-mem2
- conda install -y kraken2
- conda install -y minimap2
复制代码
二、宏基因组数据库
2.1 NCBI 物种分类 taxonomy 数据库
NCBI 的分类数据库,包括大于 7 万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止到目前,各个物种的统计结果见下表。
数据库地址:
- https://www.ncbi.nlm.nih.gov/taxonomy
复制代码 数据下载地址:
- https://ftp.ncbi.nih.gov/pub/taxonomy/
复制代码 NCBI 物种分类数据库统计
2.2 nt/nr 库
nt 库:NT(Nucleotide Sequence Database),核酸序列数据库,包含所有已测序基因组序列,以及各种测序片段的序列。里面的数据是冗余的,比如同样一个物种,每测序一次,就添加一次,随着测序测序数据越来越多,nt 也越来越大。
nr 库:Non-Redundant Protein Sequence Database,非冗余蛋白库,包括 GenPept, Swissprot, PIR, PDF, PDB, and NCBI RefSeq 等库。
下载地址:
- https://ftp.ncbi.nih.gov/blast/db/
复制代码- #nt 库下载:
- wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nt.gz
- #nr 库下载:
- wget https://ftp.ncbi.nih.gov/blast/db/FASTA/nr.gz
复制代码 2.3 Refseq 数据库:
RefSeq 数据库:the reference sequence database,参考序列数据库,是经过 NCBI 和其他组织校正的数据库,使用人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。RefSeq 数据库和 GenBank 数据库的区别在于:GenBank 是一个开放的数据库,对每个基因都含有许多序列。genbank 的数据可能重复或者不准。而 RefSeq 数据库是 NCBI提供的校正的序列数据和相关的信息。
refseq 网址:
- https://www.ncbi.nlm.nih.gov/refseq/
复制代码
下载地址:
- https://ftp.ncbi.nih.gov/refseq/release/
复制代码 2.4 GTDB
GTDB:Genome Taxonomy Database,基因组分类数据库,是基于大量基因组的系统发育分析来构建基因组分类学研究的标准流程,从而对微生物进行分类 。
数据库主页:
- http://gtdb.ecogenomic.org/
复制代码 可以使用工具 GTDB-Tk 来基于该数据库对未知基因组进行分类。
2.5 EBI MGNify
以前是 EBI Metagenomics,欧洲分子生物学中心 EBI 下属机构。提供了一个免费使用的平台,用于组装,分析和归档源自特定环境中存在的微生物种群的测序的微生物组数据。- https://www.ebi.ac.uk/ena
- https://www.ebi.ac.uk/metagenomics/
复制代码 2.6 功能注释数据库
- UniProtKB: https://www.uniprot.org/
- Gene Ontology:http://www.geneontology.org/
- CARD 数据库: https://card.mcmaster.ca/
- KEGG 数据库: https://www.kegg.jp
- COG 数据库:https://www.ncbi.nlm.nih.gov/COG/
- CAZy 数据库:http://www.cazy.org/
复制代码
三、下载数据库
- #方法1 物种分类数据库
- ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m [email protected]:pub/taxonomy/ ./
- #方法2 国家微生物科学中心
- lftp ftp://download.nmdc.cn/
- ls
- mirror taxonomy
- #nt库与nr库也可以通过aspera下载
- ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m [email protected]:blast/db/FASTA/nr.gz ./
- ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m [email protected]:blast/db/FASTA/nt.gz ./
- #下载建好库的nt和nr
- ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m [email protected]:blast/db/nt.{00..75}.tar.gz ./
- ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m [email protected]:blast/db/nr.{00..63}.tar.gz ./
复制代码
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
|