|
发表于 2023-4-17 16:56:24
|
查看: 2746 |
回复: 0
背景
MetaWRAP 是用来做二代测序宏基因组分箱的流程。里面包含非常多宏基因组分析的工具,可以从测序的双末端 fastq 文件开始分析。metawrap 里面整合了质控、拼接、分箱、提纯、评估、物种注释、丰度估计、功能注释和可视化的分析流程。全部工具超过 140 个工具软件。
官网:
- https://github.com/bxlab/metaWRAP
复制代码 使用文档:
- https://github.com/bxlab/metaWRAP
复制代码 metawrap 流程整合了 CONCOCT、MaxBin、 metaBAT 等三款分箱工具以及提纯和重组装算法。
metawrap 分析流程图
一、安装软件
- #conda install conda=4.12.0
- #conda --version
- # 这里的mamba使用的是管理员base环境下安装的绝对路径
- ~/Software/miniconda3/bin/mamba --version
- mamba 0.22.1
- conda 4.12.0
- conda create -y -n metawrap-env python=2.7
- conda activate metawrap-env
- conda config --add channels defaults
- #conda config --add channels conda-forge
- #conda config --add channels bioconda
- conda config --add channels ursky
- # Unix/Linux only 这里的mamba使用的是管理员base环境下安装的绝对路径
- ~/Software/miniconda3/bin/mamba install -y --only-deps -c ursky metawrap-mg
- ~/Software/miniconda3/bin/mamba install -y -c ursky metawrap-mg=1.3.2
复制代码
二、配置数据库
Database | Size | Used in module | Checkm_DB | 1.4GB | binning, bin_refinement, reassemble_bins | KRAKEN standard database(暂不考虑) | 161GB | kraken | KRAKEN2 standard database | 125GB | kraken2 | NCBI_nt | 71GB | blobology, classify_bins | NCBI_tax | 283MB | blobology, classify_bins | Indexed hg38 | 20GB | read_qc | 1 checkm 数据库配置
- mkdir MY_CHECKM_FOLDER;cd MY_CHECKM_FOLDER
- wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
- tar -xvf *.tar.gz
- rm *.gz
- cd ../
- #设置目录
- checkm data setRoot # CheckM will prompt to to chose your storage location
- # On newer versions of CheckM, you would run:
- #checkm data setRoot /path/to/your/dir/MY_CHECKM_FOLDER
- checkm data setRoot /share/home/xiehs/18.mags/MY_CHECKM_FOLDER
复制代码 2 KRAKEN2 物种注释数据库
- mkdir MY_KRAKEN2_DB;cd MY_KRAKEN2_DB
- #lftp ftp://download.nmdc.cn/tools/meta/kraken2
- #pget -n 16 k2_pluspfp_20230314.tar.gz 下载太慢
- 去本地下载后再上传
- #ftp://download.nmdc.cn/tools/meta/kraken2/k2_pluspfp_20230314.tar.gz
- 上传至
- /share/home/xiehs/18.mags/MY_KRAKEN2_DB
- tar -xvf k2_pluspfp_20230314.tar.gz
- # KRAKEN2_DB=/share/home/xiehs/18.mags/kraken2/200924
- #还需要下载细菌库
- kraken2-build --download-taxonomy --threads 24 --db MY_KRAKEN2_DB
复制代码 3 NCBI_nt 核酸数据库配置
- mkdir NCBI_nt;cd NCBI_nt
- ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m [email protected]:blast/db/v4/nt_v4.{00..85}.tar.gz .
- for file in `ls *.gz`; do tar -xzf $file; done
复制代码 4 NCBI 物种信息
- mkdir NCBI_tax;cd NCBI_tax
- wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
- tar -xvf taxdump.tar.gz
复制代码 5 人类基因组数据库 UCSC hg38
- mkdir BMTAGGER;cd BMTAGGER
- axel -n 100 http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
- gunzip *fa.gz
- #cat *fa > hg38.fa
- #rm chr*.fa
- # 建立索引
- bmtool -d hg38.fa -o hg38.bitmask
- srprism mkindex -i hg38.fa -o hg38.srprism -M 100000
复制代码 最后一步报错,可将-M值降低,例如50000。
三、修改配置文件
- vim ~/Software/miniconda3/envs/metawrap-env/bin/config-metawrap
- # path to kraken standard database
- #KRAKEN_DB=/ifs1/MetaDatabase/metawrap/kraken/
- KRAKEN2_DB=/share/home/xiehs/18.mags/MY_KRAKEN2_DB
- # path to indexed human (or other host) genome (see metaWRAP website for guide). This includes .bitmask and .srprism files
- BMTAGGER_DB=/share/home/xiehs/18.mags/BMTAGGER
- # paths to BLAST databases
- BLASTDB=/share/home/xiehs/18.mags/NCBI_nt
- TAXDUMP=/share/home/xiehs/18.mags/NCBI_tax
复制代码
四、修改代码
kraken2_translate.py 修改配置文件
- vim ~/Software/miniconda3/envs/metawrap-env/bin/metawrap-scripts/kraken2_translate.py
- #29行左右修改为
- for taxid in taxid_lineage:
- # name = names_map[taxid]
- name = names_map.get(taxid)
- if name== None:
- name="unknown"
- else:
- names_lineage.append(name)
复制代码 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
|