metawrap配置

生信喵 发表于 2023-4-17 16:56:24

背景
   MetaWRAP 是用来做二代测序宏基因组分箱的流程。里面包含非常多宏基因组分析的工具，可以从测序的双末端 fastq 文件开始分析。metawrap 里面整合了质控、拼接、分箱、提纯、评估、物种注释、丰度估计、功能注释和可视化的分析流程。全部工具超过 140 个工具软件。
官网：
https://github.com/bxlab/metaWRAP使用文档：
https://github.com/bxlab/metaWRAP    metawrap 流程整合了 CONCOCT、MaxBin、 metaBAT 等三款分箱工具以及提纯和重组装算法。

   metawrap 分析流程图

一、安装软件
#conda install conda=4.12.0
#conda --version
# 这里的mamba使用的是管理员base环境下安装的绝对路径
~/Software/miniconda3/bin/mamba --version
mamba 0.22.1
conda 4.12.0

conda create -y -n metawrap-env python=2.7
conda activate metawrap-env
conda config --add channels defaults
#conda config --add channels conda-forge
#conda config --add channels bioconda
conda config --add channels ursky

# Unix/Linux only 这里的mamba使用的是管理员base环境下安装的绝对路径
~/Software/miniconda3/bin/mamba install -y --only-deps -c ursky metawrap-mg
~/Software/miniconda3/bin/mamba install -y -c ursky metawrap-mg=1.3.2

二、配置数据库

Database Size Used in module
Checkm_DB 1.4GB binning, bin_refinement, reassemble_bins
KRAKEN standard database(暂不考虑） 161GB kraken
KRAKEN2 standard database 125GB kraken2
NCBI_nt 71GB blobology, classify_bins
NCBI_tax 283MB blobology, classify_bins
Indexed hg38 20GB read_qc
1 checkm 数据库配置
mkdir MY_CHECKM_FOLDER;cd MY_CHECKM_FOLDER
wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
tar -xvf *.tar.gz
rm *.gz
cd ../
#设置目录
checkm data setRoot # CheckM will prompt to to chose your storage location
# On newer versions of CheckM, you would run:
#checkm data setRoot /path/to/your/dir/MY_CHECKM_FOLDER
checkm data setRoot /share/home/xiehs/18.mags/MY_CHECKM_FOLDER2 KRAKEN2 物种注释数据库
mkdir MY_KRAKEN2_DB;cd MY_KRAKEN2_DB
#lftp ftp://download.nmdc.cn/tools/meta/kraken2
#pget -n 16 k2_pluspfp_20230314.tar.gz 下载太慢
去本地下载后再上传
#ftp://download.nmdc.cn/tools/meta/kraken2/k2_pluspfp_20230314.tar.gz
上传至
/share/home/xiehs/18.mags/MY_KRAKEN2_DB
tar -xvf k2_pluspfp_20230314.tar.gz

# KRAKEN2_DB=/share/home/xiehs/18.mags/kraken2/200924
#还需要下载细菌库
kraken2-build --download-taxonomy --threads 24 --db MY_KRAKEN2_DB3 NCBI_nt 核酸数据库配置
mkdir NCBI_nt;cd NCBI_nt
~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m [email protected]:blast/db/v4/nt_v4.{00..85}.tar.gz .
for file in `ls *.gz`; do tar -xzf $file; done4 NCBI 物种信息
mkdir NCBI_tax;cd NCBI_tax
wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
tar -xvf taxdump.tar.gz5 人类基因组数据库 UCSC hg38
mkdir BMTAGGER;cd BMTAGGER
axel -n 100 http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
gunzip *fa.gz
#cat *fa > hg38.fa
#rm chr*.fa
# 建立索引
bmtool -d hg38.fa -o hg38.bitmask
srprism mkindex -i hg38.fa -o hg38.srprism -M 100000    最后一步报错，可将-M值降低，例如50000。

三、修改配置文件
vim ~/Software/miniconda3/envs/metawrap-env/bin/config-metawrap

# path to kraken standard database
#KRAKEN_DB=/ifs1/MetaDatabase/metawrap/kraken/
KRAKEN2_DB=/share/home/xiehs/18.mags/MY_KRAKEN2_DB

# path to indexed human (or other host) genome (see metaWRAP website for guide). This includes .bitmask and .srprism files
BMTAGGER_DB=/share/home/xiehs/18.mags/BMTAGGER

# paths to BLAST databases
BLASTDB=/share/home/xiehs/18.mags/NCBI_nt
TAXDUMP=/share/home/xiehs/18.mags/NCBI_tax
四、修改代码
   kraken2_translate.py 修改配置文件
vim ~/Software/miniconda3/envs/metawrap-env/bin/metawrap-scripts/kraken2_translate.py
#29行左右修改为
for taxid in taxid_lineage:
# name = names_map
name = names_map.get(taxid)
if name== None:
name="unknown"
else:
names_lineage.append(name)

页: [1]

bioinfoer's Archiver

metawrap配置