生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

318

主题
发表于 2023-4-17 16:56:24 | 查看: 2746| 回复: 0
背景
       MetaWRAP 是用来做二代测序宏基因组分箱的流程。里面包含非常多宏基因组分析的工具,可以从测序的双末端 fastq 文件开始分析。metawrap 里面整合了质控、拼接、分箱、提纯、评估、物种注释、丰度估计、功能注释和可视化的分析流程。全部工具超过 140 个工具软件。
官网:
  1. https://github.com/bxlab/metaWRAP
复制代码
使用文档:
  1. https://github.com/bxlab/metaWRAP
复制代码
      metawrap 流程整合了 CONCOCT、MaxBin、 metaBAT 等三款分箱工具以及提纯和重组装算法。
      
       metawrap 分析流程图


一、安装软件
  1. #conda install conda=4.12.0
  2. #conda --version
  3. # 这里的mamba使用的是管理员base环境下安装的绝对路径
  4. ~/Software/miniconda3/bin/mamba --version
  5. mamba 0.22.1
  6. conda 4.12.0

  7. conda create -y -n metawrap-env python=2.7
  8. conda activate metawrap-env
  9. conda config --add channels defaults
  10. #conda config --add channels conda-forge
  11. #conda config --add channels bioconda
  12. conda config --add channels ursky

  13. # Unix/Linux only 这里的mamba使用的是管理员base环境下安装的绝对路径
  14. ~/Software/miniconda3/bin/mamba install -y --only-deps -c ursky metawrap-mg
  15. ~/Software/miniconda3/bin/mamba install -y -c ursky metawrap-mg=1.3.2
复制代码


二、配置数据库
Database Size Used in module
Checkm_DB 1.4GB binning, bin_refinement, reassemble_bins
KRAKEN standard database(暂不考虑) 161GB kraken
KRAKEN2 standard database 125GB kraken2
NCBI_nt 71GB blobology, classify_bins
NCBI_tax 283MB blobology, classify_bins
Indexed hg38 20GB read_qc
1 checkm 数据库配置
  1. mkdir MY_CHECKM_FOLDER;cd MY_CHECKM_FOLDER
  2. wget https://data.ace.uq.edu.au/public/CheckM_databases/checkm_data_2015_01_16.tar.gz
  3. tar -xvf *.tar.gz
  4. rm *.gz
  5. cd ../
  6. #设置目录
  7. checkm data setRoot     # CheckM will prompt to to chose your storage location
  8. # On newer versions of CheckM, you would run:
  9. #checkm data setRoot /path/to/your/dir/MY_CHECKM_FOLDER
  10. checkm data setRoot /share/home/xiehs/18.mags/MY_CHECKM_FOLDER
复制代码
2 KRAKEN2 物种注释数据库
  1. mkdir MY_KRAKEN2_DB;cd MY_KRAKEN2_DB
  2. #lftp ftp://download.nmdc.cn/tools/meta/kraken2
  3. #pget -n 16 k2_pluspfp_20230314.tar.gz 下载太慢
  4. 去本地下载后再上传
  5. #ftp://download.nmdc.cn/tools/meta/kraken2/k2_pluspfp_20230314.tar.gz
  6. 上传至
  7. /share/home/xiehs/18.mags/MY_KRAKEN2_DB
  8. tar -xvf k2_pluspfp_20230314.tar.gz

  9. # KRAKEN2_DB=/share/home/xiehs/18.mags/kraken2/200924
  10. #还需要下载细菌库
  11. kraken2-build --download-taxonomy --threads 24 --db MY_KRAKEN2_DB
复制代码
3 NCBI_nt 核酸数据库配置
  1. mkdir NCBI_nt;cd NCBI_nt
  2. ~/.aspera/connect/bin/ascp -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m [email protected]:blast/db/v4/nt_v4.{00..85}.tar.gz .
  3. for file in `ls *.gz`; do tar -xzf $file; done
复制代码
4 NCBI 物种信息
  1. mkdir NCBI_tax;cd NCBI_tax
  2. wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/taxdump.tar.gz
  3. tar -xvf taxdump.tar.gz
复制代码
5 人类基因组数据库 UCSC hg38
  1. mkdir BMTAGGER;cd BMTAGGER
  2. axel -n 100 http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz
  3. gunzip *fa.gz
  4. #cat *fa > hg38.fa
  5. #rm chr*.fa
  6. # 建立索引
  7. bmtool -d hg38.fa -o hg38.bitmask
  8. srprism mkindex -i hg38.fa -o hg38.srprism -M 100000
复制代码
      最后一步报错,可将-M值降低,例如50000。

三、修改配置文件
  1. vim ~/Software/miniconda3/envs/metawrap-env/bin/config-metawrap

  2. # path to kraken standard database
  3. #KRAKEN_DB=/ifs1/MetaDatabase/metawrap/kraken/
  4. KRAKEN2_DB=/share/home/xiehs/18.mags/MY_KRAKEN2_DB

  5. # path to indexed human (or other host) genome (see metaWRAP website for guide). This includes .bitmask and .srprism files
  6. BMTAGGER_DB=/share/home/xiehs/18.mags/BMTAGGER

  7. # paths to BLAST databases
  8. BLASTDB=/share/home/xiehs/18.mags/NCBI_nt
  9. TAXDUMP=/share/home/xiehs/18.mags/NCBI_tax
复制代码

四、修改代码
       kraken2_translate.py 修改配置文件
  1. vim ~/Software/miniconda3/envs/metawrap-env/bin/metawrap-scripts/kraken2_translate.py
  2. #29行左右修改为
  3. for taxid in taxid_lineage:
  4. #    name = names_map[taxid]
  5.     name = names_map.get(taxid)
  6. if name== None:
  7.     name="unknown"
  8. else:
  9.     names_lineage.append(name)
复制代码

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-11-23 21:14 , Processed in 0.096230 second(s), 31 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表