生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

318

主题
发表于 2023-5-11 10:33:27 | 查看: 2580| 回复: 0
背景
       由于 qiime2 不方面交互式数据探索,且使用的核心聚类算法为 dada2 软件。这里我们使用R 软件来进行 16S 的数据分析。在 R 环境中可以很方便的进行数据探索,且包含完整的统计分析功能,和数据可视化,使用 R 的 Dada2 包,polyseq 包以及 vegan 包,bugbase 等,可以完成 16S 数据分析的完成流程。
       从数据质控,到生成 ASV table,系统发育树构建,到 alpha 多样性,beta 多样性,再到各种环境因子统计检验都可以完成。
       使用 R 分析扩增子测序,主要有以下几个 R 包。
       dada2:从测序得到双刀 fastq 文件,到 ASV table;
       polyseq:对 dada2 得到的 ASV table 进行统计检验,alpha 多样性,beta 多样性分析,以及数据可视化,绘制热图,条形图以及网络图;
       vegan:生态学统计包,可以完成多种统计检验。
       ape:构建系统发育树。
       DECIPHER:物种分类鉴定。
       msa:多序列比对。
       bugbase:功能预测
参考文档:
  1. https://astrobiomike.github.io/amplicon/
复制代码
一、数据处理
       使用功能 dada2 要求输入数据为拆分后 barcode 序列,且已经切除引物(primers),接头(adapters or barcodes),linker 等。如果没有切出,则需要使用一些生物软件进行处理。
       这里推荐 sabre 用于拆分 barcode,cutadapt 切除引物,此外也可以使用 fastqc 进行质控,fastp 进行过滤等。

二、sabre 拆分 barcode
       Sabre 是一款进行 barcode 拆分的小工具,给定 barcode 序列,然后就可以用于拆分,可以是单端测序,也可以是双末端测序。
      
       拆分 barcode 原理
       官网:
  1. https://github.com/najoshi/sabre
复制代码
      软件安装非常容易,直接使用 bioconda 就可以进行安装。
  1. conda install -c conda-forge -c bioconda -c defaults sabre
复制代码
sabre 拆分数据

  1. #下载练习数据:
  2. wget https://s3-eu-west-1.amazonaws.com/pfigshare-u-files/11461430/demultiplex_ex.tar.gz
复制代码
  1. tar zxf demultiplex_ex.tar.gz
  2. #生成sabre格式barcode文件
  3. awk -v OFS="\t" ' NR > 1 {print $2, $1"_R1.fq", $1"_R2.fq"} ' 100914ML515F-mapping.txt > sabre_formatted_barcode_file.txt
复制代码
barcode 文件格式
  1. $ cat sabre_formatted_barcode_file.txt
  2. GAGAGTGT        5_75C_R1.fq     5_75C_R2.fq
  3. GAGATCAG        R0_06_10_R1.fq  R0_06_10_R2.fq
  4. GAGATCTC        R0_02_L_R1.fq   R0_02_L_R2.fq
  5. GAGATGAC        R0_03_R1.fq     R0_03_R2.fq
  6. GAGATGTG        R0_12_R1.fq     R0_12_R2.fq
  7. GAGTACAG        R0_09_R1.fq     R0_09_R2.fq
  8. GAGTACTC        R0_11_R1.fq     R0_11_R2.fq
复制代码
拆分 pairend 序列

  1. sabre pe -f Sam78-125_S3_L001_R1_001.fastq -r Sam78-125_S3_L001_R2_001.fastq -b sabre_formatted_barcode_file.txt -u no_bc_match_R1.fq -w no_bc_match_R2.fq
复制代码
选项参数:
       -f: reads1 序列
       -r: reads2 序列
       -b:barcode 文件
       -u:无法拆分 reads1 文件
       -w:无法拆分 reads2 文件
       -c:双端 barcode 标志
       -m:barcode 错配数

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-11-23 21:31 , Processed in 0.078843 second(s), 30 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表