生信喵 发表于 2023-5-11 10:33:27

利用 R 分析 16S 测序数据

背景
       由于 qiime2 不方面交互式数据探索,且使用的核心聚类算法为 dada2 软件。这里我们使用R 软件来进行 16S 的数据分析。在 R 环境中可以很方便的进行数据探索,且包含完整的统计分析功能,和数据可视化,使用 R 的 Dada2 包,polyseq 包以及 vegan 包,bugbase 等,可以完成 16S 数据分析的完成流程。
       从数据质控,到生成 ASV table,系统发育树构建,到 alpha 多样性,beta 多样性,再到各种环境因子统计检验都可以完成。
       使用 R 分析扩增子测序,主要有以下几个 R 包。
       dada2:从测序得到双刀 fastq 文件,到 ASV table;
       polyseq:对 dada2 得到的 ASV table 进行统计检验,alpha 多样性,beta 多样性分析,以及数据可视化,绘制热图,条形图以及网络图;
       vegan:生态学统计包,可以完成多种统计检验。
       ape:构建系统发育树。
       DECIPHER:物种分类鉴定。
       msa:多序列比对。
       bugbase:功能预测
参考文档:
https://astrobiomike.github.io/amplicon/一、数据处理
       使用功能 dada2 要求输入数据为拆分后 barcode 序列,且已经切除引物(primers),接头(adapters or barcodes),linker 等。如果没有切出,则需要使用一些生物软件进行处理。
       这里推荐 sabre 用于拆分 barcode,cutadapt 切除引物,此外也可以使用 fastqc 进行质控,fastp 进行过滤等。

二、sabre 拆分 barcode
       Sabre 是一款进行 barcode 拆分的小工具,给定 barcode 序列,然后就可以用于拆分,可以是单端测序,也可以是双末端测序。
      
       拆分 barcode 原理
       官网:
https://github.com/najoshi/sabre       软件安装非常容易,直接使用 bioconda 就可以进行安装。
conda install -c conda-forge -c bioconda -c defaults sabresabre 拆分数据

#下载练习数据:
wget https://s3-eu-west-1.amazonaws.com/pfigshare-u-files/11461430/demultiplex_ex.tar.gztar zxf demultiplex_ex.tar.gz
#生成sabre格式barcode文件
awk -v OFS="\t" ' NR > 1 {print $2, $1"_R1.fq", $1"_R2.fq"} ' 100914ML515F-mapping.txt > sabre_formatted_barcode_file.txtbarcode 文件格式
$ cat sabre_formatted_barcode_file.txt
GAGAGTGT      5_75C_R1.fq   5_75C_R2.fq
GAGATCAG      R0_06_10_R1.fqR0_06_10_R2.fq
GAGATCTC      R0_02_L_R1.fq   R0_02_L_R2.fq
GAGATGAC      R0_03_R1.fq   R0_03_R2.fq
GAGATGTG      R0_12_R1.fq   R0_12_R2.fq
GAGTACAG      R0_09_R1.fq   R0_09_R2.fq
GAGTACTC      R0_11_R1.fq   R0_11_R2.fq拆分 pairend 序列

sabre pe -f Sam78-125_S3_L001_R1_001.fastq -r Sam78-125_S3_L001_R2_001.fastq -b sabre_formatted_barcode_file.txt -u no_bc_match_R1.fq -w no_bc_match_R2.fq选项参数:
       -f: reads1 序列
       -r: reads2 序列
       -b:barcode 文件
       -u:无法拆分 reads1 文件
       -w:无法拆分 reads2 文件
       -c:双端 barcode 标志
       -m:barcode 错配数

页: [1]
查看完整版本: 利用 R 分析 16S 测序数据