利用 R 分析 16S 测序数据
背景由于 qiime2 不方面交互式数据探索,且使用的核心聚类算法为 dada2 软件。这里我们使用R 软件来进行 16S 的数据分析。在 R 环境中可以很方便的进行数据探索,且包含完整的统计分析功能,和数据可视化,使用 R 的 Dada2 包,polyseq 包以及 vegan 包,bugbase 等,可以完成 16S 数据分析的完成流程。
从数据质控,到生成 ASV table,系统发育树构建,到 alpha 多样性,beta 多样性,再到各种环境因子统计检验都可以完成。
使用 R 分析扩增子测序,主要有以下几个 R 包。
dada2:从测序得到双刀 fastq 文件,到 ASV table;
polyseq:对 dada2 得到的 ASV table 进行统计检验,alpha 多样性,beta 多样性分析,以及数据可视化,绘制热图,条形图以及网络图;
vegan:生态学统计包,可以完成多种统计检验。
ape:构建系统发育树。
DECIPHER:物种分类鉴定。
msa:多序列比对。
bugbase:功能预测
参考文档:
https://astrobiomike.github.io/amplicon/一、数据处理
使用功能 dada2 要求输入数据为拆分后 barcode 序列,且已经切除引物(primers),接头(adapters or barcodes),linker 等。如果没有切出,则需要使用一些生物软件进行处理。
这里推荐 sabre 用于拆分 barcode,cutadapt 切除引物,此外也可以使用 fastqc 进行质控,fastp 进行过滤等。
二、sabre 拆分 barcode
Sabre 是一款进行 barcode 拆分的小工具,给定 barcode 序列,然后就可以用于拆分,可以是单端测序,也可以是双末端测序。
拆分 barcode 原理
官网:
https://github.com/najoshi/sabre 软件安装非常容易,直接使用 bioconda 就可以进行安装。
conda install -c conda-forge -c bioconda -c defaults sabresabre 拆分数据
#下载练习数据:
wget https://s3-eu-west-1.amazonaws.com/pfigshare-u-files/11461430/demultiplex_ex.tar.gztar zxf demultiplex_ex.tar.gz
#生成sabre格式barcode文件
awk -v OFS="\t" ' NR > 1 {print $2, $1"_R1.fq", $1"_R2.fq"} ' 100914ML515F-mapping.txt > sabre_formatted_barcode_file.txtbarcode 文件格式
$ cat sabre_formatted_barcode_file.txt
GAGAGTGT 5_75C_R1.fq 5_75C_R2.fq
GAGATCAG R0_06_10_R1.fqR0_06_10_R2.fq
GAGATCTC R0_02_L_R1.fq R0_02_L_R2.fq
GAGATGAC R0_03_R1.fq R0_03_R2.fq
GAGATGTG R0_12_R1.fq R0_12_R2.fq
GAGTACAG R0_09_R1.fq R0_09_R2.fq
GAGTACTC R0_11_R1.fq R0_11_R2.fq拆分 pairend 序列
sabre pe -f Sam78-125_S3_L001_R1_001.fastq -r Sam78-125_S3_L001_R2_001.fastq -b sabre_formatted_barcode_file.txt -u no_bc_match_R1.fq -w no_bc_match_R2.fq选项参数:
-f: reads1 序列
-r: reads2 序列
-b:barcode 文件
-u:无法拆分 reads1 文件
-w:无法拆分 reads2 文件
-c:双端 barcode 标志
-m:barcode 错配数
页:
[1]