生信喵 发表于 2023-5-9 18:04:38

qiime2导入数据

       导入数据是 16S 测序数据分析中的第一步,也是最重要最难的一步。由于 16S 测序需要引物扩增,而且 16S 测序数量较小,一个样品几千条序列,对于高通量测序来说很小,因此都需要混合测序。将不同样品连接上 barcode 混合测序,测序完成之后在进行拆分。最终 16S测序的数据就有多个维度。
       1、fasta 和 fastq;
       2、单端测序与双端测序;
       3、单端 barcode 与双端 barcode;
       4、barcode 独立一个文件还是连接在序列中;
       5、barcode 序列在 ID 中;
       6、barcode 信息在 metadata 元数据中;
       因此,在导入数据之前,一定要对自己的数据有所了解,例如扩增 16S 哪个区域,单端测序还是双端测序,barcode 的位置等;如果是测序公司提供的数据,需要提供对应的 barcode信息。
       qiime2 支持多种不同的数据类型输入,但是需要指定具体的数据类型参数,通过—type 指定。
https://docs.qiime2.org/2023.2/tutorials/importing/#1 查看输入文件类型
qiime tools import --show-importable-types
#查看输入文件格式
qiime tools import --show-importable-formats       fastq 格式是 16S 最常用的一种文件格式,目前 fastq 格式主要分为以下四种。
案例一:EMP 计划的 fastq 格式;
       emp 计划使用一套标准的流程,生成的数据特点是 barcode 序列于 16S 序列分别存储在不同的文件中,有点类似于单细胞测序,每一条序列对应唯一的 barcode 序列。将相同 barcode序列进行合并即可。

#EMP单端测序下载
mkdir emp-single-end-sequences
wget -O "emp-single-end-sequences/barcodes.fastq.gz" "https://data.qiime2.org/2023.2/tutorials/moving-pictures/emp-single-end-sequences/barcodes.fastq.gz"
wget -O "emp-single-end-sequences/sequences.fastq.gz" "https://data.qiime2.org/2023.2/tutorials/moving-pictures/emp-single-end-sequences/sequences.fastq.gz"
#查看barcode
cd emp-single-end-sequences
zcat barcodes.fastq.gz |head
#EMP单端测序导入
qiime tools import \
--type EMPSingleEndSequences \
--input-path emp-single-end-sequences \
--output-path emp-single-end-sequences.qza

#EMP双端测序下载
mkdir emp-paired-end-sequences
wget \
-O "emp-paired-end-sequences/forward.fastq.gz" \
"https://data.qiime2.org/2023.2/tutorials/atacama-soils/1p/forward.fastq.gz"
wget \
-O "emp-paired-end-sequences/reverse.fastq.gz" \
"https://data.qiime2.org/2023.2/tutorials/atacama-soils/1p/reverse.fastq.gz"
wget \
-O "emp-paired-end-sequences/barcodes.fastq.gz" \
"https://data.qiime2.org/2023.2/tutorials/atacama-soils/1p/barcodes.fastq.gz"
#EMP双端测序导入
qiime tools import \
--type EMPPairedEndSequences \
--input-path emp-paired-end-sequences \
--output-path emp-paired-end-sequences.qza案例二:barcode 序列在 fastq 序列中
       barcode 序列连接到测序数据上,可以在一端,也可以在两端。这种数据需要提供一个metadata 文件。

mkdir muxed-se-barcode-in-seq
wget \
-O "muxed-se-barcode-in-seq/sequences.fastq.gz" \
"https://data.qiime2.org/2023.2/tutorials/importing/muxed-se-barcode-in-seq.fastq.gz"
#单端测序
qiime tools import \
--type MultiplexedSingleEndBarcodeInSequence \
--input-path muxed-se-barcode-in-seq/sequences.fastq.gz \
--output-path multiplexed-seqs.qza

#双端测序
mkdir muxed-pe-barcode-in-seq
wget \
-O "muxed-pe-barcode-in-seq/forward.fastq.gz" \
"https://data.qiime2.org/2023.2/tutorials/importing/muxed-pe-barcode-in-seq/forward.fastq.gz"
wget \
-O "muxed-pe-barcode-in-seq/reverse.fastq.gz" \
"https://data.qiime2.org/2023.2/tutorials/importing/muxed-pe-barcode-in-seq/reverse.fastq.gz"

qiime tools import \
--type MultiplexedPairedEndBarcodeInSequence \
--input-path muxed-pe-barcode-in-seq \
--output-path multiplexed-seqs.qza案例三:使用 illumina Casava 1.8 拆分的格式
       illumina Casava 1.8 拆分的 fastq 文件,会直接将样品名和 barcode 信息添加在文件名中。例如 L2S357_15_L001_R1_001.fastq.gz 文件名。

1 L2S357 为样品名
2 15 为 barcode 序列或者 barcode 标识符;
3 L001 为 the lane number,
4、R1 reads 标识符,R1 为 reads1,R2 为 reads2
5 001 为数据集名称       这种格式直接进行拆分即可
#单端结果
wget \
-O "casava-18-single-end-demultiplexed.zip" \
"https://data.qiime2.org/2023.2/tutorials/importing/casava-18-single-end-demultiplexed.zip"
unzip -q casava-18-single-end-demultiplexed.zip
qiime tools import \
--type 'SampleData' \
--input-path casava-18-single-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-single-end.qza
#双端结果
wget \
-O "casava-18-paired-end-demultiplexed.zip" \
"https://data.qiime2.org/2023.2/tutorials/importing/casava-18-paired-end-demultiplexed.zip"
unzip -q casava-18-paired-end-demultiplexed.zip
qiime tools import \
--type 'SampleData' \
--input-path casava-18-paired-end-demultiplexed \
--input-format CasavaOneEightSingleLanePerSampleDirFmt \
--output-path demux-paired-end.qza案例四:manifest file
       如果每个样品是独立的文件,可以通过一个 manifest 文件进行导入。文件格式为样品 ID,reads1 和 reads2 的绝对路径。

#phred编码方式33
wget \
-O "se-33.zip" \
"https://data.qiime2.org/2023.2/tutorials/importing/se-33.zip"
wget \
-O "se-33-manifest" \
"https://data.qiime2.org/2023.2/tutorials/importing/se-33-manifest"
unzip -q se-33.zip
qiime tools import \
--type 'SampleData' \
--input-path se-33-manifest \
--output-path single-end-demux.qza \
--input-format SingleEndFastqManifestPhred33V2
#phred编码方式64
wget \
-O "pe-64.zip" \
"https://data.qiime2.org/2023.2/tutorials/importing/pe-64.zip"
wget \
-O "pe-64-manifest" \
"https://data.qiime2.org/2023.2/tutorials/importing/pe-64-manifest"
unzip -q pe-64.zip
qiime tools import \
--type 'SampleData' \
--input-path pe-64-manifest \
--output-path paired-end-demux.qza \
--input-format PairedEndFastqManifestPhred64V2       还有其他格式导入见官网。

页: [1]
查看完整版本: qiime2导入数据