illumina数据质控过滤

生信喵 发表于 2021-12-16 08:52:28

本帖最后由生信喵于 2021-12-16 09:22 编辑

背景    我们拿到测序的原始数据后，其实并不是所有的都是能用的数据，我们需要先做质控与过滤。首先认识下碱基的指标Q20（百分之一出错率），质量值>=Q20：好碱基，质量值<Q20：坏碱基。不过现在基本都用的Q30(千分之一)、Q40(万分之一)。
   还有Q20与Q30百分比用于评估数据质量：
   Q20百分比：质量值大于20碱基占总碱基的比例
   Q30百分比：质量值大于30碱基占总碱基的比例

   数据质量评估标准


一、利用 fastqc 进行质量控制
fastqc 质控
mkdir illumina_qc
fastqc -f fastq -o illumina_qc/ illumina_1.fastq.gz illumina_2.fastq.gz    碱基质量分布图

   碱基含量分布图


二、数据过滤
学习目标：
   1、知道为何要进行数据过滤；
   2、掌握数据过滤的内容；
   3、掌握数据过滤软件 fastp 以及 SOAPnuke 的使用；
   4、了解其他过数据滤软件；

利用 fastp 进行数据过滤
fastp 数据过滤
fastp -i illumina_1.fastq.gz -I illumina_2.fastq.gz -o clean.1.fq.gz -O clean
.2.fq.gz -z 4 -q 20 -u 40 -n 10 -f 15 -t 15 -F 15 -T 15 -h fastp.html非“基因组”本身序列

   1、adapter接头
   2、测序引物
   3、barcode
   4、index等

数据处理
1、去除adapter

   1、空载：
   adapter与adapter直接连接，中间没有插入片段，导致 read1测到3'adapter，read2测到5'adapter的反向互补reads尾部测到adapter
   2、插入片段过短
   插入片段长度小于上机测序循环(cycle)数，导致read1尾部测到3'adapter，read2尾部测到5'adapter的反向互补

2、去除N碱基过多reads

3、去除低质量
   1、以Q20作为判断标准
   2、低于Q20碱基占一条reads总碱基的比率
   3、例如低于Q20比率占30%

4、去除duplication
   两对reads，reads1 完全一致，reads2 完全一致


数据分析中标记Duplication

RNAseq与16S去duplication问题
   1、RNAseq与16s测序的duplication并不是打断不随机造成，天然就是某一段表达高，不用去
   2、去除duplication会造成丰度信息丢失
数据处理原则
   1、不要求100%精确，原则是不影响后续分析
   2、可以根据最终结果，重新过滤数据

三、过滤完质控
过滤完质控
mkdir illumina_clean
fastqc -f fastq -o illumina_clean/ clean.1.fq.gz clean.2.fq.gz
四、multiqc合并结果

页: [1]

生信人's Archiver

illumina数据质控过滤