生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

278

主题
发表于 2021-12-16 08:52:28 | 查看: 1431| 回复: 0
本帖最后由 生信喵 于 2021-12-16 09:22 编辑

背景      我们拿到测序的原始数据后,其实并不是所有的都是能用的数据,我们需要先做质控与过滤。首先认识下碱基的指标Q20(百分之一出错率),质量值>=Q20:好碱基,质量值<Q20:坏碱基。不过现在基本都用的Q30(千分之一)、Q40(万分之一)。
      还有Q20与Q30百分比用于评估数据质量:
      Q20百分比:质量值大于20碱基占总碱基的比例
      Q30百分比:质量值大于30碱基占总碱基的比例

      数据质量评估标准
      

一、利用 fastqc 进行质量控制
  1. fastqc 质控
  2. mkdir illumina_qc
  3. fastqc -f fastq -o illumina_qc/ illumina_1.fastq.gz illumina_2.fastq.gz
复制代码
     碱基质量分布图
      
      碱基含量分布图
      


二、数据过滤
学习目标:
      1、知道为何要进行数据过滤;
      2、掌握数据过滤的内容;
      3、掌握数据过滤软件 fastp 以及 SOAPnuke 的使用;
      4、了解其他过数据滤软件;

  1. 利用 fastp 进行数据过滤
  2. fastp 数据过滤
  3. fastp -i illumina_1.fastq.gz -I illumina_2.fastq.gz -o clean.1.fq.gz -O clean
  4. .2.fq.gz -z 4 -q 20 -u 40 -n 10 -f 15 -t 15 -F 15 -T 15 -h fastp.html
复制代码
非“基因组”本身序列

      1、adapter接头
      2、测序引物
      3、barcode
      4、index等

数据处理
1、去除adapter

      1、空载:
      adapter与adapter直接连接,中间没有插入片段,导致 read1测到3'adapter,read2测到5'adapter的反向互补reads尾部测到adapter
      2、插入片段过短
      插入片段长度小于上机测序循环(cycle)数,导致read1尾 部测到3'adapter,read2尾部测到5'adapter的反向互补

2、去除N碱基过多reads
      
3、去除低质量
      1、以Q20作为判断标准
      2、低于Q20碱基占一条reads总碱基的比率
      3、例如低于Q20比率占30%
      
4、去除duplication
      两对reads,reads1 完全一致,reads2 完全一致
            

数据分析中标记Duplication
      
RNAseq与16S去duplication问题
      1、RNAseq与16s测序的duplication并不是打断不随机造成,天然就是某一段表达高,不用去
      2、去除duplication会造成丰度信息丢失
数据处理原则
      1、不要求100%精确,原则是不影响后续分析
      2、可以根据最终结果,重新过滤数据

三、过滤完质控
  1. 过滤完质控
  2. mkdir illumina_clean
  3. fastqc -f fastq -o illumina_clean/ clean.1.fq.gz clean.2.fq.gz
复制代码

四、multiqc合并结果
      






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-4-30 07:58 , Processed in 0.044933 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表