生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

279

主题
发表于 2022-6-30 17:05:08 | 查看: 788| 回复: 0
背景
       前面介绍的都是 reads 正常的比对情况,比上或者比对不上。在实际比对过程中还会出现很多种“特殊”情况,而往往分析需要的就是这种特殊情况。例如多重比对的 reads 分配问题,将 reads split 切割之后的比对,包括 spliced 与 clipped reads 的比对。
       例如在RNAseq 分析中,由于真核生物存在可变剪切,会导致那些来自于不同外显子的 reads无法比对到基因上,所以,必须采用支持 spliced 比对策略的软件进行短序列比对才行。比较 bowtie 和 tophat 两种比对软件,很明显发现,支持 spliced 比对的方法能够比对上更多的 reads。前一篇推文我们介绍了hisat2的结果文件的确是大于bowtie2的结果文件。

一、spliced alignment
       read 一端比对上,跳过了中间,然后另一端也比对上【CIGAR 中用“N”表示】如果是转录组数据的比对结果,N 表示内含子;其他类型组学数据中 N 也可以用,但没有意义,和 deletion一个意思。

二、clipped alignment
       clipped alignment:切出两侧比对不上的,read 只有中间部分能比对上,两侧在比对过程中被忽略

三、soft-clipped 和 hard-clipped
       clipped alignment 分为 soft-clipped 和 hard-clipped,在 SAM/BAM 的 CIGAR 列分别用“S”和“H”表示,比对完将 clipped 序列继续保留输出的,成为 soft-clipped,直接切掉不保留的称为 had-clipped。
       那么什么时候标记 Hard clip,什么时候标记 Soft clip 呢?
  1. in bwa, HARD clipping is used for supplementary reads.
  2. if the read has a chimeric alignment, the paired
  3. or the top hit uses soft clipping ;All the other hits part of the chimeric alignment
  4. will use hard clipping
复制代码

四、chimeric alignment
       “嵌合比对” 的形成是由于一条测序 read 比对到基因组上时分别比对到两个不同的区域,而这两个区域基本没有 overlap。因此它在 sam 文件中需要占用多行记录显示。只有第一个记录被称作"representative",其他的都是"supplementary"【Chimeric reads are also called split reads】;RNA-seq 中的 chimeric read 或许可以说明有融合基因存在,但在基因组中一般作为结构变异的证据。
下面列出几个概念,这些概念类似,但又有一些差别,需要能够区分,主要是根据 reads 直接比对到多个区域,还是切开之后比对到多个区域。
represent alignment 与 supplementary alignment
       supplementary alignment 是指一条 read 的一部分和参考区域 1 比对成功,另一部分和参考区域 2 比对成功,参考区域 1 和参考区域 2 没有交集(或很少),那么一条 read 就会产生两行比对记录输出。将其中的一条 sam 文件作为 represent alignment,而另一条作为 supplementary alignment。
primary 与 sencondary:
       一条 reads 只输出一行比对结果的,属于(primary),secondary 是指一条 read 可以比对到基因组上多个位置(>=2),可以是 read 使得同一部分有不同匹配区域,也可以是一条 read上的不同区域。输出的这些结果都称为secondary。

五、多重比对 reads 分配问题
       对于多重比对的 reads,最终输出的结果可以设置多种模式,根据不同的需求来进行选择,一般软件中有很多选项参数可以控制输出。例如 bwa mem 软件中的“-Y -M”,minimap2 比对软件中的“-N -Y”等。对于多重比对,在计算的时候也会有影响,可以选择丢弃多重比对,
       例如在做变异检测过程中。如果是在 RNAseq 分析中也可以选择平均分配,或者利用 Unique region 估计并重新分配等。这个地方就比较麻烦了。要记住有这些参数,该用时可以找到。

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-5-3 06:56 , Processed in 0.049448 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表