生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

309

主题
发表于 2021-12-27 11:08:52 | 查看: 2821| 回复: 0
一、碱基识别原理
      将测序仪产生的原始信号文件转换为碱基序列的过程称为 basecalling。sanger 测序是将峰图文件转换为碱基,illumina 测序是将拍摄的荧光信号图片转换为碱基。纳米孔测序是独一无二的基于电信号识别碱基序列技术,basecalling 的过程是将电信号转换为碱基的过程。纳米孔测序产生的信号值称为 Squiggle:sequence of the segmented signals。
      在纳米孔测序过程中,每次捕获的并非单一碱基的信号值,而是一串儿碱基的共同的信号值,序列中一共有四种碱基,DNA 为(ATCG),RNA 为(AUGC)。一次信号通常是 5 个碱基,碱基识别的原理就是将测序得到的 Squiggle 信息与已知信息进行比对,判断出碱基组合。
      然而在实际测序过程中,每次捕获的不一定都是 5 个碱基 ,也可能 4-6 个碱基。根据排列组合,一共可能有可能包括 4^4+4^5+4^6=5376 个组合形式。并且一些碱基还可能发生甲基化,这就增加了 basecalling 的难度。

basecalling 原理

      
      

二、碱基识别算法和软件
      碱基识别本质上属于一种分类,将不同的信号值分类到不同的碱基组合中。在计算机领域属于一种有监督的机器学习,因此可以采用很多常见的分类算法,最早使用的是隐马尔可夫模型 (Hidden Markov Model,HMM)模型,碱基识别准确性在 85%左右。后来改用循环神经网络(Recurrent Neural Network, RNN),显著的提高了碱基识别准确性。
      目前主流使用的还是 RNN 的算法。能够做纳米孔碱基识别的软件有很多,也是目前纳米孔测序研究中非常重要的一个研究方向。这些工具包括官方开发的 Scrappie,Albacore,Guppy等,也包括第三方开发的 DeepNano,,SquiggleKit,Chiron,Causalcall 等。使用不同的软件算法,碱基识别准确性会有很大的差别。

不同碱基识别算法及准确性比较

      

三、关于纳米孔测序错误
      纳米孔官方对于测序错误的描述:https://nanoporetech.com/accuracy

3.1 测序错误来源
      纳米孔测序的错误率到底有多高呢,其实前面的内容我们是有提到过,纳米孔测序错误率从最开始的 40%,已经下降到目前的 5%左右。目前根据测序芯片以及建库方法的不同,整体大于在 15%-5%之间。这个其实依然还是挺高的,但是并不影响使用。那么纳米孔的测序错误来源与哪里?这里总结了几点原因。
      1. ATCG 四种碱基特别小,达到纳米级别,并且化学结构相似,通过电信号不容易区分;
      2. 每个碱基只测序一次,也只有 1D2 和 2D 测序互补链,所以没法进行纠错;
      3. 每次检测到的信号并不是单个碱基,而是几个碱基共同的信号;
      4. 发生了甲基化位点会对电流产生干扰,让碱基识别更复杂;
      5. 化学反应体系的影响,比如测序一段时间之后,马达蛋白,ATP 酶活性下降,每次流过纳米孔的碱基数不是 450bp 了,这些都会影响碱基准确性。
      6. 同聚物的影响,同聚物的个数不容易判断。

      
      以上这些原因就会带来碱基识别的困难,降低测序准确性。这里面特别强调一下同聚物的影响,其实这个前面也有提到过。例如全是 A 碱基或者 ATAT 这样的类型,他们构成的电信号值是很类似的,无论是 4 个,5 个,6 个 A 构成的信号值,所以就不容易识别具体数目到底是多少,假设识别错误,就造成一个小的 indel。所以,纳米孔测序这种小的插入缺失错误是很多的,不像二代测序错误主要是单碱基的突变。


3.2 如何减少测序错误
      这里介绍的都是公司的技术问题了,我们做个了解就行。
      第一:提高纳米孔的性能,也就是寻找到更好的纳米孔,从 R6 到 R9,测序准确性从 60%多到 95%,提高了非常多。
      
      第二:建库方法上使用 2D 或者 1D2 的方式。
      第三:改善碱基识别的算法。原始数据需要保留,新算法出来后,可以对比。
      第四:开发测序后的碱基纠错算法,因为测序深度够,每个位点被测序了很多次,可以通过自身纠错,来提高测序的准确性。
      第五:开发新方法


3.3 最后谈下纳米孔测序的缺点
      1、测序错误率高,小的插入缺失占主要部分;
      2、错误分布不平均,存在偏向性,无法进行纠错;
      3、原始数据量大;
      4、测序对DNA质量要求高;
      5、分析需要较高的计算资源;
      6、测序芯片型号,建库试剂组合过多;
      7、数据产出量不稳定;
      8、测序成本高;
      9、目前分析软件数目少;
      10、不能离线使用。联网校验


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-11-1 08:07 , Processed in 0.090025 second(s), 30 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表