0 收听	12 听众	425 主题

碱基识别

发表于 2021-12-27 11:08:52 | 查看: 5102| 回复: 0

一、碱基识别原理
   将测序仪产生的原始信号文件转换为碱基序列的过程称为 basecalling。sanger 测序是将峰图文件转换为碱基，illumina 测序是将拍摄的荧光信号图片转换为碱基。纳米孔测序是独一无二的基于电信号识别碱基序列技术，basecalling 的过程是将电信号转换为碱基的过程。纳米孔测序产生的信号值称为 Squiggle：sequence of the segmented signals。
   在纳米孔测序过程中，每次捕获的并非单一碱基的信号值，而是一串儿碱基的共同的信号值，序列中一共有四种碱基，DNA 为（ATCG），RNA 为（AUGC）。一次信号通常是 5 个碱基，碱基识别的原理就是将测序得到的 Squiggle 信息与已知信息进行比对，判断出碱基组合。
   然而在实际测序过程中，每次捕获的不一定都是 5 个碱基，也可能 4-6 个碱基。根据排列组合，一共可能有可能包括 4^4+4^5+4^6=5376 个组合形式。并且一些碱基还可能发生甲基化，这就增加了 basecalling 的难度。

basecalling 原理




二、碱基识别算法和软件
   碱基识别本质上属于一种分类，将不同的信号值分类到不同的碱基组合中。在计算机领域属于一种有监督的机器学习，因此可以采用很多常见的分类算法，最早使用的是隐马尔可夫模型 (Hidden Markov Model，HMM)模型，碱基识别准确性在 85%左右。后来改用循环神经网络（Recurrent Neural Network, RNN），显著的提高了碱基识别准确性。
   目前主流使用的还是 RNN 的算法。能够做纳米孔碱基识别的软件有很多，也是目前纳米孔测序研究中非常重要的一个研究方向。这些工具包括官方开发的 Scrappie，Albacore，Guppy等，也包括第三方开发的 DeepNano,，SquiggleKit,Chiron，Causalcall 等。使用不同的软件算法，碱基识别准确性会有很大的差别。

不同碱基识别算法及准确性比较



三、关于纳米孔测序错误
   纳米孔官方对于测序错误的描述：https://nanoporetech.com/accuracy

3.1 测序错误来源
   纳米孔测序的错误率到底有多高呢，其实前面的内容我们是有提到过，纳米孔测序错误率从最开始的 40%，已经下降到目前的 5%左右。目前根据测序芯片以及建库方法的不同，整体大于在 15%-5%之间。这个其实依然还是挺高的，但是并不影响使用。那么纳米孔的测序错误来源与哪里？这里总结了几点原因。
   1. ATCG 四种碱基特别小，达到纳米级别，并且化学结构相似，通过电信号不容易区分；
   2. 每个碱基只测序一次，也只有 1D2 和 2D 测序互补链，所以没法进行纠错；
   3. 每次检测到的信号并不是单个碱基，而是几个碱基共同的信号；
   4. 发生了甲基化位点会对电流产生干扰，让碱基识别更复杂；
   5. 化学反应体系的影响，比如测序一段时间之后，马达蛋白，ATP 酶活性下降，每次流过纳米孔的碱基数不是 450bp 了，这些都会影响碱基准确性。
   6. 同聚物的影响，同聚物的个数不容易判断。


   以上这些原因就会带来碱基识别的困难，降低测序准确性。这里面特别强调一下同聚物的影响，其实这个前面也有提到过。例如全是 A 碱基或者 ATAT 这样的类型，他们构成的电信号值是很类似的，无论是 4 个，5 个，6 个 A 构成的信号值，所以就不容易识别具体数目到底是多少，假设识别错误，就造成一个小的 indel。所以，纳米孔测序这种小的插入缺失错误是很多的，不像二代测序错误主要是单碱基的突变。

3.2 如何减少测序错误
   这里介绍的都是公司的技术问题了，我们做个了解就行。
   第一：提高纳米孔的性能，也就是寻找到更好的纳米孔，从 R6 到 R9，测序准确性从 60%多到 95%，提高了非常多。

   第二：建库方法上使用 2D 或者 1D2 的方式。
   第三：改善碱基识别的算法。原始数据需要保留，新算法出来后，可以对比。
   第四：开发测序后的碱基纠错算法，因为测序深度够，每个位点被测序了很多次，可以通过自身纠错，来提高测序的准确性。
   第五：开发新方法

3.3 最后谈下纳米孔测序的缺点
   1、测序错误率高，小的插入缺失占主要部分；
   2、错误分布不平均，存在偏向性，无法进行纠错；
   3、原始数据量大；
   4、测序对DNA质量要求高；
   5、分析需要较高的计算资源；
   6、测序芯片型号，建库试剂组合过多；
   7、数据产出量不稳定；
   8、测序成本高；
   9、目前分析软件数目少；
   10、不能离线使用。联网校验

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册