生信人»论坛 › 生信基础 › 入门基础 › illumina测序原理

0 收听	12 听众	278 主题

illumina测序原理

发表于 2021-12-15 09:35:06 | 查看: 1396| 回复: 1

本帖最后由生信喵于 2021-12-15 16:47 编辑

一、illumina 测序关键词
关键字：通量大价格低读长短速度慢应用广准确性高双末端有偏向性
   illumina 测序最大的就是通量大，正是由于通量大，才可以做大价格低。由于其通量大且价格低，可以满足巨大部分测序的需要，因此，正式开启了高通量测序的时代。Illumina 测序有着非常广泛的应用，最早应用于基因组的组装，还可以用于变异检测，RNAseq，单细胞测序，产前筛查，肿瘤检测等。
   但是 illumina 测序致命的缺陷就是读长短，从最开始的 35bp，逐渐提高到 75bp，90bp，到现在最长的 2x300bp。但依然比较短。读长短无法处理重复序列的问题，这给基因组组装，大片段变异检测，全场转录组研究带来缺陷。Illumina 的技术特点限制了其读长，很难在读长上继续提高。
   illumina 主要产品信息


二、AGCUT物种碱基


三、DNA信号放大与识别
   1、光信号
   2、电信号
   3、溶液PH值变化

四、为碱基加上荧光基团



五、illumina测序通过加荧光基团识别碱基

   1、无法继续反应
   2、反应中的荧光干扰信号捕获

六、illumina测序技术的优势
   illumina 测序主要包括三大技术：可逆阻断终止技术，边合成边测序以及双末端测序。测序
主要分成三个步骤，分别是建库，cluster 以及测序。

1、可逆阻断终止技术

2、边合成边测序

3、双末端测序



6.1 建库
   首先来介绍一下文库，所谓文库，就是 DNA 片段的一个集合。将测序片段打断之后就构成了一个 DNA 文库。简单来说就是把一堆乱糟糟的 DNA 分子用超声波打断成一定长度范围的小片段。目前除了一些特殊的需求之外，基本都是打断为 300bp-800bp 长的序列片段，并在这些小片段的两端添加上不同的接头，构建出单链 DNA 文库，以备测序之用；
   我们前面介绍过，不能直接将提取出来的直接加到测序仪里面直接测序，而是要对这些 DNA进行一些处理，或者也可以当成是格式化。让他们能够满足测序仪所要求的格式才行。在DNA 检测合格之后就可以开始这种格式化的操作了。
   建库首先第一步是对 DNA 样品进行随机打断。这个时候的 DNA 是一些长的片段，比如是一些 100-300K 的长片段，将这些长片段进行随机打断。DNA 打断有多种方法，可以机械打断，超声波打断，酶解法打断等，这里面采用超声波打断。可以设定打断的长度，比如我设定打断的长度为 500bp，那么最终这些长片段就断成很多 500bp 的短片段，这个集合就是500bp 的文库。也可以设置其他长度，例如常见的有 170bp 文库，350bp 文库，500、800、2k,5k,6k 甚至更长的 10K，20K 等，一般 1000bp 以下，称为小片段文库，否则是大片段文库。
   这里面注意，我们说 500bp 文库，这个 500 只是一个峰值。也就是里面大部分的片段在 500bp附近，并不是每条片段都刚好是 500bp，可能有 300,的，也可能有 800 的。在打断之后会有一个电泳的过程，将在一定范围内的回收。如果是 500bp 文库，可以回收 300-800bp 长度的片段。这个文库大小特别重要，它也叫做插入片段长度，insert_size。在后面序列拼接，短序列比对的过程中会大量用到这个值。那么回收完一个合格的 DNA 文库之后，接下来还需要进行很多操作。
   凝胶电泳筛选文库大小

   首先是给序列 3’端加一个 A 碱基，在加了 A 碱基之后，原来的平末端就变成了粘性末端，这样更容易链接后面的引物和接头等。加完 A 碱基之后还需要加测序引物。然后是 index标签。什么是 index 标签呢，它是一个 6-8bp 的一个片段，用来区分不同的测序物种。因为现在的高通量测序，一次产出数据都特别大，比如一条 lane 能够产出 30G 数据，而测序一个细菌基因组可能 1G 数据就够了，所以，一次测序可以就不同物种的 DNA 混合起来测序，无论是动物、植物，还是微生物等都加到测序芯片上测序，所以，就需要给不同的样品 DNA加上不同的 index 标签，用于后续数据拆分。
   加完 index，我们还需要加 adapter 接头。adpater 接头分为 P7 接头和 P5 接头，分别加在序列的两端。这个 P7 和 P5 接头与测序芯片的上的接头刚好互补配对。经过以上的处理，就可以加样品到测序芯片上了。

6.2 flowcell 芯片
   flowcell 是用于吸附流动 DNA 片段的槽道，也是核心的测序反应容器——所有的测序过程就发生在这里。当文库建好后，这些文库中的 DNA 在通过flowcell 的时候会随机附着在 flowcell表面的槽道（称为 lane）上。
   illumina 测序 flowcell 实物图

   一张 flowcell 里面有八条通道，称为八条 lane。每条 lane 里，上下各有一个面。里面做了化学修饰，上面种了非常多的引物，P7 和 P5 引物，刚好与文库上的接头结合。为什么 DNA要种到芯片上测序呢，因为在测序过程中，会不断的有液体流过去，不链接到接头上，容易被冲走。
   每个面有三个 swath，每个 swath 里面有 16 个 tile。tile 就是一个个小的区域。所以，一条lane 里面 3 乘以 16 个 tile，两个面就有 96 个 tile。整张 flowcell 上面就有 96 乘以 8，768个 tile。整张芯片上栽满测序接头，里面能容纳的 DNA 越多，测序数据量就越大。通过进样空将加好引物接头的样品加到 flowcell，就将文库种到芯片上了。

6.3 cluster
   建库完成之后，我们就开始进行 cluter 的过程，cluster 是测序过程中非常重要的一步。cluster是聚集或者成簇的意思。将测序样品 DNA 注入 flowcell 后并不能立刻上机测序，而是还要经过 cluster 富集的一个过程。这是 NGS 技术的一个核心特点。桥式 PCR 以 flowcell 表面所固定的序列为模板，进行桥形扩增，经过不断的扩增和变性循环，最终每个 DNA 片段都将在各自的位置上集中成束，每一个束都含有单个 DNA 模板的很多分拷贝，这一过程的目的在于实现将单一碱基的信号强度进行放大，以达到测序所需的信号要求。
   为什么要有这样一个富集的过程呢。因为在测序过程中，需要对碱基的荧光基团激发，捕获这个荧光信号。如果只有一个荧光基团，那么这个信号将非常非常的弱，所有，通过这个富集之后，让原来的 1 条序列，长成一簇，对荧光信号进行放大。这样摄像头才能更准确捕获到这个荧光。这个过程有些像这种光纤的玩具。单独一条光很弱，也很难分辨出颜色。当把这一簇放到一起的时候，信号就被增大了很多倍，也很容易区分开荧光的颜色。
   桥式 PCR 扩增

   cluster 这个过程，采用了一种桥式 PCR 的方法。桥式 PCR 与传统 PCR 有一些不同。在桥式PCR 反应中，正向引物和反向引物都被通过一个柔性接头（flexible linker）固定在固相载体（solid substrate）上。经过 PCR 反应，所有的模板扩增产物就都被固定到了芯片上固定的位置。因为文库两头的接头是和芯片上接头序列是碱基互补，所以样品加到 folwcell 上之后，接头进行互补杂交，文库的序列就被种到芯片上。然后加入 dNTP 和聚合酶，聚合酶就会从引物开始，沿着模板，合成出一条全新的序列。这条新的 DNA 序列与原来的是互补的。这个时候加入氢氧化钠碱溶液，DNA 双链开始解开成两条单链。那么这两条链一条与接头结合，而另一条没有，所以，在液体流过的时候，这条链就被冲走了。然后加入中性液体，在加入中和液，现在变成了中性环境，这个时候板上的 DNA 单链的一端就发生弯曲，与周围的芯片上另一种引物互补杂交。接下来在加入聚合酶和 dNTP，进行 PCR 反应，那么就合成了一条新的链。那么重复最开始的过程，在加碱性溶液，在加中和液。这个时候 DNA 链就和新的接头杂交。那么现在原来的一条链就变成了两条链。在重复一次以上过程，两条就变成了 4 条，在重复一次，就会倍增一次。这样经过几次之后扩增之后，DNA 的倍数就会以指数增长，原来的 1 条最终就变成了一簇。但是这一簇的序列都是一致的。相当于一个克隆的过程。这个过程就称为桥式 PCR，因为 DNA 上端接头与芯片上接头杂交，DNA 形成一个弯曲的“桥”，DNA 在这个桥上进行一次 PCR 扩增。

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

收藏0 回复显示全部楼层道具举报

生信喵

发表于 2021-12-15 09:36:31

6.4 测序
   在 cluter 完成之后，就可以进行上机测序了。illumina 的测序属于边合成边测序。向反应体系中同时添加 DNA 聚合酶、接头引物和带有碱基特异荧光标记的 4 种 dNTP（如同 Sanger测序法）。这些 dNTP 的 3’-OH 被化学方法所保护，因而每次只能添加一个 dNTP，这就确保了在测序过程中，一次只会被添加一个碱基。同时在 dNTP 被添加到合成链上后，所有未使用的游离 dNTP 和 DNA 聚合酶会被洗脱掉。接着，再加入激发荧光所需的缓冲液，用激光激发荧光信号，并有光学设备完成荧光信号的记录，最后利用计算机分析将光学信号转化为测序碱基。这样荧光信号记录完成后，再加入化学试剂淬灭荧光信号并去除 dNTP 3’-OH 保护基团，以便能进行下一轮的测序反应。
   一次测序完成之后，就将荧光基团和 3’端的阻断基团切掉。切掉之后就可以继续进行合成反应，这就是最开始我们说到的可以可逆阻断终止技术。然后在加入新的 dNTP，新的合成酶。这样就合成一个新的碱基，在进行激发光照射，拍照捕获荧光。这样第二个碱基就被测序出来了。不断的重复这个过程，就会有越来越多的碱基被测序出来，测序的长度也逐渐增大。直到测序终止，那么一条链就被测序出来了。
   因为 illumina 是双末端测序，所谓双端测序，从正向测序一次，从另一端在测序一次，也就是 reads2。首先是在进行一次合成，合成为双链，也就是原来测序链的互补链，然后采用化学试剂将原来的链切掉。那么剩下来的链就是原来链的互补链。然后就可以开始进行测序了。那么测序的原理与第一条 reads 测序是完全一样的。也是边合成边测序，合成碱基，激发荧光基团，捕获荧光型号，切掉荧光基团和 3’端的阻断基团。进行下一次合成测序。这样测序的这部分工作就完成了。
   边合成边测序

   Illumina 的这种每次只添加一个 dNTP 的技术特点能够很好的地解决同聚物长度的准确测量问题，它的主要测序错误来源是碱基的替换，目前它的测序错误率在 1%-1.5%左右。测序周期以人类基因组重测序为例，30x-50x 测序深度对于 Hisq 系列需要 3-5 天时间，而新推出的 NovaSeq 系列则只需要 40 个小时。
   测序量比较（双流动槽为例，如为单流动槽则测序量减少为下表的一半，时间不变）

   NovaSeq 与其他测序仪测序通量的比较（来源：illumina 官网）

   上面表和图是 NovaSeq 和其他测序系列的比较，数据相当好。按照这个数据量估算，一台 NovaSeq 6000（S4）在跑满的情况下，一年可以测序 6400 多人。而且按照以往的经验，illumina 的官方公布的数据都是偏于保守的，我们在实际的使用过程中发现高质量（Q30）的 read 其实占到了总数据的 90%以上，远高于官方公布的 75%，数据的总产量也同样更高。

七、碱基识别
   测序完成之后，我们并没有直接得到 ATCG 的碱基序列，而是得到了一大堆的照片。也就是捕获的荧光信号文件，还需要对这些照片进行图像处理。转化为有颜色的光点文件，这种文件存储为 bcl 文件，从 bcl 中获得碱基的过程称为 basecalling。
   文件中每个光点记录了很多内容，包括每个光点的 lane 号，tile 号，x，y 轴的坐标位置，每个循环 ATCG 的光强度。bcl 是二进制文件，还不是我们最终需要的 fastq 格式文本文件，所以，还需要使用 bcl2fastq 软件，就 bcl 文件进行转换。
   碱基识别示意图

   每张图片是一次测序所拍摄的照片。那么我们很容易就区分开红黄绿蓝，每种颜色代表一种碱基。第二次测序的图片在读取第二个碱基。必须是相同位置。例如图中 1 的位置，每次都读取同一个位置，最终就得到了一条序列。其实就是把这些图片落在一起。把同一个位置取出来，就是一条序列。
   以上这个根据图片中颜色来判断碱基类型只是一个简单的示例说明，实际情况要比这个复杂的多。我们看到四种碱基，嘌呤和嘌呤，嘧啶和嘧啶之间化学结构是很相似的。而且四种荧光基团波长之间有交集。所以实际上并不能一下子就根据基团颜色判断出碱基。而且，我们看到，如果不是 cluster 就更加难判断了。实际上，是使用四种荧光素在 4 种被测波长处的贡献率来进行判断。例如看这个表。从图中我们看到，四种荧光对四种不同的波长有不同的贡献率。这样就形成一个四成四的贡献率矩阵。所以，最终判断每个光点，相当于解一个四元一次方程组。最终就能求解出，这个光点是 ATCG 某种碱基的概率。最终选择概率最大的那个就作为最终的碱基。这个复杂的过程，测序仪可以通过软件自行判断，最终生成的 fastq序列文件，就是我们需要的测序数据。

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册