生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

278

主题
发表于 2023-4-17 18:34:02 | 查看: 868| 回复: 0
       在扩增子测序中,之前经常提到的一个词就是 OTU。
       OTU 的全称是 Operational Taxonomic Units,直译过来是可操作的物种分类单元,是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为给某一个分类单元设置的同一标志。在 16S rDNA 微生物多样性研究中,会将碱基相似度大于 97%的 Tags 聚集在一起,称为一个 OTU,之后在每个 OTU 中选取一条代表序列进行物种注释,也就是说每个 OTU 会对应一个物种信息。
       不过由于人为设定 97%这个阈值,那么如果是 96.9%,或者测序错误都会给 OTU 造成干扰。就会出现一个 OUT 中包含 1 个以上物种。同一物种被注释到多个 OTU 的情况。
       ASV 的全称是 Amplicon Sequence Varian,最早来自于 DADA2 软件,目前已经逐步取代OTU 成为扩增子分析中通用的标准。
       DADA2 算法的核心在于序列校正,二代测序的错误是随机发生的(即,任意两条序列的测序错误相对是随机发生的、一条序列的任意两个位置的测序错误也是随机发生的,不存在关联性),符合泊松分布。
       通过机器学习的方式统计特定质量值下,位点发生真实变异的概率λij,判断序列 (扩增子) i是否来在来自 j(模板,丰度最高的序列)。之后再校正所有被判定为测序错误的位点,采用分裂分割算法(The divisive partitioning algorithm)进行最后的聚类:将所有序列作为一个partition,丰度最高的序列为中心,处于 partition 中的序列都与中心序列进行比较,计算丰度 p 值(p 值是在位点变异率 λij 基础上计算获得整条序列是来自模板序列的可能性标准),当最小的 p 值小于阈值,则划分为新的 partition,所有序列和新的中心序列进行比较,不断划分,直到不能再划分即所有序列都有与之对应的 partition 为止。
      
       DADA2 算法原理图
       这种聚类方式相当于以 100%相似度进行聚类的单元(DADA2 软件把聚类结果称为 ASV,事实上它相当于 100%相似度聚类的 OTU)。根据文献示例结果来看,DADA2 的算法能够让一些真实的序列变异保留下来,且聚类效果上有了一定提升。
      
       OTU 与 ASV 比较

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-4-25 06:33 , Processed in 0.036376 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表