0 收听	12 听众	278 主题

OTU还是ASV?

发表于 2023-4-17 18:34:02 | 查看: 868| 回复: 0

   在扩增子测序中，之前经常提到的一个词就是 OTU。
   OTU 的全称是 Operational Taxonomic Units，直译过来是可操作的物种分类单元，是在系统发生学研究或群体遗传学研究中，为了便于进行分析，人为给某一个分类单元设置的同一标志。在 16S rDNA 微生物多样性研究中，会将碱基相似度大于 97%的 Tags 聚集在一起，称为一个 OTU，之后在每个 OTU 中选取一条代表序列进行物种注释，也就是说每个 OTU 会对应一个物种信息。
   不过由于人为设定 97%这个阈值，那么如果是 96.9%，或者测序错误都会给 OTU 造成干扰。就会出现一个 OUT 中包含 1 个以上物种。同一物种被注释到多个 OTU 的情况。
   ASV 的全称是 Amplicon Sequence Varian，最早来自于 DADA2 软件，目前已经逐步取代OTU 成为扩增子分析中通用的标准。
   DADA2 算法的核心在于序列校正，二代测序的错误是随机发生的（即，任意两条序列的测序错误相对是随机发生的、一条序列的任意两个位置的测序错误也是随机发生的，不存在关联性），符合泊松分布。
   通过机器学习的方式统计特定质量值下，位点发生真实变异的概率λij，判断序列（扩增子） i是否来在来自 j（模板，丰度最高的序列）。之后再校正所有被判定为测序错误的位点，采用分裂分割算法（The divisive partitioning algorithm）进行最后的聚类：将所有序列作为一个partition，丰度最高的序列为中心，处于 partition 中的序列都与中心序列进行比较，计算丰度 p 值（p 值是在位点变异率 λij 基础上计算获得整条序列是来自模板序列的可能性标准），当最小的 p 值小于阈值，则划分为新的 partition，所有序列和新的中心序列进行比较，不断划分，直到不能再划分即所有序列都有与之对应的 partition 为止。

   DADA2 算法原理图
   这种聚类方式相当于以 100%相似度进行聚类的单元（DADA2 软件把聚类结果称为 ASV，事实上它相当于 100%相似度聚类的 OTU）。根据文献示例结果来看，DADA2 的算法能够让一些真实的序列变异保留下来，且聚类效果上有了一定提升。

   OTU 与 ASV 比较

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册