bioinfoer»论坛 › 生信基础 › 入门基础 › 物种分类原理

0 收听	12 听众	422 主题

物种分类原理

发表于 2022-10-19 17:37:50 | 查看: 18562| 回复: 4

一、微生物物种鉴定发展历史
   微生物由于形态微小，数目众多，分类鉴定一直都是一大难题，传统的微生物鉴定方法，主要是根据微生物的表型特征，例如形态学、生理生化学，生态学等特征来推断微生物的系统发育。但是由于微生物形体微小、结构简单等特点，微生物的分类鉴定除了传统的分类方法之外，还必须寻找新的特征作为分类鉴定的依据。分子生物学的发展，使我们不仅可以根据表型特征，而且可以从分子水平上，通过研究和比较微生物乃至整个生物界的遗传型特征，甚至生物的基因组特征来研究生物的进化、发育和分类鉴定。
1 形态学特征
   形态学特征始终被用作微生物分类和鉴定的重要依据之一，其中有两个重要的原因，一是它易于观察和比较，二是许多形态学特征依赖于多基因的表达，具有相对的稳定性。因此，形态学特征不仅是微生物鉴定的重要依据，而且也往往是系统发育相关性的一个标志，特别是对形态结构比较复杂的真核微生物和具有某些特殊形态结构细菌的分类鉴定尤为重要。常用于原核生物分类鉴定的形态学特征如表所示。但是形态学特征往往并不能有很好的效果，因为微生物很多形态特征相似的分类上可能相差很远，同一种内不同亚种之间也有可能形态特征差别很大，比如肺炎链球菌有的表面光滑能够产生夹馍，而有的却表面粗糙。过去根据表型特征归类在一起的属，有的现在根据系统发育分类已经被归类在不同的分类单元中了。
2 生理生化特征
   生理生化特征与微生物的酶和调节蛋白质的本质和活性直接相关，酶及蛋白质都是基因产物，所以，对微生物生理生化特征的比较也是对微生物基因组的间接比较，加上测定生理生化特征比直接分析基因组要容易得多，因此生理生化特征对于微生物的系统分类仍然是有意义的。
   在以实用为主要目的表型分类中，大量原核生物的属和种，仅仅根据形态特征是难以区分和鉴别的，所以生理生化特征往往是这些医学上或其他应用领域中重要细菌分类鉴定的主要特征。肠道菌科细菌属和种的分类鉴定就是如此。例如得肠炎之后去医院要进行粪便化验就是这个道理，很多微生物快速鉴定系统就是通过鉴定微生物一系列的生理生化指标来对未知微生物进行鉴定的。但值得强调的是，由于不少生理生化特征是染色体外遗传因子表达的，例如质粒，加上影响生理生化特征表达的因素比较复杂，所以根据生理生化特征来判断亲缘关系进行系统分类时，必须与其他特征特别是基因型特征综合分析，否则就可能导致错误的结论。

3 血清分型
   在病原微生物研究中，往往还采用血清学分型和噬菌体分型的方法。血清型分型就是利用已知抗体与抗原来进行血清学反应，例如凝集反应或者沉淀反应，酶联免疫等，血清学鉴定一般应用在种内不同菌株血清型的划分。比如我们常见的致病菌 H 亚型或者 O 亚型等，就是利用了血清型鉴定。

   噬菌体分型是因为在原核生物中已经普遍发现有相应种类的噬菌体。噬菌体对宿主的感染和裂解作用具有高度的特异性，即一种噬菌体往往只能感染和裂解某种细菌，甚至只裂解种内的某些细菌。所以，根据噬菌体的宿主范围可将细菌分为不同的噬菌型和利用噬菌体裂解作用的特异性进行细菌鉴定。
   血清学试验和噬菌体分型具有很大的局限性，而且往往血清型上相近的样品在系统发育上差距很远。

4 DNA 碱基组成
   DNA 碱基组成，也就是 DNA 中 GC 比例。每一种生物都有一定的碱基组成，亲缘关系近的生物，他们应该具有相似的 G+C 含量，其实 G+C 含量固定，根据碱基互补配对原则，也就是 ATCG 碱基含量恒定。若不同生物之间 G+C 含量差别特别大表明他们关系远。每一个微生物种的 DNA 中 GC 含量的数值是恒定的，不会随着环境条件、培养条件等的变化而变化，而且在同一个属不同种之间， DNA 中 GC 含量的数值不会差异太大，可以是某个数值为中心成簇分布，显示同属微生物种的 GC 含量范围。一般认为任何两种微生物在 GC 含量上的差别超过了 10 ％，这两种微生物就肯定不是同一个种。因此可利用 G+C 含量来鉴别各种微生物种属间的亲缘关系及其远近程度。值得注意的是，亲缘关系相近的菌，其G+C mol ％含量相同或者近似，但 G+C mol ％相同或近似的细菌，其亲缘关系并不一定相似。

5 DNA 杂交
   生物的遗传信息以碱基排列顺序线性的排列在 DNA 分子中，不同生物 DNA 碱基排列顺序的异同直接反应这些生物之间亲缘关系的远近，碱基排列顺序差异越小，他们之间的亲缘关系就越近，反之亦然。DNA 杂交有 DNA-DNA 杂交，DNA-RNA 杂交，核酸探针以及衍生而来的荧光原位杂交技术 FISH 等方法。
   DNA 杂交法的基本原理是用 DNA 解链的可逆性和碱基配对的专一性，将不同来源的DNA 在体外加热解链，并在合适的条件下，使互补的碱基重新配对结合成双链 DNA ，然后根据能生成双链的情况，检测杂合百分数。如果两条单链 DNA 的碱基顺序全部相同，则它们能生成完整的双链，即杂合率为 100% 。如果两条单链 DNA 的碱基序列只有部分相同，则它们能生成的“双链”仅含有局部单链，其杂合率小于 100% 。因此；杂合率越高，表示两个 DNA 之间碱基序列的相似性越高，它们之间的亲缘关系也就越近。如两株大肠埃希氏菌的 DNA 杂合率可高达 100 ％，而大肠埃希氏菌与沙门氏菌的 DNA 杂合率较低，约有 70 ％。核酸杂交鉴定或检测微生物，具有准确、快速等优点，特别是当用常规方法难以鉴定或检测时，但是核酸杂交只能使用已知的序列，对于一个菌落中大量的微生物还是无法进行鉴定。

6 16S 序列测序
   无论是通过表型，生理生化特征，还是核酸杂交等，都不能很好解决微生物物种鉴定的问题。那么有没有一种合适的微生物鉴定方法呢。这种方法能够实现准确、快速、经济的鉴定出微生物；那么目前综合来看扩增子测序是比较好的解决方案。这里面我们所说的扩增子主要包括 16S 测序，18S 测序和 ITS 测序等。平时说的 16S 测序，有时候是广义的概念，也包括 18S，ITS 测序等。一般在原核生物中，5SrRNA 长度约 120 个碱基。16SrRNA 约为 1540 个碱基，而 23S rRNA 约为 2900 个碱基。综合来看，5S 太短，没有特别高的唯一性，而 23S rRNA又太长，不容易进行测序。所以，16S rRNA 被普遍认为是一把好的谱系分析的“分子尺”。
   这是因为，首先 rRNA 参与生物蛋白质的合成过程，其功能是任何生物都必不可少的，而且在生物进化的漫长历程中，其功能保持不变，所以序列相对保守。

7 宏基因组序列测序
   如果只提取其中的 16S，利用 16S 来进行物种组成和丰度的鉴定，以及利用 16S 构建系统发育树。这样一次只能捕获原核生物的信息，如果要看真菌的组成情况就需要测序 18S 或者 ITS，而病毒信息无法捕获到。而对整个样品基因组测序，则是将样品中所有的 DNA 信息都进行测序，包括里面所有物种的信息，16S 和 18S 信息都包括在内，而且可以包括病毒的信息，不仅可以看样品中的物种组成及丰度，而且可以得到样品的基因集信息，通过基因分析，可以进行一些功能和代谢的分析，基因组可以分析的内容更多。但是很明显，宏基因组测序的数据量要远远大于 16S 测序，所以测序时间，效率以及数据分析难度上，要远远大于 16S。如果只是想看一下样品的物种组成及丰度，也就是样品中有哪些微生物，则选择扩增子测序即可，而如果要关注样品中哪些重要基因起作用，则需要进行宏基因组的测序。

二、商业微生物检测平台

One Codex： https://www.onecodex.com/
Diversigen ：https://www.diversigen.com/
CosmosID ： https://www.cosmosid.com/
Real Time Genomics：https://www.realtimegenomics.com/

复制代码

三、纳米孔微生物鉴定平台

1、epi2me WIMP： https://epi2me.nanoporetech.com/
2、NanoSPEC： https://nanospc.mmmoxford.uk/
3、Bugseq： https://bugseq.com/
4、NanoPipe： http://bioinformatics.uni-muenster.de/tools/nanopipe/index.hbi?
5、NanoOK： https://github.com/richardmleggett/NanoOK

复制代码

四、几种检测方法费用比较


五、微生物世界中的“种”
   自然界的物种之间可能是连续进化的，是一个量的变化，而分类则是定性概念。因此就会出现很多处于中间状态的特例，比如分类上即接近于A，又接近于B。
   种是基本的分类单元，它指的是“物种”，而物种的概念目前还是生物学中尚未完全解决的问题。在高等生物中，物种通常被看做是彼此杂交能繁殖的自然居群。由于原核生物缺乏严格意义的有性生殖，所以，原核生物很难确定“种”这个概念。
   目前，一般讲DNA杂交同源性在70%以上，并且16S序列同源性达到97%以上的菌株定义为同一个种。

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

收藏0 回复显示全部楼层道具举报

bio-fx

发表于 2022-11-7 17:09:14

您好，打扰了，我有一批nirK功能基因测序数据，得到了OTU的代表性序列，我把代表性序列上传到NcycFunGene这个网站上，用GraftM这个工具进行物种注释，得到的结果里，有462个OTU代表性序列没有被注释到“界”水平，我想请问一下，一般这种没有被注释到的OTU代表性序列可以怎么处理？在这些没有被注释到的OTU里，有一些OTU序列条数还比较多，有一些OTU序列条数就非常少，只在一两个样本中存在。小白第一次分析，还希望大神能帮忙解答一下，非常感谢

回复显示全部楼层道具举报

生信喵

发表于 2022-10-19 17:50:29

六、宏基因测序物种分类原理
   当前使用的宏基因组物种分类方法，主要是使用 NCBI 的物种分类数据库进行分类。将测序数据与 NCBI 的序列数据库经行比对，例如 nt 库，nr 库，refseq 数据库等。如果测序数据与数据库中序列具有很好的相似性，而认为二者为同源序列，具有相同的祖先。将测序 ID 转换为 NCBI Accession ID，然后将 Accession ID 转换为物种分类 Tax ID。则得到了测序数据的物种分类信息。物种分类本质上则是根据序列相似性进行三种 ID 相互转换的过程。


   利用纳米孔测序进行快速鉴定示意图

   三者之间的关系：测序的 ID 可以比对到多个 Accession ID，序列越长，唯一性越好，选择比对最好的 Accession ID。由于物种分类包括过个层级，一个 Accession 对应唯一 Taxon ID。一个 Taxon ID 中可以包含多个 Accession ID。每个 Taxon 还对应一个 parent taxid，对应一个 division id。
举例：
   有一条序列，比对到了 Accession ID 是 NC_000001，NC_000001 对应的 Taxon ID 为 9606。9606 对应的 name 为 Homo sapiens，9606 的 parent tax_id 为 9605，对应 Homo。对应的division id 为 5，Primates 灵长类。

七、不同物种分类算法比较
   LCA：“lowest common ancestor”，最小公共祖先法。
   所谓 LCA，是当给定一个有根树 T 时，对于任意两个结点 u、v，找到一个离根最远的结点 x，使得 x 同时是 u 和 v 的祖先，x 便是 u、v 的最小公共祖先。

   LCA 原理

   对于这棵树来说 lca(9, 10) = 7, lac(6, 10) = 4, lac(3, 6) = 1，Kraken，Kraken 2，Opal，CLARK,与 MetaOthello 等软件是基于 kmer 的比对，利用 LCA 算法。
序列相似性：
   相似性（similarity）：是指所检测的序列与目标序列之间相同的碱基或氨基酸占整个序列的比例。相似性越高，同源性越高。但是需要注意，同源必须相似，但是相似不一定同源。
   基于相似性比对的方法，可以比对全基因组序列，也可以比对 Marker 基因，例如 16S 等。blast，diamond，last，Megan，MetaPhlan，GASiC，MG-RAST 等软件基于序列相似性方法进行物种分类。基于相似性的缺点是比较速度较慢。
分类器：
   基于机器学习的判别法进行分类，例如贝叶斯和 embase 估计 Bracken, MetaKallisto，Pathoscope；基于线性模型和混合线性模型分类 PhyloPythia，DiTASiC 和 MetaPalette；马尔科夫模型 Phymm/PhymmBL 基于支持向量机 PhyloPythia+，Burrows-Wheeler 转换，例如 Centrifuge。

八、biom 文件格式
   biom（The Biological Observation Matrix）格式是宏基因组研究中最常用的结果保存格式，可将 OTU 或 Feature 表、样本属性、物种信息等多个表保存于同一个文件中，且格式统一，体积更小巧，目前被微生物组领域几乎所有主流软件所支持。biom 主要用来展示不同物种在不同样品中的丰度分布，类似与基因表达矩阵。如果该物种在某个样品中不存在，就是 0，与基因表达矩阵不同的是，不同样品中物种差别可能很大，所以会存在很多 0 的情况。通过biom 格式文件，方便不同软件之间相互调用，比如可以将 metaphlan 的结果导入 megan中查看。
   支持 biom 格式的软件包括 QIIME，MG-RAST，PICRUSt，Mothur，phyloseq 包，MEGAN，VAMPS，metagenomeSeq，Phinch，RDP Classifier，USEARCH，PhyloToAST，EBI Metagenomics，GCModeller，MetaPhlAn 2 等。
官方网站：

http://biom-format.org/

复制代码

BIOM 目前分为 1.0 JSON 和 2.0 HDF5 两个版本；1.0 JSON 是编程语言广泛支持的格式，类似于散列的键值对结果。会根据数据松散程度，选择不同的存储结构来节省空间。2.0 HDF5是二进制格式，被许多程序语言支持，读取更高效和节约空间。

# 安装 Python 包
conda install biom-format # 2.1.7

复制代码

九、目前病原微生物鉴定中存在的技术问题
   1、数据库信息不全，仍然有大量微生物没有被测序；
   2、已有数据库准确性有待提高；
   3、物种之间存在同源性，数据库冗余；
   4、数据库过大，比对时间过长；
   5、需要大量计算资源；

十、不同分析软件的比较
   宏基因组物种鉴定软件有很多，但不同软件核心算法不同，使用的数据库不同，会有较大差别，且很难进行横向比较。
   在比对算法上，有基于 blast 直接比对，也有使用 kmer 方法比对，有比对核酸数据库，也有比对氨基酸数据库。有使用 nt 库作为索引数据库，也有使用 marker gene 作为数据库，因此很难进行评估。
   也有文章对于对于 20 种宏基因组物种鉴定工具进行横向比较。


   宏基因组分析方法比较

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册