六、宏基因测序物种分类原理
当前使用的宏基因组物种分类方法,主要是使用 NCBI 的物种分类数据库进行分类。将测序数据与 NCBI 的序列数据库经行比对,例如 nt 库,nr 库,refseq 数据库等。如果测序数据与数据库中序列具有很好的相似性,而认为二者为同源序列,具有相同的祖先。将测序 ID 转换为 NCBI Accession ID,然后将 Accession ID 转换为物种分类 Tax ID。则得到了测序数据的物种分类信息。物种分类本质上则是根据序列相似性进行三种 ID 相互转换的过程。
利用纳米孔测序进行快速鉴定示意图
三者之间的关系:测序的 ID 可以比对到多个 Accession ID,序列越长,唯一性越好,选择比对最好的 Accession ID。由于物种分类包括过个层级,一个 Accession 对应唯一 Taxon ID。一个 Taxon ID 中可以包含多个 Accession ID。每个 Taxon 还对应一个 parent taxid,对应一个 division id。
举例:
有一条序列,比对到了 Accession ID 是 NC_000001,NC_000001 对应的 Taxon ID 为 9606。9606 对应的 name 为 Homo sapiens,9606 的 parent tax_id 为 9605,对应 Homo。对应的division id 为 5,Primates 灵长类。
七、不同物种分类算法比较
LCA:“lowest common ancestor”,最小公共祖先法。
所谓 LCA,是当给定一个有根树 T 时,对于任意两个结点 u、v,找到一个离根最远的结点 x,使得 x 同时是 u 和 v 的祖先,x 便是 u、v 的最小公共祖先。
LCA 原理
对于这棵树来说 lca(9, 10) = 7, lac(6, 10) = 4, lac(3, 6) = 1,Kraken,Kraken 2,Opal,CLARK,与 MetaOthello 等软件是基于 kmer 的比对,利用 LCA 算法。
序列相似性:
相似性(similarity):是指所检测的序列与目标序列之间相同的碱基或氨基酸占整个序列的比例。相似性越高,同源性越高。但是需要注意,同源必须相似,但是相似不一定同源。
基于相似性比对的方法,可以比对全基因组序列,也可以比对 Marker 基因,例如 16S 等。blast,diamond,last,Megan,MetaPhlan,GASiC,MG-RAST 等软件基于序列相似性方法进行物种分类。基于相似性的缺点是比较速度较慢。
分类器:
基于机器学习的判别法进行分类,例如贝叶斯和 embase 估计 Bracken, MetaKallisto,Pathoscope;基于线性模型和混合线性模型分类 PhyloPythia,DiTASiC 和 MetaPalette;马尔科夫模型 Phymm/PhymmBL 基于支持向量机 PhyloPythia+,Burrows-Wheeler 转换,例如 Centrifuge。
八、biom 文件格式
biom(The Biological Observation Matrix)格式是宏基因组研究中最常用的结果保存格式,可将 OTU 或 Feature 表、样本属性、物种信息等多个表保存于同一个文件中,且格式统一,体积更小巧,目前被微生物组领域几乎所有主流软件所支持。biom 主要用来展示不同物种在不同样品中的丰度分布,类似与基因表达矩阵。如果该物种在某个样品中不存在,就是 0,与基因表达矩阵不同的是,不同样品中物种差别可能很大,所以会存在很多 0 的情况。通过biom 格式文件,方便不同软件之间相互调用,比如可以将 metaphlan 的结果导入 megan中查看。
支持 biom 格式的软件包括 QIIME,MG-RAST,PICRUSt,Mothur,phyloseq 包,MEGAN,VAMPS,metagenomeSeq,Phinch,RDP Classifier,USEARCH,PhyloToAST,EBI Metagenomics,GCModeller,MetaPhlAn 2 等。
官方网站:
BIOM 目前分为 1.0 JSON 和 2.0 HDF5 两个版本;1.0 JSON 是编程语言广泛支持的格式,类似于散列的键值对结果。会根据数据松散程度,选择不同的存储结构来节省空间。2.0 HDF5是二进制格式,被许多程序语言支持,读取更高效和节约空间。
- # 安装 Python 包
- conda install biom-format # 2.1.7
复制代码
九、目前病原微生物鉴定中存在的技术问题
1、数据库信息不全,仍然有大量微生物没有被测序;
2、已有数据库准确性有待提高;
3、物种之间存在同源性,数据库冗余 ;
4、数据库过大,比对时间过长;
5、需要大量计算资源;
十、不同分析软件的比较
宏基因组物种鉴定软件有很多,但不同软件核心算法不同,使用的数据库不同,会有较大差别,且很难进行横向比较。
在比对算法上,有基于 blast 直接比对,也有使用 kmer 方法比对,有比对核酸数据库,也有比对氨基酸数据库。有使用 nt 库作为索引数据库,也有使用 marker gene 作为数据库,因此很难进行评估。
也有文章对于对于 20 种宏基因组物种鉴定工具进行横向比较。
宏基因组分析方法比较
|