生信人»论坛 › 生信基础 › 入门基础 › alpha和beta多样性

0 收听	12 听众	278 主题

alpha和beta多样性

发表于 2023-5-2 18:22:06 | 查看: 755| 回复: 2

本帖最后由生信喵于 2023-5-2 18:28 编辑

一、alpha 多样性
1.1 多样性指数
   多样性指数：所谓多样性指数是用来描述一个群落的多样性的统计量。在生态学中，它被用来描述生态系统中的生物多样性，在经济学中可以用来描述一个地区中经济活动的分布。生态学指数与其他指数类似，比如股票大盘指数，恩格尔系数，基尼系数等。
生态学中常用的多样性指数有 alpha 多样性， beta 多样性以及 gamma 多样性。现在常用的主要是 alpha 多样性指数以及 beta 多样性指数。
alpha 多样性指数：
   alpha 多样性指数是用于测量群落内生物种类数量以及生物种类间相对多度的一种测量。它反映了群落内物种间通过竞争资源或利用同种生境而产生的共存结果。
   alpha 多样性主要有 Chao1 丰富度估计量（Chao1 richness estimator），香农多样性指数（Shannon diversity index）以及辛普森多样性指数（Simpson diversity index）等。
beta 多样性指数：
   beta 多样性指数是生态系之间的种多样性，它包含分类单位的比较。即衡量群落之间的差别。 Beta 多样性不仅描述生境内生物种类的数量，同时也考虑到这些种类的相同性及其彼此之间的位置。 beta 多样性指数主要包括 PCoA 分析， PCA 分析， NMDS 分析等。

1.2 alpha 多样性基本概念
   在介绍 Shannon 和 Simpson 两个指数之前，首先我们需要了解几个概念：
基础概念
   丰富度（Richness）：一个群落内物种的数量，与个体数量无关，如有 10 种类型的细菌，则物种数量为 10，丰富度为 10。
   丰度（Abundance）：一个物种对应的个体数量，如群落内的 A 细菌有 10 个个体，则 A 细菌丰度为 10。在计算中，使用物种对应的序列数表示。
   均匀度（Evenness）：样本内物种个体数量的一致程度，所有物种的个体数相等，即丰度相等，则最均匀。


   富度均匀度以及丰度示意图
   如图 1， A 地点有甲（圆形），乙（方形），丙（三角形）三个物种，同时每个物种的丰度都是 2。而 B 地点，也是有甲乙丙三个物种，甲丰度是 4，乙丰度是 1，丙丰度是 1。 C 地点，也有三个物种，同时每个物种的丰度都是 3、 A、 B、 C 的物种数相等，所以 3 个地点的丰富度相等， C 的物种丰度高于 A，但 A 和 C 的均匀度相等。相对于 A、 C， B 点的物种丰度差异更大，因此 B 的均匀度低于 A 和 C。

1.3 参数指标
alpha 多样性指数表

指数类型	Sob	Chao1	ACE	Shannon	Simpson	PD-whole tree	Good's coverage
影响因素	丰富度	丰富度	丰富度	丰富度+均匀度	丰富度+均匀度	丰富度+进化距离	丰富度
值越大	越高	越高	越高	越高	越高	越高	测序量越充足
可视化形式	盒型图、柱形图、小提琴图、稀释曲线、 rank abundance 曲线

1.3.1 Chao1 指数
   由于测序数据量限制，我们一般不会把一个样本中所有的物种都测出来，因此我们需要通过“预估”每个样本中的所有物种种类，才能对样本间的 α 多样性进行准确的比较。 Chao1 就是其中一个常用于估算样本物种总量的计量值，这个指标是在 1984 年首先被 Chao 这个科学家提出来（为什么是 Chao 还有数字 1？因为他还提出过 Chao2 等概念）。它的计算公式如下：
            其中， S1 就是 Chao1； Sobs 为观察到的物种数，也就是测序分析得到的物种数； F1 是样本中数量只为 1 的物种数目（称为 Singleton）； F2 是样本中数量只为 2 的物种数目（称为Doubleton）。
   Chao1 的意义是，在对群落样本进行抽样的时候，如果还有没被发现的新物种，那么抽样中会一直发现 Singleton。直到不再观察到 Singleton 的时候（也就是观察到的某物种的数目至少为 2），可以认为此时的物种数目观察值为样本的理论最高值。因此， Chao1 是主要利用Singleton 和 Doubleton 来判断群落的物种丰富度，它对单个物种的变化更为敏感。它的数值越大，表示物种种类越多。

1.3.2 ACE 指数
   ACE 指数也是另外一个常用于估算样本物种丰度的指数，这个指数也是 Chao 这位大神与其他科学家共同提出来的（小补充一句， Chao 还提出了很多厉害的生态学理论，有兴趣的可以了解一下）。 ACE 指数具体的公式为：

   这个公式比较复杂，其中， Scommon 是样本中出现超过 10 次的物种的数目； Srare 是出现不多于 10 次的物种的数目， Cace（Cace=1-（F_1/n_race））表示所有低丰度（出现<=10次）的物种中非 singleton 的比例，是变异系数。
   简单来说， ACE 指数是通过 singleton 和稀有物种（出现<=10 次）来估算还有多少没被发现的物种。为什么会介入稀有物种这么一个概念？其中一个重要原因是，在实际生态学分析中，低丰度的物种（如 doubleton）很容易随着测量的误差错误而产生，而稀有物种的测量则相对稳定，因此在计算上更容易排除测序误差等干扰。当测序中 singleton 的比例越大， ACE值越大，样本的真实物种种类越多。

1.3.3 Shannon 指数
   Shannon 指数，也称香浓指数，也是在α多样性分析中常见的概念，在 1963 年由 Shannon和 Wiener 首先提出来。我们常常见到香浓指数用于盒形图分析，稀释曲线分析等分析条目当中。 Shannon 指数与前面介绍的两个指数不一样， Chao1 和 ACE 主要用于计算物种的丰富度（Richness），更在乎样本是否有这个物种。而 Shannon 指数不只关心物种丰富度，而且同时关心物种的均匀度（Evenness），所以是对群落结构的更综合性的反应。它的具体算法是：
   H＝－∑（ Pi）（ log2Pi）
   其中 Pi 是样品中属于第 i 种的个体的比例，如样品总个体数为 N，第 i 种个体数为 ni，则 Pi＝ ni/N。 Shannon 指数的总体理念是为了预测下一个采集的物种是什么，因此它是对采集物种的不确定性进行分析。如果群落的多样性越高，那么下一个采集到物种的不确定性更大。举个例子，如果 X 群落只由 4 个物种 M 组成， Y 群落由各一个 E、 F、 G、 H 物种组成，那么在连续采样的时候， X 群落中，第一个采样的是 M，第二个还是 M，这个结果是肯定的，因此 X 的多样性更低。而 Y 群落，第一个采 E 之后，第二个有同样的可能性采到其他三个种，因此相比 X 来说， Y 的不确定性更大，多样性则更高。

   对于 Shannon 指数的计算方法来说，我们举个例子进一步说明，如果：
   A 群落：甲 2、乙 2、丙 2，则各物种比例为甲（0.33），乙（0.33），丙（0.33）
   B 群落：甲 4、乙 1、丙 1，则各物种比例为甲（0.67），乙（0.17），丙（0.17）
   通过计算可以得到，群落 A 的 Shannon 值=－〔0.33（log20.33）＋ 0.33（log20.33） +0.33（log20.33）〕＝ 1.58，同理，群落 B 的是 Shannon 值为 1.26。数值显示，群落 B 的α多样性比群落 A 的低，这是由于群落 B 的物种均匀度更高所引起的。

4、 Simpson 指数
   理解了 Shannon 指数的理念后，那对理解 Simpson 指数就很有帮助了。 Simpson 指数本质也是综合考虑样本中物种的丰富度与均匀度，它是在 1949 年由 Edward H. Simpson 提出来。
   具体理念是，在足够大的样本中，有放回地先后抽取两个样本，这两个样本是同一个种的概率是多少？其实答案很简单，假如我们已知 Pi 是样品中属于第 i 种的个体的比例，那么抽取到两个都是种 i 的概率是。基于这个理念，如果我们将所有物种的概率相加，就得到Simpson 指数，其计算公式为：


   S 表示物种种类的总数。我们可以看出， Simpson 数值范围在 0-1 之间，当群里只有一种物种的时候， Pi 则为 1，此时 Simpson 值最小（为 0），同时也是我们直观理解的多样性最小。当物种种类无限多（丰富度最高），并且每个物种数目都一致（均匀度最高）的时候， Simpson值为 1，是最大值。

1.3.5 Good's Coverage
   这个数值的计算有点与 Cace 相类似。只是 Cace 取用的是出现次数不超过 10 的物种（或OTU）进行计算，而 Good’s Coverage 利用的是全部 OTU 的丰度，它表示所有非 singleton在总样本中的比值，具体计算公式为：

   C=1 - (F1 / N)
   其中， F1 表示 Singleton 的数目， N 表示样本中所有 OTU 的总数。由于之前说过，随测测序深度的增加，理论上，如果不再出现 Singleton，表示已经测到样本中所有物种。所以通过检查 Singleton 在样本中的比值，能够简单发现是否测序是否饱和，因此 Coverage 同时也是一个间接判断测序数据是否足够的指标。 C 的数值越大，在测序数据量一样的情况下，样本的物种丰富度越小。

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

收藏0 回复显示全部楼层道具举报

生信喵

发表于 2023-5-3 10:08:10

1.3.6 PD_whole_tree
   基于系统发育树来计算的一种多样性指数，它用各个样品中 OTUs 的代表序列构建出系统发育树的距离，将某一个样品中的所有代表序列的枝长加和，从而得到的数值。数值越大，群落多样性越高。

   进化分支树示例
   如上图所示，该进化树中共计 11 个分枝。假定一个样本包含 2、 6、 8、 10 这 4 个分枝（已标注在其分枝顶端），连接这个样本的 4 个分枝的路径由粗线表示，路径所经过的刻度线（距离单位）的数量为 28，则该样本的 PD 为 28。实际计算中还会考虑物种丰度所以 PD 指数是结合了进化距离，对样本谱系多样性的反映。数值越大，物种的进化距离越远，则物种多样性越高。

二、Beta 多样性2.1 beta 多样性基本概念
   β多样性（Beta Diversity）是指不同样品间的生物多样性的比较，是对不同样品间的微生物群落构成进行比较。 β 多样性分析通常由计算环境样本间的距离矩阵开始，对群落数据结构进行自然分解，并通过对样本进行排序（Ordination），从而观测样本之间的差异。
beta 多样性意义：
   1、它可以指示生境被物种隔离的程度；
   2、β多样性的测定值可以用来比较不同地段的生境多样性；
   3、β多样性与α多样性一起构成了总体多样性或一定地段的生物异质性。
   β 多样性分析中通常采用以下几种算法： bray_curtis 、 euclidean 、 abund_jaccard 、unweighted_unifrac、 weighted_unifrac 等计算任意两个样本间的距离从而获得样本距离矩阵，这些算法主要分为两大类：加权（如 Bray-Curtis 和 Weighted Unifrac）与非加权（如 Jaccard和 Unweightde Unifrac）。利用非加权的计算方法，主要比较的是物种的有无，如果两个群体的 β 多样性越小，则说明两个群体的物种类型越相似。而加权方法，则需要同时考虑物种有无和物种丰度两个层面。
beta 多样性常用距离分布比较方法

	基于独立 OTU	基于系统发育树
加权	Bray-curtis	Weighted unifrac
非加权	Jaccard	Unweighted unifrac

   Bray curtis 距离基于物种的丰度信息计算，是生态学上反应群落之间差异性常用的指标之一。Weighted Unifrac 距离是一种同时考虑各样品中微生物的进化关系和物种的相对丰度，计算样品的距离，而（Unweighted Unifrac）则只考虑物种的有无，忽略物种间的相对丰度差异。Uweighted Unifrac 距离对稀有物种比较敏感，而 Bray curtis 和 Weighted Unifrac 距离则对丰度较高的物种更加敏感。最后，基于以上的距离矩阵，通过多变量统计学方法主坐标分析（ PcoA ， Principal co-ordinatesAnalysis ），非加权组平均聚类分析（ UPGMA ，UnweightedPair-groupMethod with Arithmetic Means）等分析，进一步从结果中挖掘各样品间微生物群落结构的差异和不同分类对样品间的贡献差异。

2.2 参数指标
      指示 Beta 的方法有很多，在文章中常见的有-距离指数（Jaccard、 Bray-Curtis、 Unifrac）；排序分析（PCA、 PCoA、 NMDS）；聚类分析（UPGMA）；差异分析（adonis、 anosim）等几大类。通过这些分析如 PCA、 PCoA 等，能在实验前期帮助规避很多风险，例如，揭示分组是否符合预期，采样是否合理，还可对离群样本进行剔除等。
2.2.1 PCA 分析
      PCA（Principal componentanalysis，主成分分析）分析是一种非约束性的数据降维方法，常用于简化数据集。它基于 euclidean（欧式距离），运用方差分解寻找造成样本间差异的主成分（特征值）及其贡献率。 PCA 分析能够从原始数据中提取样本间最主要的差异特征，并根据这些差异特征将样本在新的低维坐标系中依次排序，使得样本在新坐标系中的距离远近能在最大程度上还原样本间的实际差异。在这排序过程中，每一坐标轴对原始数据中样本差异的解释比例依次下降。因此，通常选取 PCA 分析得到的前二维（PC1 和 PC2）或三维（PC1、PC2 和 PC3）数据作图，可以得知群落样本的主要分布特征，从而量化样本间的差异和相似度。

      使用 R 软件，基于 euclidean 相异系数计算结果，对 OTU 水平的群落组成结构进行 PCA 分析，并以二维或三维图像描述样本间的自然分布特征。如样本的物种组成越相似，它们在PCA 图中的距离越接近。


      PCA 分析二维排序图
      注：一个点代表一个样本，不同颜色的点属于不同样本（组）。选取前两个主成分 PC1 和 PC2作图，坐标轴括号中的百分比代表了对应的主成分所能解释的原始数据中差异的比例（方差贡献率）。十字交叉线仅作为 0 点基线存在，起到辅助分析点作用，并无实际意义。横、纵坐标轴的刻度是相对距离，也无实际意义。点与点空间距离表示物种组成结构的差异程度。


      PCA 分析三维排序图
      注：一个点代表一个样本，不同颜色的点属于不同样本（组）。选取前三个主成分 PC1、 PC2和 PC3 作图，坐标轴括号中的百分比代表了对应的主成分所能解释的原始数据中差异的比例（方差贡献率）。点与点空间距离表示物种组成结构的差异程度。

2.2.2 PCOA 分析
      PCoA（Principal coordinateanalysis，主坐标分析）是一种经典的 MDS 分析方法(Ramette,2007)，与 PCA 最大的差别是 PCoA 可以基于除欧式距离以外的其他距离尺度评价样本之间的相似度。 PCoA 通过对样本距离矩阵作降维分解，从而简化数据结构，展现样本在某种特定距离尺度下的自然分布。
使用 R 软件，调用除欧式距离以外的其他距离矩阵，对 OTU 水平的群落组成结构进行 PCoA分析，并以二维或三维图像描述样本间的自然分布特征。如样本的物种组成越相似，它们在PCoA 图中的距离越接近。


      PCoA 分析二维排序图
      注：一个点代表一个样本，不同颜色的点属于不同样本（组）。选取前两个主成分 PC1 和 PC2作图，坐标轴括号中的百分比代表了对应的主成分所能解释的原始数据中差异的比例（方差贡献率）。十字交叉线仅作为 0 点基线存在，起到辅助分析点作用，并无实际意义。横、纵坐标轴的刻度是相对距离，也无实际意义。点与点空间距离表示物种组成结构的差异程度。


      PCoA 分析三维排序图
      注：一个点代表一个样本，不同颜色的点属于不同样本（组）。选取前三个主成分 PC1、 PC2和 PC3 作图，坐标轴括号中的百分比代表了对应的主成分所能解释的原始数据中差异的比例（方差贡献率）。点与点空间距离表示物种组成结构的差异程度。

2.2.3 NMDS 分析
      NMDS 与 PCoA 类似，也是一种基于样本距离矩阵的多维尺度分析方法，与 PCoA 不同的是，NMDS 不再依赖特征根和特征向量的计算，而是通过对样本距离进行等级排序，使样本在低维空间中的排序尽可能符合彼此之间的距离远近关系（而非确切的距离数值）。因此， NMDS分析不受样本距离的数值影响，仅考虑彼此之间的大小关系，是非线性的模型，对于结构复杂的数据，排序结果可能更稳定。
使用 R 软件，调用任意距离矩阵，对 OTU 水平的群落组成结构进行 NMDS 分析，并以二维或三维图像描述样本间的自然分布特征。如样本的物种组成越相似，它们在 NMDS 图中的距离越接近。


      NMDS 分析二维排序图
      注：一个点代表一个样本，不同颜色的点属于不同样本（组）。十字交叉线仅作为 0 点基线存在，起到辅助分析点作用，并无实际意义。横、纵坐标轴的刻度是相对距离，也无实际意义。 Stress 是反映 NMDS 分析结果优劣的指标，通常认为 stress<0.2 时可用 NMDS 的二维点图表示，其图形有一定的解释意义；当stress<0.1 时，可认为是一个好的排序；当stress<0.05时，则具有很好的代表性。点与点空间距离表示物种组成结构的差异程度。

2.2.4 聚类分析
      聚类分析主要指层次聚类（Hierarchical clustering）的分析方法，以等级树的形式展示样本间的相似度，通过聚类树的分枝长度衡量聚类效果的好坏。与 MDS 分析相同，聚类分析可以采用任何距离评价样本之间的相似度。常用的聚类分析方法包括非加权组平均法（ Unweighted pair-groupmethod with arithmetic means ， UPGMA ）、单一连接法（ single-linkage clustering）、完全连接法（ complete-linkageclustering）和平均连接法（average-linkage clustering）等。
      通常，为了更深入地了解 PCoA 的结果，分别基于 Weighted Unifrac 距离矩阵和 UnweightedUnifrac 距离矩阵，通过 UPGMA（非加权组平均法）方法对样品进行聚类分析，并将聚类结果与各样品在门水平上的物种相对丰度整合展示。


      非加权组平均法样本层次聚类树

本帖子中包含更多资源

您需要登录才可以下载或查看，没有账号？立即注册

回复显示全部楼层道具举报

生信喵

发表于 2023-5-3 10:09:05

注：左侧是 UPGMA 聚类树结构，每个分支代表一个样本，右侧是各样本在门水平的物种/功能相对丰度柱状图。图中左下角的图例为距离标尺，两样本在聚类树上点分支距离越短，表明它们的群落结构越相似。

回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			立即注册