表达数据集按表达丰度排列,也就是上图中热图所展示的。功能基因数据集中出现在表达数据集当中的基因所处的位置用黑色竖线表示。
富集分数ES是从排序后的表达数据集的第一个基因开始,如果表达数据集中的基因出现在基因数据集中则加分,反之,不在基因数据集中则减分。所以,富集分数ES是动态变化的。这条绿色曲线正是富集得分的体现,绿色曲线的峰值就是最大富集分数。若 ES 为正值说明在顶部富集如 A,若为负值说明在底部富集如 B。
若研究的基因数据集的成员显著聚集在表达数据集的顶部或底部,说明基因数据集中的基因在表达数据集中高表达或低表达;若随机分配说明表达数据集与基因数据集对应的表型无关。Leading-eage subset 即最大 ES 值前对应的基因,即对富集得分贡献最大的基因成员。
关键概念
富集得分 ES,在计算过程中不断加分或减分,因此它是个动态的数值,一般的数据图片中往往不呈现 ES 值,有的话也应该是最大 ES 值。
校正后富集得分 NES,是个常数,用来比较表达数据集在不同功能基因数据集中的富集程度。
名义 p 值,因为它没有进行功能基因子集大小和多重假设检验校正,因此称为名义 P 值,它描述的是针对某一功能基因子集得到的富集得分的统计显著性,p 值越小富集性越好。
错误发现率 FDR,该指标进行了功能基因子集大小和多重假设检验矫正,用于判断假阳性率。
总体错误率 FWER,用于检验出尽可能多的候选变量的同时将错误发现率控制在一个可以接受的范围。
Leading-eage subset 即最大ES 值前对应的基因,即对富集得分贡献最大的基因成员(又称为核心基因)。
与传统富集分析的区别
GO 富集分析通过分析差异基因在生物学过程,分子功能、细胞组成中的富集定位,从而对基因进行注释和分类,它通过设定 cut-off 值选出差异表达基因,对它们进行 GO terms 富集度统计学分析,计算出差异基因 GO terms 的 p-value 及 p-value 的 FDR 值(q-value),定位差异基因最可能相关的 GO terms,也就找出了该组差异基因最相关的功能或生物学过程或细胞定位等。
KEGG 通路分析和 GO 富集分析类似,选出差异基因,通过统计学分析判断差异基因可能和哪些通路相关。这两个分析方法都需要筛选出差异基因,忽略对结果有贡献但没有落在差异显著范围内的基因。而 GSEA 是利用测序或芯片获得的全基因组表达谱进行分析,不需要指定差异基因阈值,得出的结果更加可靠。
我们看上面这个图,基因数据集显然在表达数据集高表达区富集,而进行 GO 分析时通过 P 值或矫正后的 P 值 FDR 值筛选后只剩下左右两边少量的差异表达基因,与这里显示的基因数据集进行比对时显然没有明显富集,因此就会漏掉部分富集的数据集。