GSEA 分析流程

生信喵 发表于 2022-1-12 02:29:57

本帖最后由生信喵于 2022-1-12 08:43 编辑

背景
   本次带大家实操gsea，将从分析前参数选择、分析流程操作演示和分析中常见错误分析三个方面给大家进行介绍.

   首先我们来进行 GSEA 软件的参数选择与讲解。GSEA 软件有三大参数，分别是必须参数(Required fields)、可选参数(Basic fields)、高级参数(Advanced fields)，接下来一一为大家介绍。
   必须参数，必须参数这一块有七大内容，这是软件的截图。

   其中 Expression dataset 指的是我们选择的要分析的表达谱数据，也就是我们在之前介绍过的自己构建的 GCT 格式的文件。
   Gene sets database 指的是我们选择的基因集，即 Molecular Signatures Database，MSigDB。MSigDB 有八个模块，H: hallmark gene sets 效应特征基因集合，共 50 组；C1: positional gene sets 位置基因集合，根据染色体位置，共 326个；C2: curated gene sets：专家共识基因集合，基于通路、文献等；C3: motif gene sets：模式基因集合，主要包括 microRNA 和转录因子靶基因两部分；C4: computational gene sets：计算基因集合，通过挖掘癌症相关芯片数据定义的基因集合；C5: GO gene sets：Gene Ontology 分析基因集；C6: oncogenic signatures：癌症特征基因集合，大部分来源于 NCBI GEO 未发表芯片数据；C7: immunologic signatures: 免疫相关基因集合。
   样品用于置换检验重复次数，默认 1000，选择的时候别选那么高，一般 5-10 即可。如图所示，一般我们自己填进去 5 就行，选的越高，数据分析准确性越好，但是对于电脑的内存要求越高，同时分析时间也越长。
   选择含有表型标签的数据，即我们前文自己构建的表型数据。
   第五个, 将表达数据中的探针名转换成 gene symbols。如果上传的已经是 gene symbols，则选择 NO_collapse，如果是前文下载的 GEO 数据，里面的名称是探针，则选择collapse，下文中的 chip platform 选择注释文件。
   下面这个 permutation type 参数有两个选项，phenotype 和 Gene_set。phenotype 用于每个表型组至少 7 个样本的实验；Gene_set用于表型组样本数少于 7 个的时候。
   选择 chip 注释文件，用于 collapsed to gene symbols这一步。
   我们前面强调在下载数据的时候，也要关注平台数据，就是箭头所指的注释文件；对应此平台数据选择 GSEA 中相应的 Chip platform 即可。



   上图的可选参数包括七个部分。
   Analysis name 即自己命名分析结果，注意命名不能有空格。
   Enrichment statistic 即计算富集得分，富集得分的算法，默认选择 weighted。
   Metric for ranking genes，选定对基因打分和排序的模式。默认选择signal2noise,即选择信噪比进行打分和排序。选择这个模式，表型文件必须有至少两个分组，表达数据每个分组必须包含至少三个样本，如果不满足这个要求，则需选择其他的打分和排序模式。不过我们要分析的一般都符合这个要求，所以选择默认的信噪比模式即可。
   Gene list sorting mode 即基因排序模式。可以选择 real 原值或者 abs 绝对值，我们选择的话就选默认的 real 即可。
   Gene list ordering mode 基因排序方式，是升序还是降序，大家可根据自己喜好选择。这里指的是基因集基因数目的上限和下限。大家可以自己设置，默认是上限500，下限 15。
   最后一个是结果保存路径，默认在 C 盘，红色箭头所指文件夹中，当然，我们也可以自己设置。

   讲完了可选参数，接下来是高级参数的界面，里面有好多内容，这里就不一一解释了，有兴趣了解的同学，可以找下别的资料。

第二部分，分析操作
   我们选择官方数据来操作，进入以下网址，
http://software.broadinstitute.org/gsea/datasets.jsp    选择P53的三个数据：p53_hgu95av2.gct 是芯片表达谱数据，我们一会儿会下载，但是不分析此数据，P53_collapsed.gct 是我们要进行分析的基因表达谱数据，p53.cls 是指包含表型标签的数据。点击链接开始下载，下载前需要先登录。
   根据前面的选项参数介绍，得到结果


第三部分，常见错误
常见错误1：Java heap space ,OutOfMemoryError，
   就是内存不足，解决办法就是改运行 java 的运行内存，下载一个 eclipse 软件，
http://www.eclipse.org/downloads/    然后按照下面的教程改就可以了。
https://jingyan.baidu.com/article/5d6edee2f5efff99ebdeec63.html    当你再次运行的时候，就会看到内存变大很多。
常见错误 2：gmt 文件的 gene 名称与 gct 文件的 gene 名称不匹配，
   解决办法：（1）采用与你数据的物种来源一致的 gene sets，即 gmt 文件。比如你的数据是鼠的数据，直接用 MSigDB 的数据是不行的，需要自己将其基因名称转换为鼠的。（2）将你数据的基因名称转换成与 gene sets 一致。简单一点，比如，若你的 gmt 文件用的是 MSigDB，可将你 gct 文件中的第一列设置为芯片探针名称，run 的时候将 collapse dataset to gene symbols 设置为 collapse，chip platform 选择为你的芯片，让软件自动为你转换。

   好了，GSEA 分析流程就为大家讲解到这里，谢谢大家。

页: [1]

生信人's Archiver

GSEA 分析流程