生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

278

主题
发表于 2021-10-25 11:01:11 | 查看: 2373| 回复: 2
通过exprs函数获取表达矩阵后我们可以通过以下三种方法判断是否需要进行log2转换
1.肉眼识别
最简单粗暴的方法就是,根据数值大小粗略估计:
如果表达量的数值在50以内,通常是经过log2转化后的。如果数字在几百几千,则是未经转化的。因为2的几十次方已经非常巨大,如果2的几百次方,则不符合实际情况。

比如,下面这个矩阵,我们肉眼就能看到数值都是个位数字,最大也就十几,这就是log处理过的:

这个矩阵数字就很大,这时候需要log2转换:

2.根据标准化处理方法推算
GSE数据下载界面中的SOFT文件和Series Matrix File(s)文件中均有描述该系列的数据是如何进行标准化处理的,常见的标准化处理方法有3种:RMA算法、GC-RMA算法、MAS5算法,其中前两中算法的返回值已经经过log2转换,可直接进行差异表达分析,第三种算法返回值未经过log2转换,需要自行进行log2转换。

打开下载好的Series Matrix File(s)文件—GSE42872_series_matrix.txt,查看数据使用的是哪种标准化处理方法。




发现使用的是RMA算法,我们知道该算法的返回值已经经过log2转换,可直接进行差异表达分析。
3.使用脚本自动判断是否需要log转换
  1. ## 下载数据GSE42872
  2. rm(list = ls())
  3. library(GEOquery)
  4. eSet <- getGEO("GSE42872",
  5.                destdir = '.',
  6.                getGPL = F)


  7. # 从eSet中提取表达矩阵exprSet
  8. exprSet <- exprs(eSet[[1]])

  9. #对得到的表达矩阵操作
  10. ex <- exprSet
  11. qx <- as.numeric(quantile(ex, c(0., 0.25, 0.5, 0.75, 0.99, 1.0), na.rm=T))
  12. LogC <- (qx[5] > 100) ||
  13.   (qx[6]-qx[1] > 50 && qx[2] > 0) ||
  14.   (qx[2] > 0 && qx[2] < 1 && qx[4] > 1 && qx[4] < 2)

  15. if (LogC) { ex[which(ex <= 0)] <- NaN
  16. exprSet <- log2(ex)
  17. print("log2 transform finished")}else{print("log2 transform not needed")}
复制代码
这个脚本会自动判断是否需要log2转化,上面我们知道GSE42872数据是log2过后的,所以这里会返回:
  1. [1] "log2 transform not needed"
复制代码
如果没有log话,他自动log2,并且返回:
  1. "log2 transform finished"
复制代码


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

发表于 2021-10-25 16:26:06
牛哇牛哇,正好需要

回复 显示全部楼层 道具 举报

发表于 2021-10-27 18:01:34
chen 发表于 2021-10-25 16:26
牛哇牛哇,正好需要

那就好,那就好,那就好,那就好

回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-4-27 00:44 , Processed in 0.041578 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表