bioinfoer

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

360

主题
发表于 昨天 15:18 | 查看: 6| 回复: 2

背景

RNA-seq read count转换成TPM。

应用场景

只能拿到RNA-seq数据的read count,想转换成TPM。

注:TPM的计算方式最好是直接从原始的FASTQ文件进行获取,例如Samlon, Sailfish 或 kallisto, 或者先用FASTQ比对得到BAM,然后用RESM估计TPM.

count、fpkm和tpm对比介绍,参考:
https://bioinfoer.com/forum.php?mod=viewthread&tid=551&extra=page%3D1

下载TCGA RNA-seq的read count数据

如果你自己的RNA-seq数据已经保存成 easy_input.txt的格式,就跳过这步,直接进入“输入数据”

此处选择旧版本tcga下载得到的4个样本的conut数据。

新版本count和tpm下载方式参考:
https://bioinfoer.com/forum.php?mod=viewthread&tid=548&extra=page%3D1

输入数据

第一列是基因ID,第一行是sample ID。

一个单元格内是一个基因在一个sample中的read count。

#expMatrix <- read.table("easy_input.txt",
#                        row.names = 1, header = TRUE, sep="\t",as.is = T)
str(expMatrix)
#查看前三个基因的read count
expMatrix[1:3,]

计算基因长度

这一步有两种思路:

  • 方法1:简单粗暴的计算基因在染色体的起始和结束之差
  • (推荐)方法2:比较麻烦的计算每个基因的最长转录本(外显子之和)

方法1

如果只是想粗略了解一下表达情况,可以简单把基因在染色体上的起始位置和结束位置之差用作标准化的长度。

#source("https://bioconductor.org/biocLite.R")
#biocLite("biomaRt")
library(biomaRt)

#查看基因组参数
mart = useMart('ensembl')
listDatasets(mart)

#你需要哪个基因组,就复制它在dataset列里的词,放在下面这行的`dataset = `参数里
#此处以人类为例,植物参考注一
bmart <- biomaRt::useMart(biomart = "ENSEMBL_MART_ENSEMBL", 
                          dataset = "hsapiens_gene_ensembl",
                          host = "www.ensembl.org")

# 从输入数据里提取基因名
feature_ids <- rownames(expMatrix)

attributes = c(
        "ensembl_gene_id",
        #"hgnc_symbol",
        "chromosome_name",
        "start_position",
        "end_position"
    )
filters = "ensembl_gene_id"

feature_info <- biomaRt::getBM(attributes = attributes, 
                               filters = filters, 
                               values = feature_ids, mart = bmart)
mm <- match(feature_ids, feature_info[[filters]])
feature_info_full <- feature_info[mm, ]
rownames(feature_info_full) <- feature_ids

# 计算基因的有效长度
eff_length <- abs(feature_info_full$end_position - feature_info_full$start_position)
names(eff_length) <- feature_info_full$ensembl_gene_id

这里的 eff_length就是每个基因的有效长度

方法2

这一步原本打算用Bioconductor的 ord.Hs.eg.db,但是实际发现里面的ENSEMBL ID明显比输入的TCGA数据集里的ID少。所以决定从GTF文件提取:

先写一个函数,实现从下载GTF文件到计算基因长度

get_eff_len <- function(file=NULL, 
                        feature = "exon",
                        gene_id = 'gene_id',
                        transcript_id = "transcript_id",...){
  # check if file parameter is provided
  if ( is.null(file)){
    stop(" no file path or url provided")
  }
  
  file_split <- unlist(strsplit(file,'/'))
  file_name <- file.path(Sys.getenv('R_USER'),
                         file_split[length(file_split)])
  
  # check file is url or local path
  if (grepl(pattern = '(ftp|http|https)', file)){
    file_name <- file_name
    if ( ! file.exists(file_name)){
      print(paste0("file will save in ", file_name))
      download.file(url = file, 
                    destfile = ,file_name,
                    method = "internal")
        }
  } else{
    if ( ! file.exists(file)){
      stop("file is not exists")
    }
    file_name <- file
  }

  # get the file type from the file name
  # and build connection  with different read function
  file_type <- sub('.*?\\.(.*?)$','\\1',file_name)
  if (file_type == 'gtf'){
    gtf_in <- file(file_name, open='rt')
  } else if(file_type == 'gz'){
    file_name_tmp <- gsub(sprintf("[.]%s$",'gz'),"",file_name)
    if ( ! file.exists(file_name_tmp)) 
      R.utils::gunzip(file_name, remove = FALSE)
    gtf_in <- file(file_name_tmp, open='rt')
  } else{
    err_message <- paste0("unsupport file type: ", file_name)
    stop(err_message)
  }

  gtf_lines <- readLines(gtf_in, warn=FALSE)
  close(gtf_in)
  
  # save the effitve length of gene
  feature_pattern <- paste0("\\t",feature,"\\t")
  mt_rows <- sum(grepl(feature_pattern, gtf_lines))
  # check the feature
  if ( mt_rows <= 1){
    features <- do.call(rbind, strsplit(gtf_in, '\\t'))[,3]
    print("feature is unfoundable, the top 5 feature is:")
    print(as.data.frame(table(feature))[1:5,])
    stop(paste0("set your feature and run again"))
  }
  
  mt <- matrix(nrow = mt_rows, ncol= 1)
  factor_names <- vector(mode = "character",length = mt_rows)
  # save the gene id of the previous line 
  # iteration 
  line_num <- 1
  for (line in gtf_lines){
    if ( grepl(pattern = "^#", x = line)) next
    records <- unlist(strsplit(x = line, '\\t'))
    if ( grepl(feature, records[3]) ){
      gene_pattern <- paste0(".*?", gene_id, " \"(.*?)\";.*")
      gene_id_ <- sub(gene_pattern,"\\1",records[9])
      tx_pattern <- paste0(".*?", transcript_id, " \"(.*?)\";.*")
      tx_id_ <- sub(tx_pattern, "\\1",records[9])
      gene_start <- records[4]
      gene_end <- records[5]
      # add 1 for gtf coordinate is 1-based
      gene_len <- abs(as.numeric(gene_end) - as.numeric(gene_start) + 1)
      mt[line_num,] <- gene_len
      factor_names[line_num] <- paste0(gene_id_,"_",tx_id_)
      line_num <- line_num + 1
    }
  }
  by_transcript <- as.factor(factor_names)
  tx_length <- sapply(split(mt[,1], by_transcript), sum, na.rm=TRUE)
  by_gene <- as.factor(do.call(rbind, 
                                  strsplit(names(tx_length), '_'))[,1])
  gene_length <- sapply(split(tx_length, by_gene), max)
  return(gene_length)
}

目前只测试了拟南芥和人类。其他物种报错或者没有返回预期结果,请将物种的URL和你遇到的问题,请回复留言。

:函数不支持需要登陆才能下载的GTF的URL

下面调用函数下载GTF文件,提取存放有效转录本长度的向量

把你想要的gtf文件的地址写在 url <- 的后面

案例一:

此处以TCGA的read count作为输入,用跟TCGA一致的注释文件提取外显子长度。

到这里查询TCGA用的是哪个版本的注释文件:https://gdc.cancer.gov/about-data/data-harmonization-and-generation/gdc-reference-files

旧版本有注释用的是v22:GDC.h38 GENCODE v22 GTF (used in RNA-Seq alignment and by HTSeq),但是新版本已经没有,目前是star软件比对的。这里先用v22演示。刚好count文件也是旧版本的tcga下载的。

去刚才的页面下载v22版本gtf文件,解压缩到当前文件夹。

#url <- "ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_22/gencode.v22.annotation.gtf.gz"

file<- "gencode.v22.annotation.gtf"
eff_length <- get_eff_len(file = file, #或者换成file = url,自动下载解压缩
                          feature = "exon", #注意,用CDS时不会统计非编码RNA
                          gene_id = 'gene_id',
                          transcript_id = "transcript_id")

eff_length1 <- data.frame(eff_length)
write.csv(eff_length1, "eff_length.csv", row.names = TRUE)

eff_length1前几行如下:

gtf解压后文件较大,后续资料不提供,但是提供了转换后的“eff_length.csv”,不想转换的,可以跳过直接使用。

案例二:(未测试)拟南芥的GTF文件(推荐Araport),统计每个基因最长的转录本的CDS序列长度

file <- "Araport11_GFF3_genes_transposons.201606.gtf"
eff_length <- get_eff_len(file = file,
                          feature = "CDS", #只看蛋白编码基因
                          gene_id = 'gene_id',
                          transcript_id = "transcript_id")

收藏回复 显示全部楼层 道具 举报

发表于 昨天 15:18

read count转TPM

首先要保证表达矩阵的行名和存放基因长度向量的名字一致, 这一步非常重要

eff_length2 <-read.csv("eff_length.csv", row.names = 1, header = T)
eff_length2$gene_id <- rownames(eff_length2)
rownames(eff_length2) <- do.call(rbind,strsplit(eff_length2$gene_id,'\\.'))[,1]
#60483

# 从输入数据里提取基因名
feature_ids <- rownames(expMatrix)# 56830

# 检查gtf文件60483和表达量输入文件56830里基因名的一致性
if (! all(feature_ids %in% rownames(eff_length2))){
  tbl <- table(feature_ids %in% rownames(eff_length2))
  msg1 <- sprintf("%i gene is shared, %i gene is specified", tbl[[2]],tbl[[1]])
  warning(msg1)
} 

if (! identical(feature_ids, rownames(eff_length2))){
  msg2 <- sprintf("Given GTF file only contain %i gene, but experssion matrix has %i gene", nrow(eff_length2), nrow(expMatrix))
  warning(msg2)
}
# 警告: Given GTF file only contain 60483 gene, but experssion matrix has 56830 gene

# trim the expression matrix and effetive gene length
expMatrix <- expMatrix[feature_ids %in% rownames(eff_length2),] # 56830
mm <- match(rownames(expMatrix), rownames(eff_length2)) #56830
eff_length2 <- eff_length2[mm, ]# 选择对应排序位置 的基因的gtf 56830

if (identical(rownames(eff_length2), rownames(expMatrix))){
  print("GTF and expression matix now have the same gene and gene in same order")
}
# [1] "GTF and expression matix now have the same gene and gene in same order"

如果上面代码运行时有警告,主要是GTF里面的基因数低于表达矩阵时,请换一个更新版本的GTF文件. 最后结果时删减表达矩阵的行数,也就是基因数,保证表达矩阵的基因数目和GTF文件解析得到的基因数相同,并且顺序一致。

最后执行下面的代码

x <- expMatrix / eff_length2$eff_length
expMatrix_tpm <- t( t(x) / colSums(x) ) * 1e6 
#查看前三个基因的TPM值
expMatrix_tpm[1:3,]
colSums(expMatrix_tpm) # 确认都是1M
#把算好的TPM保存到本地
write.table(expMatrix_tpm, "TCGA_count2tpm.txt", sep="\t", quote=F, row.names=T)

结果对比

直接比较FPKM转成的TPM和count转换而成的TPM,你或许会发现两者的结果有一些差异。这和你选择的GTF版本有关,也和FPKM的生成方式有关,因此最好的方式是比较相关性。

fpkm2tpm.mt <-  read.table("TCGA_FPKM2TPM.genes.txt", sep = " ",
                           row.names = 1)

# compare raw count with count2tpm
cor(x=expMatrix[,1], y=expMatrix_tpm[,1], use = "pairwise.complete.obs")
# compare raw count with fpkm2tpm
cor(x=expMatrix[,1],
    y=fpkm2tpm.mt$TCGA.DD.A11D.01A.11R.A131.07)
# compare  count2tpm with fpkm2tpm
cor(x=expMatrix_tpm[,1],
    y=fpkm2tpm.mt$TCGA.DD.A11D.01A.11R.A131.07)

以第一列为例,raw count 和 count2tpm的相关性是0.92,而raw count 和fpkm2tpm的相关系数是 0.89 表明,count转换的tpm相关系数更好。

而count2tpm和fpkm2tpm的相关系数是0.989, 证明了count2tpm的代码是有效的。

参考资料

  • https://biology.stackexchange.com/questions/64860/what-is-the-length-of-gene-when-calculating-tpm-transcripts-per-million
  • Seurat::getBMFeatureAnnos

注1: biomaRt支持多物种, 通过更改参数biomart 和 host 来获取,植物的host跟动物的不同

biomaRt::listMarts(host="plants.ensembl.org")
mart <- biomaRt::useMart(biomart = 'plants_mart',
                         host = "plants.ensembl.org")
genome <- biomaRt::listDatasets(mart)

注2:biomaRt::getBM由于要从国外服务器下载数据所以比较慢,可能还会断线, 当你遇到"The query to the BioMart webservice returned an invalid result: biomaRt expected a character string of length 1. Please report this to the mailing list."时不要慌张,反复重新运行这行命令就行

回复 显示全部楼层 道具 举报

发表于 昨天 15:18

文中所用数据可以关注公众号“生信喵实验柴”
1.png
发送关键词“20250404”获取

回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|bioinfoer ( 萌ICP备20244422号 )

GMT+8, 2025-4-3 16:09 , Processed in 0.096993 second(s), 36 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表