|
发表于 2022-9-30 18:39:09
|
查看: 1733 |
回复: 1
一、RNAseq简介
1.1 RNAseq 定义
转录组,也叫做 RNAseq,是指特定类型细胞中全体转录本的集合。在转录组中,既包括编码蛋白的信使 RNA(mRNA),也包括不编码蛋白的 rRNA,tRNA,小RNA,lncRNA 等非编码 RNA。这些 RNA 转录本彼此协同作用,共同来调控细胞的生长,发育,凋亡等一系列重要的生理过程。对于转录本的研究通常包括定性和定量两个方面。
转录组是细胞特定时刻基因表达谱的一个快照,它其实是一个动态的过程,DNA是静态的过程,我们测序只是捕获某一状态下的情况。对于转录组的测序就称为 RNAseq。
1.2 mRNAseq
我们目前的 RNAseq 测序主要就是研究转录出来的 mRNA。关于转录我们都了解中心法则,中心法则的主要内容是,DNA 转录成信使 RNA,然后以这个 mRNA 作为模板,翻译成氨基酸,mRNA 也能反转录成 cDNA。
通过高通量测序,我们验证了中心法则是正确的。但细胞内真实的转录情况要比这个复杂的多。也就是一次转录过程,除了有信使 RNA,核糖体 RNA,转运RNA 之外,还有很多其他的 RNA。种类远远不止 mRNA,tRNA 和 rRNA。我们把mRNA 称为 coding RNA,编码 RNA,也就是和最终的氨基酸相关,而其余所有转录出来的 RNA 都称为 ncRNA,就是非编码 RNA。这就拓宽了我们之前的认识,这么多非编码 RNA,很多都是基因组上非基因组转录出来的。
1.3 非编码 RNAseq
当前转录组研究包括,mRNA,长链非编码RNA,小RNA,环状RNA 等。
一次转录过程中,不同 RNA 含量(https://www.frontiersin.org/arti ... ene.2015.00002/full)
上表中列出了细胞一次转录过程中,各种 RNA 的含量。每一次转录过程中各种 RNA 的比例也是不同的,因为转录是一个动态的过程,这里列出了各种 RNA 含量的大致分布,核糖体 rRNA 占据了 80%以上,tRNA 占了 14%——15%左右,而 mRNA 占据 4-5%,其余其他的RNA 占了不到 1%。而原核生物与之类似,rRNA 占据 80%左右,tRNA 占据 15 左右,而 mRNA和其余各种非编码 RNA 占据约 5%。
所以,我们看到在一次转录过程中,rRNA 和 tRNA 就占据了 95%左右,占据了很大的比重,而 mRNA 只占据不到 5%。在 RNAseq 测序中,我们需要的恰恰就是这 5%的区域。
除了传统的 mRNAseq 测序,目前又逐渐开发除了其他非编码 RNA 的测序,包括长链非编码RNA(LncRNA) 测序,小 RNA (Small RNA),环状 RNA(circRNA)以及全转录组测序,单细胞转录组测序,转录调控因子测序,蛋白质组学测序,代谢组学测序等。
二、RNAseq 研究 10 年
地址:https://www.nature.com/articles/s41576-019-0150-2
三、分析内容
3.1 差异表达基因
差异表达基因(DGE, differential gene expression)是通过比较处理组与对照组之间相同基因在不同条件下的表达情况。差异表达基因 DGE 是目前 RNAseq的主要分析内容。
3.2 差异表达基因注释
得到差异表达基因之后,将差异表达基因集进行功能注释以及富集,例如 GO 功能注释,KEGG 功能注释等。
3.3 可变剪切
可变剪切是指 mRNA 前体通过不同的剪接方式产生不同的 mRNA 剪接异构体,从而使一个基因产生多个不同的 mRNA 转录本,进而能够翻译成多种不同的蛋白。可变剪切是调节基因表达和产生蛋白质多样性的重要原因,是真核生物转录组复杂性和多样性的重要原因。
可变剪切的发生是通过剪接体(spliceosome)识别 mRNA 前体中内含子与外显子连接边界的剪接位点,通常是保守的二碱基序列 GT-AG。一个 mRNA 前体通常含有多个剪接位点,从而产生多条可变剪切异构体,编码多个具有不同功能的蛋白。
根据剪接位点位置的不同,可变剪切可以分为以下 5 种类型:
可变剪切示意图
ES:外显子跳跃
A3SS:3’端可变剪切
A5SS:5’端可变剪切
MEX:外显子选择性跳跃
IR:内含子保留
还有一些软件将可变剪切事件分为 7 种类型,加上可变的起始或末端外显子(Alternative first/last exon),这两种形式更有可能是可变启动子、可变polyA 位点形成的。
3.4 新转录本识别
新转录本是相对于原有的转录本来说的, 原有的转录本就是参考序列中列出的已知的转录本,也就是我们下载参考序列的 GTF 或者 BED 文件,这些文件中存储了转录本的信息。与这些已有的信息相比,GTF 中不包含的转录本就是新转录本。那么为什么会有新转录本呢。主要有以下几个原因。
第一,是原有的基因预测不准确,在对全基因组 DNA 进行基因预测的时候有误差,比如一些区域被当成了非转录取,而在进行 RNAseq 的时候,发现这些区域可以转录出来,就形成了新的转录本;
还有可能是因为可变剪切的原因。比如一个基因中包含 10 个外显子,那么这么多的外显子可以组合成非常多的形式,但是并不是每一种组合都能够真实转录出来。所以,参考序列的 GTF 中并不能包含所有的外显子组合。而在一些特殊状态下,比如发生了肿瘤的样品中,发生了一些之前没有的可变剪切,就形成了新转录本。
另外,还有一种情况是新发现的一些非基因区转录,这个和基因预测存在误差不同,这些非基因区域本来认为是不转录的,但是事实上却发生了转录,有转录本产生,但是这些转录本并不编码蛋白质,也不属于 rRNA 或者 tRNA 等,比如 lncRNA 就是这种情况。所以,寻找新转录本是 lncRNA 分析的一个基础步骤。
3.5 基因融合
融合基因是指两个或多个基因的编码区首尾相连,置于同一套调控序列(包括启动子、增强子、核糖体结合序列、终止子等)控制之下,构成的嵌合基因。
融合基因是由染色体重排产生的,包括染色体的易位,插入,颠倒,缺失等。
融合基因的产生改变了基因的蛋白编码序列或调控序列,使得基因功能发生变化,对机体的影响较大。
基因融合示意图
3.6 转录因子测序
转录因子(Transcription Factors, TFs)指能够以序列特异性方式结合 DNA 并且调节转录的蛋白质。转录因子通过识别特定的 DNA 序列来控制染色质和转录,以形成指导基因组表达的复杂系统。转录因子的调控决定着基因的调控网络以及表达水平。
综述文章:
https://www.sciencedirect.com/sc ... i/S0092867418301065
转录因子测序方法
3.7 RNA 甲基化检测
RNA 甲基化属于表观遗传学范畴,表观遗传(Epigenetics)是指在核酸序列不发生改变的情况下,遗传物质出现了可遗传的变化,从而导致可遗传的表型改变。目前,表观遗传学已从一个少有人关注的领域变成如今的研究热点。表观遗传的现象很多,已知的有 DNA 甲基化(DNA methylation)、基因组印记(genomic imprinting)、母体效应(maternal effects)、基因沉默(gene silencing)、核仁显性、休眠转座子激活和 RNA 编辑(RNA editing)等,表明表观遗传学确实在癌症、进化、发育等方向发挥着重要作用。
四、RNAseq分类
根据研究的物种不同,可以分为原核转录组和真核转录组,因为原核生物和真核生物基因结构存在很大的差异,在建库测序以及数据分析上有很大的不同,所以要严格区分。还有就是宏转录组,也就是环境样品的转录组测序,由于里面既混合有真核生物,又有原核生物,病毒等,因此非常复杂。
根据建库测序不同可以分为常规转录组与链特异性转录组,转录的基因可以来自于 DNA 的任何一条链,常规转录组无法确认到底来自于哪一条链,而链特异性转录组就是为了解决这个问题,可以区分转录本来自于哪一条链。
根据有无参考序列,又可以分为有参考序列的 RNAseq 和没有参考序列的RNAseq denovo 分析。
根据测序平台可以分为常规转录组,全长转录组,单细胞转录组等。
根据所需要测序目标的不同,可以分为外显子测序,lncRNA,小RNA 测序等。
4.1 有参与无参转录组
所谓有参 RNAseq,主要是指有参考序列的 RNAseq 分析,如图所示,对于有参RNAseq 不需要对转录本进行拼接,而是将测序数据与参考基因组序列进行短序列比对,所有分析内容基于比对结果进行计算,包括差异表达基因筛选,可变剪切,预测新转录本等分析。
|
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
|