生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

338

主题
发表于 4 天前 | 查看: 10| 回复: 0

一、组学概念和思考

  1. 组学:Omics 是一种系统生物学的研究方法,从整体出发,系统地对生物体内某一类分子族群的全面研究,突破了传统的单分子研究限制。

打个比方:曾经科研大多以单个分子的研究入手,比如探究某个蛋白在某种疾病中的作用,但是这种单一的探究具有局限性,是否还会有别的蛋白影响其在疾病发生中的调控作用呢?

那引入组学的概念,可以将所有的蛋白scan一遍,看看哪些蛋白对该通路有影响或者某些蛋白之间有相互作用。

个人理解,组学分析不仅可以较为全面的探究一个问题,还可以为水文章提供便利,没有思路,全基因组测一遍,实验组和对照组总能找到具有差异的marker,这不就有新的研究思路了~~~

  1. 转录组:研究生物体中所有转录产物(RNA)的种类和数量,特别是mRNA,因此了解基因表达的调控。

这里的转录组研究就涉及到接下来要学习的RNA-Seq了。

二、RNA-Seq的工作流程

RNA-Seq大致流程可以分为三步。

  1. 制备cDNA文库:将RNA切成小片段,再反转录成为cDNA构建测序的文库,对文库质控。
    10.png
    转接子链接效率不是100%,只有添加了转接头的片段才能被扩增,因此要进行质量控制,确定文库片段的长度和浓度 。
  2. 文库测序:测序读取的片段称作reads,原始测序文件Rawdata,也就是.fastq格式文件。

测序完成后,将reads与基因组进行比对和匹配,确定各个片段对应在基因组上的位置,并计数每个基因的reads总数,也就是在原始数据中的counts。

11.png

fastq文件介绍参考:
https://bioinfoer.com/forum.php?mod=viewthread&tid=37&highlight=fastq

  1. 数据分析及可视化:进行基因差异表达分析、通路富集分析等

三、转录组数据标准化

由于counts受到测序深度、基因长度、文库复杂度的影响,不适合直接用于比较不同样本或基因之间的表达量差异,通常需要标准化为RPKM、FPKM、TPM、CPM来消除这些因素的影响。

  1. CPM (Counts Per Million)

每百万reads计数, 是一个基本的基因表达单位,仅对测序深度进行标准化。

  1. RPKM (Reads Per Kilobase of transcript per Million mapped reads) 和 FPKM (Fragments Per Kilobase of exon model per Million mapped fragments)

RPKM和FPKM的区别:

FPKM是双端测序,一个fragment得到两条reads,reads数是fragment数的2倍;

RPKM是单端测序,一个fragment得到一条reads,fragments数与reads数相等;

由于后期质控等处理,FPKM的两条reads不一定全部用于分析,所以实际fragments数为reads数的1~2倍;

因此FPKM是以fragment为准,PRKM才是以reads数为准;

  1. TPM (Transcripts Per Kilobase of exon model per Million mapped reads)

每千碱基的转录每百万映射读取的transcripts,因此TPM也对样本基因的测序深度和测序长度进行了标准化。

TPM和RPKM的区别在于TPM最后校正转录本的测序深度,因此样本的总counts数一致,最后总TPM在个样本间也是一致的,而RPKM最后标化转录本长度,所以样本间总的RPKM不一致,因此TPM很有利于比较相同基因在不同样本间的表达差异。

到这里,基本的概念和数据类型理清楚。

收藏回复 显示全部楼层 道具 举报

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人 ( 萌ICP备20244422号 )

GMT+8, 2024-12-28 01:07 , Processed in 0.070710 second(s), 31 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表