生信人

找回密码
立即注册
搜索
热搜: 活动 交友 discuz
发新帖

0

收听

12

听众

278

主题
发表于 2022-10-1 10:49:36 | 查看: 711| 回复: 0
背景
实验设计
      
       RNAseq 实验设计评估
       RNAseq 实验需要多少样本,每个样本需要多少测序数据?RNAseq 主要考虑低丰度的基因是否能够被检测到,定量的结果是否准确。如果想要检测到低丰度表达,那么就需要足够的测序量,定量结果准确需要较多的生物学重复。
判定差异分析结果可靠性的指标主要包括假阳性,真阳性以及假阳性率和真阳性率几个指标。
       假阳性与真阳性:如果某个基因在 RNAseq 分析结果显示为差异表达,但 qPCR结果表明表达差异不显著,则认为是假阳性,反之则为真阳性。
       假阳性率(FPR):真实非差异表达中基因中,被错误判定为差异表达基因的比率,FPR 越低越好。
       真阳性率(TPR):真是差异表达的基因中,被正确判定为差异表达基因的比率,TPR 越高越好。


       零假设检验

      

一、生物学重复的影响
       文章中介绍,在单样本测序量保持不变的情况下,随着生物学重复数(n)的提高,差异表达分析的假阳性率(FPR)逐渐趋于稳定,真阳性率(TPR)不断提高。

      

二、测序数据量的影响
       在 RNAseq 实验中,在一定的生物学重复数(n)的情况下,随着单样本测序量(Depth)的提高,假阳性率(FDR)和真阳性率(TPR)都只是有限的提高。
       如果 Depth 等于 25%不变,当 n 从 2 提高到 12,TPR 的提高则是非常的明显,因此,测序深度对结果改善效果并不如增加生物学重复。

      
       测序数据量的影响

三、生物学重复与测序量的最佳组合
       该如何选择合适的样本数和测序数据量呢?在总数据量不变的情况下(总数据量通常代表总预算),如何选择生物学重复与测序量的最佳组合。如果

      
       生物学重复
       如上图所示,保持样本数不变,单个样本的数据量不断降低,TPR 的降低十分缓慢,例如当 n=3 时,单个样本的数据量从 100%降低到 15%,TPR 的值一直处于平台期,从 9%降低到 5%。


四、饱和度评估
       饱和度评估:通过随机抽取不同数据的 reads,计算检测到的基因数目。随着测序 reads 数据的增多,检测到的基因数目逐渐增多,当测序 reads 达到一定数目之后,检测到的基因数目不在增多,此时测序达到饱和,继续增加测序reads 数目,并不会提高检测基因表达的数目。

      
       饱和度评估


五、为什么要测序6G数据?
      
       对于中等表达的基因(RPKM>15),reads数=40M(在PE 150测序下,大概是6G数据量),就无论是构建还是定量逐渐达到平台期。备注:40M reads 也是有参转录组测序的推荐数据量
       注:图中数据为75bp读长的reads

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

您需要登录后才可以回帖 登录 | 立即注册

QQ|Archiver|手机版|小黑屋|生信人

GMT+8, 2024-4-29 05:04 , Processed in 0.042618 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表