差异基因分析 - TreetoForest/LearningNotes GitHub Wiki
如何解决目标基因不显著的问题?返回 简单说来,为了控制假阳性,无论是RNA-seq,还是CHIP-seq,还是GWAS的单次检验得到的P value都要经历多重检验校正后,变为adjusted p_value 或 FDR才可以用。而这样的处理会导致假阴性急剧上升。校正后,我们经常会面临的就是我们所关心的目标基因显著性信号不够强的问题。面对大量大于0.5%的FDR数据,我们该如何处理。
比如一个肿瘤细胞系处理的RNA-seq分析项目,结果发现期望中的EGFR基因和一个对应的GLIMOMA通路富集结果都不显著。那么也就不好地分析结果,这时候我们建议可以采取以下3种方法来应对。
第一招:降低检验的次
如果使用最严厉的“Bonferroni”矫正,那么检验多少次,P值就对应增长了多少倍。假设原始的P值为0.0001,检验次数是5000次,矫正后的p值也就是0.0001X5000=0.5。所以降低检验次数是有必要的。如果是GWAS,即可以在文章中指出由于检验次数太大,矫正后得到的P 值都不显著。于是我们挑选与XXXX相关的候选基因,进行了分析(这样有两大处理:将属于同一个基因的SNP合并,以及挑选某一类候选基因),统计次数就降低了。类似的还有MEDIP分析,我们可以把分析的区域,局限在 geneboy ± 2kb的区域,这样检验的区间数量也就下降了。
第二招:换用统计或矫正的方法。
一般而言数据分析,统计模型不同,得到的P值也不同。不同的RNA差异分析软件,使用的假设分布不同,例如,泊松分布,负二项分布,β负二项分布,得到的P值都不一样啊。当然矫正方法不同效果也不一样。例如, Bonferroni不灵,就用FDR啊。FDR再不灵,就用Storey的方法。
第三招:根据已知信息来筛选阈值
在统计检验中,如果阈值不确定的时候,可以修改已有的阈值信息适当调整阈值。例如,做CHIP分析。如果你的DNA结合蛋白是转录中介体亚基,那么它的peak信号肯定不如真正的转录因子强了,必须降低阈值标准。而针对于降低的程度,如果你已知这个蛋白可以结合在某个基因的启动子区,那么你可以以这个区域的peak信号强度为阈值,来找其他地方的peak。而已知基因可以通过www.gfsoso.com进行搜索。
阈值是可以适当灵活调整的,假设项目样本里EGFR的FDR是0.19。也就意味着,如果以EGFR的p值标准来筛选基因,那么将会有19%的假阳性,FDR小于19%的基因有450个,那么对应可能就有86个基因潜在为假阳性。而一般期刊可以最高接受0.25的FDR。但是前提是你的结果要有生物学意义,而且相关的关键基因使用其他定量技术进行了验证。
如果GLIOMA通路的富集分析不显著,我们也可以改用改用GSEA富集分析的方法来进行处理。
当高通量测序后,我们获得大量数据,而差异基因结果往往会呈现两种情况,一种是差异基因不显著,另外一种就是差异基因很多。
如何对大量的差异基因进行处理?返回 首先我们来明确一下, 差异基因很多的原因有2个方面,包括:
①生物调控是一个系统,是一个由点→面的级联放大过程,同时包括了正反馈与负反馈。
②然后一个基因包含了多种功能
其中最重要的是针对我们的研究目的而言,并非所有的差异都有意义。
所以差异基因很多怎么办?我们通过2个案例分析一下。
初级方法:首先找到正确的方向并排除非主要因素
比如我们曾经处理过的一个项目,用温度处理某种生物胚胎,然后通过RNA-seq结果可以观测到了大量与新陈代谢相关的基因表达量变化。结果显示新陈代谢与研究目标没有关联,那我们应该怎样进行后续的分析呢?这个时候我们应该放弃新陈代谢的研究方向,然后再设定目标,向你期望的并能与结果相结合的方向继续研究。
假设这篇研究作者想分析组蛋白通路,而我们都知道胚胎时期是决定表观遗传的关键时期,所以我们应该重点关注DNA甲基化酶和组蛋白修饰酶的差异变化。
进阶方法:差异基因趋势分析+通路逻辑
背景:荔枝书属热带、亚热带广泛种植的常绿木本树。在全球变暖、气候变化时导致的开花缺陷对于荔枝生产是主要挑战。以前的研究已经表明,高温条件可促进花蕾中早期叶的生长并且抑制荔枝开花,而甲基紫精二氯化物(MV)诱导的活性氧可以促进早期叶的衰老、脱落。为了解活性氧在荔枝开花过程中的分子功能,对荔枝进行了转录组测序并从头进行组装。
无独有偶,这项研究的差异基因也非常多,5000多个。于是我们将所有差异基因进行趋势分析(减少短时间基因随机波动的影响),逐步找到目标基因;然后将差异基因进行KEGG注释,找到具有代表性的10个通路。其实这个时候也可以发一篇SCI了,但是要让文章水准上一个台阶,就需要扯通路之间的逻辑关系了。比如某个信号转导通路表达量显著整体提高了,可能是因为上游某个信号传导的敏感性,这篇文章正是如此。
总结一下
差异基因很多可能是大家经常遇到的问题,但是将数据回归生物学问题本身是最基本也是最有效的方法。有时候我们需要果断弃掉一些非主要因素,然后再考虑内在的逻辑关系。
测序之后你可能得到了大量的数据,但是却不知从何下手挖掘有用信息,而我们正可以做这样的工作,并且积累了相当多的经验
而对于差异基因很多又该如何处理,详情点击:http://www.genedenovo.com/news/238.html