查看原文
其他

heatmap画不好会得出错误结论 | 数据预处理、聚类分析,HCL、 K means里的讲究

2017-09-20 小哈 嘉因生物

大家都会做方便面,有人做辛拉面,有人做三鲜伊面,工艺有何不同?


大家都会做RNA-seq,有人能筛出有意义的基因,有人能找出有价值的线索,有人。。。差别在哪?


前两期介绍了数据均一化处理和差异基因筛选的合理方法:


数据预处理:同一套RNA-seq,为什么公司做的跟师兄跑的结果不一样? | TPM、read counts、RPKM/FPKM你选对了吗?


差异基因筛选:同一套RNA-seq,公司筛出的差异基因跟师兄筛出的为什么不一样?| Pvalue, FDR, cutoff


本文一起看RNA-seq数据画heatmap有啥讲究?




同一套数据,用不同的方法得到的heatmap差别能有多大?


举个栗子,左边一坨mass不能看,右边出现明显的一块一块才好看


把heatmap画好看就行了?NO,数据处理方法要合适。


前年介绍过批次效应对实验结果的影响:人和小鼠心脏之间的差异远大于人的心肝脾肺?


下图是每两个samples相关性的heatmap,一大块一大块的聚到一起,挺好看的吧?仔细一看,发现同一物种的各个器官聚到了一起:


后来发现是实验设计出了问题,两个物种是分批测的:


把批次效应batch effect考虑进去,同一器官聚到一起:


具体去读这篇paper,这种反驳类的文章都很精彩,数据处理的细节都描述的很清楚,还给出了文中用的code。点击左下角“阅读原文”直达paper页面,拖到末尾看F1000最宝贵的comment。




下面是画heatmap的原理视频。statQuest总能把貌似高深的算法清晰的讲解出来,易懂。

https://v.qq.com/txp/iframe/player.html?vid=n0551r8jxkw&width=500&height=375&auto=0


heatmap是可视化,把数字变成彩色的图块。让heatmap好看的关键在于聚类。




具体讲HCL

https://v.qq.com/txp/iframe/player.html?vid=q05525pm6ws&width=500&height=375&auto=0


K-means

https://v.qq.com/txp/iframe/player.html?vid=v0552w3k3vu&width=500&height=375&auto=0




想用ATAC、ChIP实验研究感兴趣的基因?想用已发表的ChIP-seq、ATAC-seq、eCLIP-seq、RNA-seq数据寻找线索?找嘉因生物吧!从实验、测序,到多种数据整合分析,为您一站式解决。(点击文中蓝字了解详情)




嘉因生物公众号定位:客户共性问题解答,生信学习资源导航,高通量实验导购 | 为您提供高通量实验-测序-分析-验证一站式解决方案


电话:021-61539657

Email:marketing@rainbow-genome.com
地址:上海市杨浦区赤峰路65号同济科技园1号楼611室

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存