查看原文
其他

话题投票

2017-01-05 Y叔 biobabble

这个公众号,大概会和我的博客相似,大部分都是我写的软件包的功能介绍和问题解答,在这里你可以看到在别的地方看不到的内容,关注这个公众号的朋友大概也都是我的软件包的使用者,公众号开了两个月,粉丝也有一些,我想了解一下关注者大概是什么样的群体,你们关注我那个包,希望我写什么样的话题。

我目前写了4个CRAN包和8个Bioconductor包,CRAN的都是不务正业,Bioconducor上的都和学术有关。

语义分析

GOSemSim

GOSemSim是做语义相似性度量的,2008年的作品,属于做得比较早,早占了好坑,同时期还有个GOSim的包,比GOSemSim早出来,本来在CRAN上,现在也在Bioconductor上,但我的包引用比它多。

DOSE

相关的包有DOSE做疾病本体的,我一看到疾病注释,立刻就去占领了,这坑必须占。我对这个包名沾沾自喜,觉得自己太有才了,刚好是个单词,结果这包google不出来。

meshes

MeSH是NCBI出品,Medical Subject Heading,注释很全面,与GO有得一拼,我当然也要占坑。

富集分析

这些工具都是通用的,共用一套可视化工具,并且可以通过ChIPseeker包对短序列进行分析。

DOSE

嗯,还是DOSE,clusterProfiler也依赖它,底层计算(超几何检验和GSEA)都在这包里实现,可以做DO的富集分析,同时还是癌症基因Network of Cancer Gene可以做分析。Giovanni给clusterProfiler的compareCluster函数写了formula interface,我看到他们做了NCG,于是问他要不要我支持它,他很高兴的答应了,NCG在NAR上发表新版本的时候,还在文章中专门提及了,他们这数据还能够通过DOSE做富集分析,发布新版本的时候,Giovanni还会给我PR更新数据。另外还有一个Disease gene network的数据,整合的数据资源比较多,我认为是个不错的数据,征得作者同意,也给打包支持了,这数据还包括SNP位点和疾病相关的注释。疾病的坑必须占!

clusterProfiler

这个包支持不同条件的数据比较,并且可以调用DOSE, meshes,ReactomePA,原生支持GO和KEGG,同时也支持broad institute的MSigDB数据(需要用户自己下数据),连DAVID都在用户要求下支持了,还支持用户自己的注释数据,所以说应该是目前支持最广泛的工具了,同时我的几个富集分析的包都share同一套可视化工具,可视化手段也比一般工具多点。再者比较体贴用户,支持ID转换,注释数据检索,连某白痴用户跟我说他用head(x)出错这种,我都给支持了,写了headtail[[[等函数,所以结果虽然是S4对象,你也可以像data.frame一样操作。

关于KEGG不得不说的一点是这个数据在2012年就收费了,但http是免费的,大量的工具使用的都是2012年以前的数据,但clusterProfiler使用的是在线检索http得到的最新数据。

ReactomePA

当年KEGG收费的时候,Bioconductor邮件列表里大家都在呼吁说,我们要早日寻找替代品啦,于是我在一两天的时间内,给Bioconductor提交了ReactomePA,没错,占坑要趁早,还要抓紧时机。我给这个取Pathway Analysis的名字是因为我本打算后面要加入给网络分析的功能,但终究我没时间折腾,只有富集分析的功能。(这包可以说是充话费送的XD)

meshes

前面提到的MeSH语义分析,这包同时也支持MeSH的富集分析,对clusterProfiler熟悉的朋友,对这些富集分析的包都是熟悉的,函数调用类似,可视化函数共用。这包也是充话费送的 -,-

ChIPseeker

我来港大之前没做过ChIPseq分析,来港大之后,被(我炒掉的)前导师要求帮系主任做ChIPseq分析,还说了不管我做多少,都只能最多在后面某个不起眼的位置挂个名,我不能参与他们任何的课题讨论。WTF也就是我做了,人家根本连我的存在都不知道,他如果发善心,就到时候给我要求后面挂个名,不发善心,我压根就从没存在过。在做这个ChIPseq分析的时候,就做了第一步,ChIPseq注释,当时就写了这个包,后面因为炒老板了,也没再做,我对ChIPseq的认识也到此为止。这包还整合了GEO数据库,可以用来做数据挖掘,预测可能相互作用或形成复合体的蛋白质。这包其实并不单单支持ChIPseq,它还被用于别的数据注释,并且在用户的要求下,我也做了些调整,支持更广泛。

这包就像我其它包一样,也是有很多的可视化工具。

进化相关

treeio

treeio是从ggtree分出来的,拥有各种格式的读取功能,我的目标是支持更多,并且写一些输出功能,比较可以输出BEAST兼容的NEXUS格式,或者我自己定义个格式,来保存树结构和注释信息。

这其实是个很基础性的包,让各种格式和软件输出得以在R里解析,并且我们就可以用R里各种进化分析的包再来分析,或者整合数据。并不单单说解析注释信息拿来用ggtree画图而已。

ggtree

ggtree明显是目前最好用的画树软件,python有个很好的画树包叫ETE,功能和ggtree并不完全overlap,都各有一些对方没有的功能。但从易用性来说,ggtree必须更容易用,特别是ggplot2的用户又是进化领域的,没有ggtree都没法活了(这是别人对我说的)。我自己蛮得意的一点是发现andrew rambaut(FigTree的作者)的PhD学生也在用。


8个Bioconductor包介绍完了,我想可能没有人知道我所有包,肯定没有人全部用过,所以简单介绍一下。我想了解一下大家对我的哪些包有兴趣?想看我写什么样的话题。这是个多选的投票,如果你看到了这里,请投下宝贵的一票,你也可以评论这篇文章,写下你的想法。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存