daisy8098 如题,实验室打算做SNP芯片的全基因组芯片数据分析,用的是Illumina的60k芯片,大概有700左右个体,要做全基因组关联分析,目前在数据处理方面还没有想好确定的方法,初步打算用R来处理,请问各位有经验的tx如此的数据量是不是必须应用服务器?如果应用配置较高的台式机是否可以?另外如果必须应用服务器的话,对硬件方面有什么要求?软件方面呢?是不是如此的数据量需要较大内存,那么对于软件方面是不是要用unix系统?因为我们买机器必须走政采途径,要提前报需求,催的比较急,还请大家帮忙解惑!
lyxmoo 巨计算量,可以考虑Nvidia 的 CUDA 平台,注意的是需要支持float 64位的平台才比较稳妥。 GeForce GTX 295 GeForce GTX 285, GTX 280 GeForce GTX 260 或者 telsa 的平台,比较贵。 或者 Quadro FX 5800 Quadro FX 4800 也比较贵。 R中直接可以使用gputools 包。或者自己扩展(难度相当高,不过nvidia 平台做的很好)。
enthumelon 看到GPU计算了~这个很潮啊。不过长时间计算的话GPU能行么~用unix类型(unix/linux/BSD)看来是必要的。Win平台上那些乱七八糟的软件本来就少,比如做SNP的软件PHASE就直接说在Win上可能停顿...话说,专门做计算也不是X86平台。
houliping 这个问题要看你个人的需求,以及你打算怎么分析数据。我之前做过1500例全基因组关联研究的数据分析(Affymetrix 500K芯片)。我们是买了台DELL的服务器,4G的内存。如果只是做单位点的关联分析的话,4G内存的服务器甚至台式机应该就够用了。但是如果要做更进一步的数据分析,如Imputation,Epistasis等,则建议选择一台内存更大的服务器,毕竟服务器已经很便宜了。至于操作系统,个人建议选用Linux,当然也不是必须,如果你们组有熟悉Linux的人当然可以考虑,否则windows也未尝不可。但是有些软件如EIGENSTRAT在windows操作系统下不能运行。另外如果你的研究设计是病例对照的话,建议你试一下PLINK。http://pngu.mgh.harvard.edu/~purcell/plink/
foison GPU的计算前景很广阔,目前的速度可以达到同样Intel i7 CPU 400倍。可是GPU的学习曲线比较陡,需要会使用CUDA语言,是一种类C语言。如果你是一个熟练的C程序员,大概需要4周的时间进入正题。现在的支持GPU计算的显卡只有1G内存可用,但是今年晚些时候下一代GPU出来可以提供6-8G的内存,所以前景还是很乐观的。这里有一个很好的链接,感兴趣的同学可以参考一下。 http://www.oxford-man.ox.ac.uk/gpuss/
zt 1 LZ的问题其实是生物信息学问题;本人刚好从事这个领域的工作,虽然方向不同 --- 我是分析高通量测序数据; 2 LZ需要的其实不是硬件解决方案,而是分析流程;据我的了解,LZ的数据其实有很多成熟的分析流程,你只要重复即可; 3 数据量大的问题:其实不算大,与全基因组测序数据相比,小多了; 4 关于NV的CUDA,完全没有必要我觉得;CUDA相对来说主要优点是大幅度地提高并行度;我们面对的大多是计算密集型和数据密集型的问题,因此关键看你自己如何切分了。 需要其他帮助,可以联系BGI的同仁![s:11]
foshuochanyu 个人感觉,分析基因芯片数据(SNP 全基因组 外显子等)一般选用配置稍微高一些的台式机即可,MS现在随便个台式机都4G内存。 当然,不排除某些“牛人”跑大龙。这种情况,我一般去学院服务器上搞,原因不是台式机不行,而是服务器可以快一些(某篇文章说的好,“不要把时间浪费在优化程序上”,所以我写程序有时很拖沓,不,是超级拖沓)。但也要注意,很多服务器选用的是Linux系统,所以有时要重新调试。 P.S.做为一名不足挂齿的网络小虫,个人建议做生物信息学尤其是基因芯片分析(高通量测序更不必说),选用Linux系统可能会好一些,毕竟咱们还是尊重一下“瘟到死”的版权吧。