haiyanwu
目前在国外做基因芯片分析最流行的莫过于基于R的bioconductor软件包系列了!国内使用的人也在渐渐增多。由于项目的原因使用了其中一些包,感觉还是非常好用的。介绍bioconductor包最好的书当然是《Bioinformatics and computational Biology Solution Using R and Bioconductor》。国图有一本,可惜不能借出。
如果分析的是Affymetrix公司的芯片,估计最常用的就是affy、affyPLM来预处理数据,用mulltest、siggenes或者limma来处理归一化后的表达数据了。
如果是two-color cDNA array或者 two-color oligo array,marray包就很好用,再结合limma应该整个分析都可以很顺利的下来了。
但是,以我个人的经验,最难的在后面差异数据的生物学意义分析。包括通路分析等等。这方面似乎人类的数据支持还可以,其他的物种难度会增大,尤其是植物!
limma是很好用的分析包,建议做芯片分析的去看看。它的manual做的非常的好。一般载入这个包以后就可以直接找到PDF版的说明了。所以这里就不贴出来了
PS:
bioconductor的包很多,建议直接用什么装什么!全部下来要好几个G,不过目前支持基因组统计分析的一些工具就都有了,目前BioC发展的方向是蛋白组数据分析,太有挑战性了!
areg
这些包对机器太有挑战性了,如果只是下PKG,倒也不是太多,我全都下来了,如果想载入练习玩玩,那最好还是别拿机器开玩笑!
我盼望明年能换个工作站来玩玩这些包
haiyanwu
我原来的机器C4 2.4 512RAM 跑20组6万多点数据也还可以,就是稍慢点,把虚拟内存调大,在--max-mem-size上设置一下就可以了。如果上百组的数据我们一般就会用服务器了,win32受内存限制比较大。linux下由于机制不一样,所以swap区调大就很好解决了!
areg
谢谢haiyanwu
那我争取早点把眼前任务完成,同时打好R的基础,转过来学习这方面的内容
yihui
牛人啊,加油!
anning189
牛,看来我等是不行了。
areg
[quote]引用第5楼anning189于2006-12-01 13:22发表的“”:
牛,看来我等是不行了。[/quote]
不要谦虚,实际上你也很牛啊,每个人各有专攻,好多基础知识,我争取向你多学习一点
anning189
[quote]引用第6楼areg于2006-12-01 15:46发表的“”:
不要谦虚,实际上你也很牛啊,每个人各有专攻,好多基础知识,我争取向你多学习一点[/quote]
我基本上就懂点计量经济的,时间序列分析的,还想和大家多讨论问题。
areg兄是专攻哪个方面的?
areg
我是学生态学中关于物种间协同进化方面的,仅因为专业的问题解决不了,才跑进S-PLUS,进而跑到R的圈子中来的!
真有点望R兴叹呀!
yihui
anning189,关于你说的那两个包,可否像areg那样边学习边介绍啊,我可是很感兴趣的哦:)
anning189
[quote]引用第9楼谢益辉于2006-12-01 16:45发表的“”:
anning189,关于你说的那两个包,可否像areg那样边学习边介绍啊,我可是很感兴趣的哦:)[/quote]
可以啊,我的进度比较慢
其中大部分函数看看就能用了。
我是边学边写论文,最近有一篇要出炉了。题目是:渐近方差估计量选择与有效单位根检验——基于随机模拟的比较研究。
给大家个题目。
anning189
这年头,不写论文别人怎么知道你懂的多,大家说对不?
areg
[quote]引用第11楼anning189于2006-12-01 17:42发表的“”:
这年头,不写论文别人怎么知道你懂的多,大家说对不? [/quote]
你把资料细致整理出来,挂这里,不但我们知道你懂的多,更多来此的非会员与知道啊:)
haiyanwu
感觉这里常客们都很熟啊!呵呵!
areg
[quote]引用第13楼haiyanwu于2006-12-01 21:23发表的“”:
感觉这里常客们都很熟啊!呵呵![/quote]
虽然大家来自五湖四海,但是大多都是R fans,以后你与大家都会很熟悉的:)
不过,有关上面的讨论,不知什么时候,跑题了
jinanvw
还不错,多谢!
jinanvw
haiyanwu,希望与你交流一下BIOCONDUCTOR的使用,不知可否?
我的机子现在是:serperon2200(相当于1.5GCPU), 512M内存,我有一组要跑10张5万点的芯片,不知是否可行?其它的跑4张5万点的就行了,估计应当可以
rtist
[quote]引用第16楼jinanvw于2006-12-13 05:43发表的“”:
haiyanwu,希望与你交流一下BIOCONDUCTOR的使用,不知可否?
我的机子现在是:serperon2200(相当于1.5GCPU), 512M内存,我有一组要跑10张5万点的芯片,不知是否可行?其它的跑4张5万点的就行了,估计应当可以[/quote]
内存偏小,但是因为片子很少,问题也许不大。至于你把什么叫五万点就不好说了。如果是affy,很少笼统地说“点”,应该明确指出是指probe cel数、pm cel数、或是probe set数;如果是cDNA或者long oligo array,说“点”也很难理解——每个点上有至少两个观测值,每个观测值都需要内存啊,所以知道多少点也没法计算出需要多大内存。
jinanvw
谢谢RTSIT!
我的是cDNA或者long oligo array, 点数是指的单个特理点,每个EST只做一个观察.(可能会有重叠,但第一步感谢需要先按不同基因计算),不知是不是够了?如果不太好,请建议点合理的配置?我用WINDOWS下的R跑怎么样?
rtist
什么是“单个特理点”?