wshoper
想用sas来做变异来源的分析,用的是proc glm,然后就出现了"Number of levels for some effects > 32767"的错误。我本来是用R的,R处理不了太大的数据量才转向SAS的,还是不行,郁闷!
大侠们知道SAS能处理多大的数据阿,还是我哪里没有设置好啊。谢谢。
关于数据的一些信息:
class level
A 34
D 2
T 13
G 28493
程序:
proc glm data=data1;
class A D G T;
model exp=A D G T A*G T*G /ss1 ss3;
run;
kuhasu
按照sas的说法是不受限制的,即便是lic有限制也不限制这个,只受内存和磁盘空间限制。
至于以上问题,多半是没有加装hotfix,可去sas网站找寻相关hotfix,打上补丁就行了。
wshoper
还是不行啊
rtist
把G处理成连续的covariate,从class里面删掉。
class A D T;
或者用proc mixed把G处理成随机效应,A BY G & T BY G类似。
如果你先使用了sas出现了上面的错误,然后使用了R,你要不要说sas处理不了大数据???
程序运行不了的时候先找自己程序/模型的问题,然后再说软件/语言有问题。
wshoper
如果说要用的模型是 y=u+A+D+G+T+AD+TG+e,把G进行处理是否可行?
rtist
先拟和出模型才能进行模型选择/诊断。
wshoper
初步接触这些东西,实际上我关心的是TG的变异,最终我要能比较一对TG间的差异是否显著。
实际上这个模型已经省略了一些项了,比如AD,AG,等。
如果在R里,好像可以用step来判定拟合模型的好坏,我刚接触到此类拟合模型和SAS。
请问:
1 SAS中具体如何进行模型选择/诊断
2 如果去掉G,我要想比较一对TG间的差异是否显著应该如何做。
谢谢
wshoper
或者给我指点一下相关的书籍也行啊。
rtist
我终于意识到,你在做芯片数据:
A是array,D是dye,T是treatment,G是gene。
下次拜托问题说清楚点,不要让我们猜来猜去的。这个帖子可以放到生物统计版了。
我不推荐的这个模型(好像是kerr的paper吧?)。基因之间的方差相差太大了,模型假定不可能成立。
先分基因单独做,看看怎么样再说。
R里面看maanova包。
microarray的书有的是,paper上千篇,慢慢看吧,呵呵。。。
wshoper
楼上的太厉害了!
我再问些问题:
maanova包就是把Gene项给去掉的,但是在kerr的文章里他还是写着还是用的带有G的模型。很是奇怪。
我想知道 在一个Treatment中某两个基因的之间的表达是否有差异,如果要比较的基因的Treatment项显著,我是不是直接用他们Treatment的均方差作F检验就行?
老板催着要结果,我现在从头学来不及,半年才找到一根救命稻草,谢谢。
rtist
No. not simply deleting G.
try F3 first.
wshoper
仔细看了看maanova包的源代码,他是对每一个基因进行单独逆合的。
就是对每一个Gene,都有 y=u+Aarray+Dye+Treatment+...+e.
如果这样,是不是要求Treatment项显著,然后可以直接拿两个Gene的Treatment项的做检验?