请问SAS能处理多大数据？我碰到："ERROR：Number of levels for some effects > 32767"

wshoper

想用sas来做变异来源的分析，用的是proc glm，然后就出现了"Number of levels for some effects > 32767"的错误。我本来是用R的，R处理不了太大的数据量才转向SAS的，还是不行，郁闷！

大侠们知道SAS能处理多大的数据阿，还是我哪里没有设置好啊。谢谢。

关于数据的一些信息：

class level

A 34

D 2

T 13

G 28493

程序：

proc glm data=data1;

class A D G T;

model exp=A D G T A*G T*G /ss1 ss3;

run;

kuhasu

按照sas的说法是不受限制的，即便是lic有限制也不限制这个，只受内存和磁盘空间限制。

至于以上问题，多半是没有加装hotfix，可去sas网站找寻相关hotfix，打上补丁就行了。

wshoper

还是不行啊

rtist

把G处理成连续的covariate，从class里面删掉。

class A D T;

或者用proc mixed把G处理成随机效应，A BY G & T BY G类似。

如果你先使用了sas出现了上面的错误，然后使用了R，你要不要说sas处理不了大数据？？？

程序运行不了的时候先找自己程序/模型的问题，然后再说软件/语言有问题。

wshoper

如果说要用的模型是 y=u+A+D+G+T+AD+TG+e，把G进行处理是否可行？

rtist

先拟和出模型才能进行模型选择/诊断。

wshoper

初步接触这些东西，实际上我关心的是TG的变异，最终我要能比较一对TG间的差异是否显著。

实际上这个模型已经省略了一些项了，比如AD，AG，等。

如果在R里，好像可以用step来判定拟合模型的好坏，我刚接触到此类拟合模型和SAS。

请问：

1 SAS中具体如何进行模型选择/诊断

2 如果去掉G，我要想比较一对TG间的差异是否显著应该如何做。

谢谢

wshoper

或者给我指点一下相关的书籍也行啊。

rtist

我终于意识到，你在做芯片数据：

A是array，D是dye，T是treatment，G是gene。

下次拜托问题说清楚点，不要让我们猜来猜去的。这个帖子可以放到生物统计版了。

我不推荐的这个模型（好像是kerr的paper吧？）。基因之间的方差相差太大了，模型假定不可能成立。

先分基因单独做，看看怎么样再说。

R里面看maanova包。

microarray的书有的是，paper上千篇，慢慢看吧，呵呵。。。

wshoper

楼上的太厉害了！

我再问些问题：

maanova包就是把Gene项给去掉的，但是在kerr的文章里他还是写着还是用的带有G的模型。很是奇怪。

我想知道在一个Treatment中某两个基因的之间的表达是否有差异，如果要比较的基因的Treatment项显著，我是不是直接用他们Treatment的均方差作F检验就行？

老板催着要结果，我现在从头学来不及，半年才找到一根救命稻草，谢谢。

rtist

No. not simply deleting G.

try F3 first.

wshoper

仔细看了看maanova包的源代码，他是对每一个基因进行单独逆合的。

就是对每一个Gene，都有 y=u+Aarray+Dye+Treatment+...+e.

如果这样，是不是要求Treatment项显著，然后可以直接拿两个Gene的Treatment项的做检验？