请教：sas中的编程语言是 S-Plus & R语言一样么？

虚怀若谷

请教：sas中的编程语言是 S-Plus & R语言一样么？

不知道S-Plus 同sas语言有什么不同之处，sas软件是使用的S-Plus 语言么？

请明白人指教！！！！！！！！

Ihavenothing

S-Plus和R是差不多的，但和SAS完全不同。

tangyh

呵呵，楼上能不能再详细点。

虚怀若谷

期待中....................

hexm26

Splus和R是矩阵式的处理数据方法，譬如说对待行和列都是一样的，甚至到3维用Array之类的。而SAS则是纯粹的以行为标准的处理数据，任何SAS指令都是从一行开始，到一行结束，全部处理完了才转到下一行。从统计或是数学学者的角度看，Splus和R更符合他们的逻辑思维一些，用来编程处理那些复杂的矩阵很是方便。而用SAS来实现统计学上的编程几乎是个笑话，因为行列式的理论完全格格不入，IML也只是个架子，借用矩阵方式来行行处理之实而已。而在制图方面，SAS的局限更加凸现，因为内核的约束，SAS和Splus＆R完全不是一个档次。

但是，到了处理数据方面，完全是另外一个故事。Splus＆R在处理巨型数据上非常慢，甚至连一些其他的统计软件都不如，因为行列式的概念不是优势，反而是个累赘。而SAS却倔强的分行读入，简单但有效，巨型数据的处理上没有任何一个商业软件能超过SAS，从而成就了SAS帝国。

tangyh

还有一个方面，SAS的所有过程都是经过许多工程师严格调试的，SAS公司担保不出问题，而R的包则没有商业保证。当然R在算法，统计方法上更新要快的多。但说矩阵语言的话，matlab恐怕要好一点。

tangyh

hexm26 说SAS/IML是架子，不知从何说起？

虚怀若谷

谢谢楼上的答疑解惑，学习了

jingju11

要论运算R也不行。

统计计算只是sas的一方面，但它差不多是R的全部。如果SAS和R都能做到东西，SAS往往要更规范。但是得承认R里很多东西SAS做不了，或者是直接做不了的。

我觉得SAS的绘图也没有讲的那么差。虽然有些罗嗦，但是差不多可以满足一般的要求了。更何况R的绘图也没有说的那么灵活。一言蔽之，难者不会，会了不难。

另外有一点很重要，R免费但是许多人不用；SAS昂贵但许多人在用。大家都不是傻子；孰劣孰优本就很清楚的。还有，会用SAS可能给你带来个工作，会R的结果就是最后把它忘掉。这也是我的个人经历。

鼓吹R的大多局限于在校的学生和搞研究的。从R转向SAS是大流，从SAS回归R的是个别。所以楼上鼓吹R的，半载之后可能要改变想法的。

zizouowen

楼上说的也有些绝对了，还是看个人需要吧

hexm26

[quote]引用第6楼tangyh于2009-10-21 20:41发表的回 4楼(hexm26) 的帖子 :

hexm26 说SAS/IML是架子，不知从何说起？

[/quote]

IML的语言结构是矩阵式的，但利用的是SAS的运算核心，所以其实表面上你在做行列运算，可SAS不停的做类似Transpose样的数据处理，所以IML的实际速度是非常慢的。

abel

对大数据的处理，确实需要技巧。

不过除了特殊的情况下，一般在统计计算和建模的时候用不到那么大的数据量。针对超大的数据集，往往限于计算一些汇总统计量，这个任务可以由数据库来做，效果会很好；并没有必要使用R\S来做直接做。当然，如果要直接在R中做，也可以自己编写（现在已经有这方面的pkgs了）程序，通过逐批方式来做（这也是所谓的借助硬盘来实现了，SAS就是这类）。

对于大多数复杂点的模型拟合，数据过大且无法通过逐批处理，SAS也是无能为力的——这些都是具体模型算法研究方面的问题了，和软件的架构无关了。此外，我对做常规模型使用超大量的数据集一直抱怀疑态度——统计上面的抽样等是否就没有必要用了。

程序质量的问问题，倒是仁者见仁智者见智。

SAS作为商业软件，需要对客户负责，保证千锤百炼，保证质量。可惜其底层的代码是看不到的，可以由其手册中描述的统计方法之类的来推测。

而R底层是C做的，用了科学计算领域最成熟的一系列算法（和MATLAB底层差不多，比MATLAB版本更新要快一些），不能说完全保障，至少代表了国际一流水平。至于R小组审核后的基础包和推荐包，质量是极高的，至少目前报告的一些bugs中罕有关于其思路或算法的——这些包的作者均为是最前沿的学者，对R的测试也不会差。至于其他很多领域的pkgs，被小组确认作为推荐或者核心的，质量也可靠。更加重要的是，你可以看到源代码，大家都可以来测试这些程序，这种机制对质量的保障起到了至关重要的作用。

运行速度的问题

常常听说SAS运行快之类的，其实那是当时和SPSS之类的比较而言的，在常规的建模方面把所有数据放到内存中的做法无疑是速度的保证。MATLAB和R的矩阵运算都是用的相同的库，除非你自己做特别的优化（估计可能性不太大，这些算法都是近几十年来智慧的结晶了），速度属于一个数量级的。有测试报告说R还会略微胜过MATLAB一筹，其实只要保障数量级相同，其他的细枝末节的问题没有必要太在意，关键是要熟悉这种语言的性能，养成好的编程思路。

用户习惯问题

以我自己为例，和数据分析相关的软件基本上我都使用过，甚至一些很专门的如network analysis方面的也用过。我的看法是找到你自己适合的工具，而不是开头就有一个成见。现在我基本上工作都是用R来做：不要钱、功能广泛。我认识的一些朋友中不少被认为是资深的做数据分析的人，基本上对R有好感；更多的是开始学这个了。

如果你是商业用户，比如我知道国内现在不少银行要自己做一些分析方面的系统，大部分都会打听下SAS。从我了解的几个项目来看，很少用到SAS建模方面的功能，多半就是做点汇总、报表了。其实这些东西用甲骨文的组建来做也是一样的，速度和可靠性不比SAS差。SAS在还有一个突出的有点，就是其功能流程上的完整性：它连数据库都是自己有的、做服务引擎也蛮好的，etc。而且SAS之类的是商业软件，相对来说商务上面的是要好说多了；如果用一开源的，领导的压力就来了。所以最终还是一个具体环境具体应对的问题。

个人意见

我常常的观点是以学习工作中需要为导向，练习好一个主要的；但是千万不要轻视甚至无视其他工具的存在。比如你公司用SAS的，你也不妨了解下R\S；反之亦然。

对于学数理统计的，尤其是工作中要自己做模型和算法实现的，我就推荐用R\S或者MATLAB之类的先实现（事实上我常常开玩笑说，通常的工作不过是把R已有的pkgs中需要的部分依照自己要求组合一下而已，很多关键性工作已经有人帮着做了）。如果需要速度和性能方面的，就再写成C\Fortran，甚至是硬件实现。

对于金融、生物等方面的做统计工作的，我建议尽量把R\S作为最主要的工具之一，根据我的经验，这些快速发展的领域，需要一个灵活、强大、丰富的工具，而R比较好的符合了这个特征。

rtist

回复第6楼的 tangyh："SAS的所有过程都是经过许多工程师严格调试的，SAS公司担保不出问题" ----- Beautiful lie!

huangziwei

个人觉得只要统计的基础够扎实，用R或者用SAS来做基本的统计计算都是差不多的，都只是一两行代码（这里忽略了数据预处理）。有时间纠结SAS好还是R好，还不如把SAS/stat的proc的原理都搞懂，再把R/stat的function都搞懂。那就知道哪个好哪个坏了。

sgsong

troll...

rtist

回复第14楼的 huangziwei：如果说R和SAS差不多，那基本上都是教科书上面那种特别简单的分析了。我觉得现代的数据以及统计分析，很少是一两个proc就能搞定的。一两百或者一两千行代码倒是挺常见的（我也除去了预处理部分）。这点上SAS已经完全过时了，最大的限制就是非要把分析过程分成data step和proc step，相互还不能嵌套。这套思路也许几十年前还有点优越性，现在来看简直就是绊脚石。虽然SAS也在努力弥补，但是整体上来看，限制实在太多了，再怎么弄也是建立在豆腐渣上面的世贸大厦，迟早会碰上拉登的。统计师是最郁闷的估计就是思路、模型、证明都到位了，软件却不能efficiently的去实现及检验；如同麦哲伦已经转了地球一大半，结果却死在了菲律宾一样。

R/SPLUS也不是什么都好（比如符号运算目前还比较弱，但SAS应该还没有呢吧），但是我觉得它的设计基本上是考虑到了数据分析的过程的；相比于SAS，大多数情况下都可以极大幅度的提高productivity，而且很少会限制你自由发挥的余地。

相比之下，在我眼中，两个John截然不同。John Sall更多的来说是和Bill Gates一样的成功商人，但是John Chambers才是计算统计学家。

R在很大程度上来看，是以数据为中心、为数据分析服务的，基本上解决了统计的一大问题；但是从模型和方法的角度上来看，我认为R还很欠缺。统计是的工作并不只是处理数据，相当多的时间是在分析和思考，分析各种方法和模型的性质，思考他们应该在什么情况下使用，思考如何扬长避短，思考如何改进现有方法。在这些问题上虽然R也可以通过模拟提供许多帮助，但是感觉还是有很多不完善之处。专业的符号运算软件这时候可能也会比较有用，可惜这些软件大多是给数学家写的，似乎没有专门针对统计学家的工作。

huangziwei

回复第16楼的 Rtist：前辈。受教了。我还只停留在古代，在努力搞懂每一个统计学的原理。

不过我觉得SAS正在出可视化的界面，很多操作都可以用鼠标完成了。所以SAS应该在抢占SPSS的市场。当R的读入数据那部分也可以弄成可视化之后。R就可以秒杀初级用户市场了。