成都地区对R有兴趣的兄弟姐妹们注意啦！

abel

1月6日（周六）2点到5点，将在西南财经大学2301教室进行R/S的交流活动，有兴趣的兄弟姐妹到时候一起去见个面吧。希望大家伙能认识起来，更好的学习交流R/S。

尤其感谢denver同志的准备和安排工作。

算小通知广告贴，我会明天下午两点的时候删除的哈。

anning189

预祝成功

yihui

不用删除，我给你加粗了：）

你应该早点发的，呵呵，回来谈谈经验，我们争取找到一种成熟的模式，尽快把R在国内推广起来

wumaths

学生大多适应固定模式培养的思维了，尤爱spss等操作上手没有技术含量的软件。

R推广之路任重道远啊：）

wumaths

预祝成功，以后回上海了争取也搞一次。要是汤老师能够在上海巡回几次估计效果更大。

bjt

yihui 啥时候也开始组织吧，最好周末，大家都可以去听一听

yihui

这学期没空啦，我再过一周就要回家了，在山沟沟里与世隔绝一个月，下学期回来再开展活动；现在主要是场地的问题不太好办

ypchen

[quote]引用第6楼谢益辉于2007-01-06 13:14发表的“”:

这学期没空啦，我再过一周就要回家了，在山沟沟里与世隔绝一个月，下学期回来再开展活动；现在主要是场地的问题不太好办[/quote]

需要多大场地？不能向学校申请吗？

yihui

应该可以申请，事实上我自己也能搞到小教室，我估计到时候人会比较多吧，我们自己学院的学生恐怕就得来好几十，外校的人可能也得有几十人，人一多的话就不好组织，我寒假慢慢考虑吧

abel

今天（6日），成都的denver、ilikemath等兄弟姐妹均参加了我们成都地区的首次R/S聚会，开始制作联络方式列表。

并约定明日（7日）再次在老地方相聚，地点在西南财经大学光华楼2301教室。

今天交流的内容是R使用概况，主要包括R的安装，设置，下载各种包，寻求帮助等内容；并说了一下默认安装自带的一些包，以及可以应用的各个领域。

明日的主要内容将集中在R统计入门方面的内容，集中介绍用R来完成描述性统计的内容以及简单的方差分析和最简单的二元回归模型。大致上是用R完成理工类概率统计课程的内容，当然会添加一些R可以做的qq图等，有时间还会涉及一些定类数据处理的问题。

明日还有一个重要的议题，就是将准备好的伍德里奇的计量经济学（初级）教程中的示例和习题中的部分乃至全部使用R实现（据说有stata的版本，denver极力推荐这种方式，例解的方法让大家了解R）。

时间是下午2点开始，大概延续到5点，以后这个时间基本上不会变动，如果有变动会有通知出现在该论坛上。有兴趣的兄弟姐妹们可以直接过去。

jinanvw

[quote]引用第6楼谢益辉于2007-01-06 13:14发表的“”:

这学期没空啦，我再过一周就要回家了，在山沟沟里与世隔绝一个月，下学期回来再开展活动；现在主要是场地的问题不太好办[/quote]

[quote]引用第8楼谢益辉于2007-01-06 19:06发表的“”:

应该可以申请，事实上我自己也能搞到小教室，我估计到时候人会比较多吧，我们自己学院的学生恐怕就得来好几十，外校的人可能也得有几十人，人一多的话就不好组织，我寒假慢慢考虑吧[/quote]

那么多人的确是需要块大场地,的确是个问题. 如果能搞的话版主一定记得通知我!

abel

昨日（7日），成都第二次R/S爱好者聚会。

初步约定本月13日，第三次聚会，地点应该是老地方。

昨日交流的内容是R在描述统计和计量经济学领域使用概况；因为时间紧急，未能在当场就商定的伍德里奇初级计量经济学教程示例和习题R解答的事情做出实质性的解决。

第三次聚会交流的内容的将集中在使用R解决伍德里奇初级计量经济学教程示例和习题解答，并初步商定共同学习MASS一书的事情。

ECONOMETRICS

我是西财的,可惜现在不在学校,学校里面使用S-PLUS和R的人应该不多,R有位统计学院的鲁老师很熟悉,大家以后多交流, S-PLUS和R处理起来时间序列的确是太棒了, ABEL不知道是那所学校的呢?

ruofei39

准时到。呵呵

areg

祝贺成都的朋友开展活动了,非常高兴

这久由于学期期未考试,太忙,没有来论坛,看到大家进入实质性学习与交流,真是大好事!

ilikemath

希望下次聚会可以看到更多热爱R的朋友！

abel

我计划一月份，最迟不超过春节，把这本伍德里奇的初级计量教程已有的stata环境下解决的问题统一的用R实现。希望这一实现对学习计量的人有所裨益，也希望可以吸引更多的人来了解和使用R。

首先，我需要获得该书的数据；再次要获得网上既有的Stata软件实现的结果：这些不需要一步一步的点击下载，也不需要使用另外的什么专门的下载软件。因为在R中有内置的函数可以完成这项工作，而且非常容易就可以实现了。下面是代码：

（我们事先必须知道数据文件在网络上的位置，帮助文件在网络上的位置；感谢Denver兄告诉我下载的地址。）

# download.file("http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge2.html","E:/ch2.html")

# 设置下载路径名称，保存到本地文件的名称

# 使用setwd设置相应帮助文件下载后的路径，比如setwd("E:/WooldHelp/")

webpath <- "http://fmwww.bc.edu/gstat/examples/wooldridge/wooldridge"

webpath <- paste("\"",webpath,2:18,".html\"",sep="")

filepath <- paste("\"ch",2:18,".html\"",sep="")

# 组合成为命令，输出成为R脚本，然后调用source函数运行

cmd <- paste("download.file(", webpath, ",", filepath, ")\n")

sink("cmd.r")

# 这里完全是为了节省code，使用了粗暴的做法，而未进行R语言运算

cat(cmd)

sink()

source("cmd.r")

file.remove("cmd.r")

######################################################################################################

######################################################################################################

# 从web上下载stata数据，使用download.file函数

# 路径为：http://fmwww.bc.edu/ec-p/data/wooldridge/

# file.names为所有数据的名称

# 使用setwd设置相应帮助文件下载后的路径，比如setwd("E:/WooldStataData/")

datapath <- "http://fmwww.bc.edu/ec-p/data/wooldridge/"

file.names <- c(

"401K.DTA" , "401KSUBS.DTA", "ADMNREV.DTA", "affairs.dta", "airfare.dta",

"APPLE.DTA", "ATHLET1.DTA", "ATHLET2.DTA",

"ATTEND.DTA" , "AUDIT.DTA" ,"BARIUM.DTA" , "BWGHT.DTA" , "bwght2.dta" ,

"campus.dta" , "CARD.DTA", "cement.dta" ,

"CEOSAL1.DTA" ,"CEOSAL2.DTA" ,"consump.dta" , "CORN.DTA" , "CPS78_85.DTA",

"cps91.dta", "CRIME1.DTA" , "CRIME2.DTA" ,

"CRIME3.DTA" ,"CRIME4.DTA" ,"discrim.dta" , "EARNS.DTA" , "engin.dta" ,

"EZANDERS.DTA" ,"ezunem.dta" , "FAIR.DTA" ,

"FERTIL1.DTA" ,"FERTIL2.DTA" ,"FERTIL3.DTA" , "FISH.DTA" , "FRINGE.DTA" ,

"GPA1.DTA" , "gpa2.dta" , "GPA3.DTA" ,

"hprice1.dta" ,"HPRICE2.DTA" ,"HPRICE3.DTA" , "HSEINV.DTA" , "HTV.DTA" ,

"INFMRT.DTA" , "INJURY.DTA" , "INTDEF.DTA" ,

"INTQRT.DTA" , "INVEN.DTA" ,"JTRAIN.DTA" , "JTRAIN2.DTA", "KIELMC.DTA" ,

"LAWSCH85.DTA" ,"loanapp.dta" , "LOWBRTH.DTA" ,

"mathpnl.dta" , "MEAP93.DTA" , "MLB1.DTA" , "MROZ.DTA" , "MURDER.DTA" ,

"nbasal.dta" , "NYSE.DTA" , "OPENNESS.DTA" ,

"PENSION.DTA" , "PHILLIPS.DTA", "PNTSPRD.DTA" , "PRISON.DTA" , "PRMINWGE.DTA",

"RDCHEM.DTA" , "rdtelec.dta" , "RECID.DTA" ,

"RENTAL.DTA" , "RETURN.DTA" , "SAVING.DTA" , "SLEEP75.DTA" , "SLP75_81.DTA",

"SMOKE.DTA" , "TRAFFIC1.DTA", "TRAFFIC2.DTA" ,

"twoyear.dta" , "VOLAT.DTA" , "VOTE1.DTA" , "VOTE2.DTA" , "WAGE1.DTA" ,

"WAGE2.DTA" , "WAGEPAN.DTA", "WAGEPRC.DTA" , "wine.dta")

# 数据集的数量为setnum

setnum <- length(file.names)

full.path <- paste(datapath, file.names, sep="")

for(i in 1:setnum) download.file(full.path[1],paste(file.names, sep=""))

######################################################################################################

# 提取下载后的数据，具体路径设置和下载位置相同

rm(list=ls(all=T))

library(foreign) # 使用read.dta函数直接读取stata数据

file.names <- dir("E:/AbelRS/WooldridgeBookData/STATA/")

full.names <- paste("E:/AbelRS/WooldridgeBookData/STATA/", file.names, sep="")

file.list <- lapply(full.names,read.dta)

dat.names <- unlist(strsplit(file.names,".",fixed=T))[2*(1:length(file.names))-1]

names(file.list) <- dat.names

# 将包含所有数据的列表存储在当前路径下，文件名是DataSets.RData，

# 全部变换为R可以直接使用的数据了

# 文件大小和压缩后的dta差不多大

save("file.list", file="DataSets.RData")

rm(list=ls(all=T))

load("E:/AbelRS/WooldridgeBookData/DataSets.RData")

attach(file.list) # 加载该列表，使得可以直接调用数据框

我们现在一次性的将这些数据文件放在了我们本机硬盘上。当然，可以在需要使用Stata数据的时候逐一下载，比如：

download.file("http://fmwww.bc.edu/ec-p/data/wooldridge/NYSE.dta", "NYSE.dta")

# library(foreign)

NYSE <- read.dta("NYSE.dta")

attach(NYSE)

随后就可以进行我们所需要的分析了……

yihui

abel

R中似乎可以通过XML方面的冬冬来解析链接，自动下载哈，不过用这个的人应该很稀罕了吧。

abel

鉴于要以Wooldridge初级教程中的示例作为R使用的介绍载体，和Stata的结果对比，特制作了两个函数，用于给出和Stata结果对应的输出。不当之处请诸位指点：

abel.summ <- function(x, ci, all=F)

{

StatsUniv <- function(x, ci=ci)

{

x <- as.vector(x)

x.lenFull <- length(x)

x <- x[!is.na(x)]

x.len <- length(x)

x.na <- x.lenFull - x.len

if(missing(ci)) ci <- c(0.025,0.975)

if(length(ci) != 2)

{

ci <- ci[1]

a <- (1-ci)/2

ci <- c(a, 1-a)

}

pct <- paste(c("LCL","UCL"),":",ci*100, "%",sep="")

t.Low <- qt(ci[1], df=x.len-1)

t.Up <- qt(ci[2], df=x.len-1)

x.min <- min(x)

x.max <- max(x)

x.sum <- sum(x)

x.mean <- mean(x)

x.sd <- sd(x)

x.se <- x.sd/sqrt(x.len-1)

x.lcl <- x.mean+t.Low*x.se

x.ucl <- x.mean+t.Up*x.se

x.skew <- sum((x - x.mean)^3/sqrt(var(x))^3)/x.len

x.kurt <- sum((x - x.mean)^4/var(x)^2)/x.len - 3

ans <- c(x.lenFull, x.mean, x.sd, x.min, x.max, x.len, x.na, x.sum, x.se, x.skew, x.kurt, x.lcl, x.ucl)

ans.names <- c("Nobs", "Mean", "STD", "Min", "Max", "N", "Na", "Sum", "SE", "Skew", "Kurt", pct)

names(ans) <- ans.names

ans

}

if(missing(ci)) ci <- 0.95

ans <- t(sapply(x, StatsUniv, ci=ci))

ans <- as.data.frame(ans)

if(all) return(ans) else return(ans[,1:5])

}

abel.coef <- function(x, level=0.05)

{

if(level<=0 || level>=1) stop("显著水平在0～1之间")

if(level>0.5) level <- 1-level

cf <- coef(x)

se <- sqrt(diag(vcov(x)))

a <- level/2

a <- c(a, 1 - a)

pct <- format(100*a, digits=4)

df <- df.residual(x)

fac <- qt(a, df=df)

ci <- cf + se %o% fac

t.value <- as.vector(cf)/se

pr.value <- 2*pt(abs(t.value), df=df, lower.tail=F)

if (!is.null(names(cf)) && !is.null(names(se)))

{

anames <- names(cf)[names(cf) %in% names(se)]

cf <- cf[anames]

se <- se[anames]

}

ans.names <- c("Coef.", "S.E.", "t value", "Pr(>|z|)",

paste(c("Lower", "Upper"),":",pct,"%",sep=""))

ans <- data.frame(cf, se, t.value, pr.value, ci)

colnames(ans) <- ans.names

ans

}