R程序求优化

msjhfu · 2015年3月31日

> wordfreq2[1:10,]
wordlist Freq
4 Abbreviated Injury Scale 2
12 Acceleration 3
17 Acceptance 2
20 Accident 37
21 Accident Analysis 12
23 Accident Causation 5
34 Accident Investigation 5
39 Accident Modification Function 3
41 Accident Pattern 2
45 Accident Prevention 8
> keymatrix[1:2,]
col_names
row_names keyword 1 keyword 2 keyword 3 keyword 4
1 "Hierarchical Bayes" "Spatial Random Effect" "Uncorrelated Random Effect" "Negative Binomial Model"
2 "Real Time Crash Prediction Model" "Random Multinomial Logistic" "Bayes Belief Net" "Basic Freeway Segments"
col_names
row_names keyword 5 keyword 6 keyword 7 keyword 8 keyword 9 keyword 10 keyword 11 keyword 12
1 "Conditional Autoregressive Distribution" "Mixed Effect" NA NA NA NA NA NA
2 NA NA NA NA NA NA NA NA
col_names
row_names keyword 13
1 NA
2 NA
> nkeyword2
[1] 920
> length(keymatrix[,1])
[1] 1526
> length(wordfreq2[,1])
[1] 920
> y5
[1] 422741

上面是一些输入的部分展示。现在，下面的一段程序的运行时间太长，一天还运行不完。所以，我想把它优化一下。我虽然知道apply有类似功能，但是怎么也想不出关键的语句该怎么写。请各位高手指教。
> time=numeric(y5)
> weigh=numeric(y5)
> y5=1
> for(i in 1:(nkeyword2-1)){
+ for(j in (i+1):nkeyword2){
+ for(k in 1:nkey){
+ x1 =as.character(wordfreq2[i,1])==na.omit(keymatrix[k,])
+ x2 =as.character(wordfreq2[j,1])==na.omit(keymatrix[k,])
+ li =length(grep(TRUE,x1,fixed=TRUE))
+ lj =length(grep(TRUE,x2,fixed=TRUE))
+ if (li>0 & lj>0){
+ time[y5]= time[y5]+1 #计算共词频数
+ weigh[y5]= weigh[y5]+(1/choose(length(na.omit(keymatrix[k,])),2)) #计算权重
+ }
+ }
+ y5=y5+1
+ }
+ }
请各位高手多多指教。谢谢。

msjhfu · 2015年3月31日

另外，最近，统计之都好像越来越不那么容易打开了。如果它的服务器是放在国外的话，各位站长是不是考虑在国内弄个镜像，或者搬到国内来呢。毕竟，这么好的网站，是给国人看的。

msjhfu · 2015年3月31日

最近这个问题确实很突出呢。

msjhfu · 2015年4月1日

问题已经解决，谢谢

Minack · 2015年4月2日

[未知用户]

除了i,j,k三层循环肯定是优化重点，不太明白你的逻辑，所以先帮你优化循环以外的地方
1.na.omit(), as.character()这样的操作能否挪到循环外面做，这样就只用做1次而不是i*j*k次。
2.可以用sum(VectorA == VectorB)替代grep()+length()
3.if也做了i*j*k次，因此用ifelse可能快一点。