我之前研究方向是模糊评价,需要自己写下算法,不难
- 于 综合评价方法
- 自定义函数功能,function...
data_1<-data.frame(a=c(rep(1,3),rep(2,2),rep(3,5)),b=rep(c('A','B','C','D','E'),2)) data_2<- data.frame(a=c(1:3),A=c(1,0,1),B=c(1,0,1),C=c(1,0,1),D=c(0,1,1),E=c(0,1,1))
求助,实例数据如上所示,实际变量有几千个,将两两关系转化为0-1矩阵,类似于购物篮数据
要求:
原始数据:data_1
转化后数据:data_2> data_1 a b 1 1 A 2 1 B 3 1 C 4 2 D 5 2 E 6 3 A 7 3 B 8 3 C 9 3 D 10 3 E > data_2 a A B C D E 1 1 1 1 1 0 0 2 2 0 0 0 1 1 3 3 1 1 1 1 1
- input: vector a
output: list b
XXX <-- '13'a<-rep(c('13',2,3,14,'13',1,4,13,2,4,1,1,1,1,13),times=100) #t1开始下标,t2结束下标 t1<-c(which(a=='13')) t2<-t1[-length(t1)]+diff(which(a=='13'))-1 #结果 b<-list() for(i in 1:length(t2)){ b[[i]]<-a[t1[i]:t2[i]] } head(b,10)
初步如此,大量数据速度可能会慢,需改进
PS:code模式下b双中括号【【i】】变成了【i】,t1和t2的【i】变没了,是什么情况 - [未知用户]
已解决 - [未知用户]
:plain: ,不是可以改吗?都备注了,汗死...
如下:
这样就是与unique(data_1[,c("L","S")])行数相同的类数data_2$seq<-1:nrow(data_2)
- 输入data_1,输出data_3
data_2<-unique(data_1[,c("L","S")]) data_2$seq<-1:2 #2可改任意数字 data_3<-merge(data_1,data_2,by.x=c("L","S"),by.y=c("L","S"),all.x=TRUE,all.y=FALSE)
ddply(a,.(ID),count)
- 初步思想:
将属性进行标准化处理或者归一化处理;
按照距离大小排序进行平均切分成n类,每类都有m个。
关键在于属性处理和距离定义
- 附上具体code
a <- data.frame(name = c("a","b","c"),val1 = c(0,1,1),val2 = c(1,1,0)) b <- data.frame(name = c("a","b","d"),val2 = c(0,0,1),val3 = c(1,0,1)) ab<-merge(a,b,by.x=c("name"),by.y=c("name"),all.x=TRUE,all.y=TRUE) ab[is.na(ab$val2.y)==TRUE,]$val2.y<-ab[is.na(ab$val2.y)==TRUE,]$val2.x ab<-ab[,-3] names(ab)[3]<-"val2" ab
- B 1 0 1 ,这列就是错的吧,怎么匹配都不会是
应该是 B 1 0 0,楼主去看下吧
结果应该是
1 a 0 0 1
2 b 1 0 0
3 c 1 0 NA
4 d NA 1 1 - Tableau与R连接(本地)时提示
> library(Rserve) > Rserve() Starting Rserve... "D:\PROGRA~1\R\R-32~1.3\library\Rserve\libs\x64\Rserve.exe"
然后CMD,测试telnet localhost 6311 ,端口也没问题,提示Rserve已经运行。
但在打开Tableau,选择帮助-设置和性能-管理R连接,服务器选择 localhost 端口 6311,点击后提示Rserve is busy or not responding. Failed to create socket to Rserve.
求教,有遇到这种情况的吗?该如何解决呢? - 近期用ID(纯数字)做了个好友的关系图
本打算在igraph包画社交网络SNS图时,点标签使用 “名字” 替代 "ID" 显示在点标签上
使用igraph函数时 “名字” 显示为 “...”
不知道有没有igraph点标签能否用中文显示,及其具体code
- Rstudio挺好,一直使用
- 于 软件比较问题没什么区别,matlab肯定是要写函数和程序,也有许多工具包,其优点在于高性能计算、图像识别、量化投资等
- 于 软件比较问题比excel的vba精简,效率高点吧。
在计算性问题上和matlab相比的话基本没有什么优势,只是因为软件使用方便,而且免费,毕竟理工科还是用matlab的比较多。 - 没发现有stringdist指令 :plain:
令name_check为结果,则
即可得到plyr::join(name_check,corp,by="check")
亦可用merge - 服从均值为10,标准差为5的随机数中抽取5个,抽取数越多,均值和标准差越符合
- rJava加载了吗?
- 二连概率0.5,三连0.25,四连0.125,五连0.0625 :?: