请教：如何计算不同组间的相同值？

nano-chenyanlun

在 stackoverflow 上搜到了一个类似问题，但是 5 个回答中只有最后 1 个跑出来 ok，前面 4 个都跟页面上各自给出的结果不符合（迷）。

猥琐一问：有更好点的解法么？

题目跟数据也搬过来下：

题目
有客户姓名与他们去过哪些店铺的记录，很容易计算去过每家店铺的客户人数，但是，如何计算去过多家店铺组合（比如店铺 x1&x2 ）的客户数？

手头数据
mydata_data<-data.frame( Customer_Name=c("A","A","C","D","D","B"), Store_Name=c("x1","x2","x2","x2","x3","x1"))

期望数据
expected_data<-data.frame( Store_Name=c("x1","x2","x3","x1_x2","x2_x3","x1_x3"), Customers_Visited=c(2,3,1,1,1,0))

frankzhang21

nano-chenyanlun

library(data.table)
#> Warning: package 'data.table' was built under R version 3.6.2

dt <- data.table(
  Customer_Name=c("A","A","C","D","D","B"),
  Store_Name=c("x1","x2","x2","x2","x3","x1"))


result <- rbindlist(list(
  dt,
  dt[dt[, .I[.N > 1], by = .(Customer_Name)]$V1, 
    ][, .(Store_Name = paste0(Store_Name, collapse = "_")), by = .(Customer_Name)]
))[, .N, by = .(Store_Name)]
result
#>    Store_Name N
#> 1:         x1 2
#> 2:         x2 3
#> 3:         x3 1
#> 4:      x1_x2 1
#> 5:      x2_x3 1

result[data.table(Store_Name = c(unique(dt$Store_Name),combn(unique(dt$Store_Name),2,paste0,collapse="_"))),on=.(Store_Name)]
#>    Store_Name  N
#> 1:         x1  2
#> 2:         x2  3
#> 3:         x3  1
#> 4:      x1_x2  1
#> 5:      x1_x3 NA
#> 6:      x2_x3  1

Created on 2020-05-31 by the reprex package (v0.3.0)

感觉没什么好的办法，思路都差不多，都是把现存的store组合group by 一下，再join回去

medo

nano-chenyanlun
感觉这个问题放在网络数据结构下是不是逻辑更清晰？

library(igraph)

mydata_data<-data.frame(
  Customer_Name=c("A","A","C","D","D","B"),
  Store_Name=c("x1","x2","x2","x2","x3","x1"),
  stringsAsFactors = F)


g = graph.data.frame(mydata_data,directed=F)

n1 <- neighbors(g, "x1")
n2 <- neighbors(g, "x2")
length(intersection(n1,n2) )

具体可以根据实际需求做一些封装和优化。

nano-chenyanlun

frankzhang21 谢谢噢

顺便更猥琐地问一下：怎样计算只去过某个店铺跟去过店铺组合的人数？例如，只去过店铺 x1，和去过店铺 x1&x2、店铺 x1&x3。

目前我是分开来手动计算的，在想有没有好点的办法，

nano-chenyanlun

frankzhang21 发现一个新问题噢：结果里的 Store-Name 其实是个去过的历史组合，有没有好点的办法把组合里重复的店铺名去重下呢？

例如，假设 A 君特别爱去店铺 x1，数据集改成：

library(data.table) dt <- data.table( Customer_Name=c("A","A","C","D","D","B","A","A","A"), Store_Name=c("x1","x2","x2","x2","x3","x1","x1","x1","x1")) dt[, .(Store_Name = paste0(Store_Name, collapse = "_")), by = .(Customer_Name)][, .N, by = .(Store_Name)]

结果会变成：

Store_Name N 1: x1_x2_x1_x1_x1 1 2: x2 1 3: x2_x3 1 4: x1 1

而不是：

Store_Name N 1: x1_x2 1 2: x2 1 3: x2_x3 1 4: x1 1

目前我是直接删了数据框里的重复数据行，感觉十分傻……

谢了先：）

frankzhang21

nano-chenyanlun

library(data.table)


dt <- data.table(
  Customer_Name=c("A","A","C","D","D","B"),
  Store_Name=c("x1","x2","x2","x2","x3","x1"))

dt[, .(Store_Name = paste0(Store_Name, collapse = "_")), by = .(Customer_Name)][, .N, by = .(Store_Name)]
#>    Store_Name N
#> 1:      x1_x2 1
#> 2:         x2 1
#> 3:      x2_x3 1
#> 4:         x1 1

Created on 2020-05-31 by the reprex package (v0.3.0)
这个反而比上面的要简单一些，把所有的store name 按照customer name groupby 然后paste到一起即可

nano-chenyanlun

frankzhang21 啊，多谢 frank 小可爱，data.table 居然有这么神奇的用法，长见识了，我来抄抄作业：）

yihui

frankzhang21 来来来，看这位施主骨骼清奇，是个人才，加你为版主先，也不管你是愿意呢，还是愿意呢，还是愿意。

frankzhang21

yihui

哈哈哈，非常高兴可以给各位坛友做贡献 😄

yihui

medo 刚发现你竟然也不是版主，这是我们的重大失误。来，给你头上也来道闪电。

nano-chenyanlun

medo 是个好办法，让我掏出本本记下。

原题下第二个回答也是用 igraph 方法，但不知道为啥那代码我没跑出来，当时就没再继续看了……

总之，谢谢 medo（感恩的心）。

frankzhang21

nano-chenyanlun

去重也没错的，可以先去重，或者paste的时候去重

library(data.table)
dt <- data.table(
  Customer_Name=c("A","A","C","D","D","B","A","A","A"),
  Store_Name=c("x1","x2","x2","x2","x3","x1","x1","x1","x1"))
unique(dt)[, .(Store_Name = paste0(Store_Name, collapse = "_")), by = .(Customer_Name)][, .N, by = .(Store_Name)]
#>    Store_Name N
#> 1:      x1_x2 1
#> 2:         x2 1
#> 3:      x2_x3 1
#> 4:         x1 1
dt[, .(Store_Name = paste0(unique(Store_Name), collapse = "_")), by = .(Customer_Name)][, .N, by = .(Store_Name)]
#>    Store_Name N
#> 1:      x1_x2 1
#> 2:         x2 1
#> 3:      x2_x3 1
#> 4:         x1 1

Created on 2020-06-04 by the reprex package (v0.3.0)

nano-chenyanlun

frankzhang21 非常感谢！（想给你寄感谢卡的那种：））