【已解决】以 dplyr 的方式统计每个字段的缺失比例

Cloud2016

举个小例子，统计数据集 airquality 每个字段的缺失比例

apply(airquality, 2, function(x) {
  mean(is.na(x))
})

dplyr 或者说 tidyverse 的方式是什么？

Liechi

Cloud2016 purrr::map(airquality, function(x) mean(is.na(x)))。动词变了。

yihui

Cloud2016 我跑个题。这种按列计算均值在 Base R 里的最快方式应该是

colMeans(is.na(airquality))

Cloud2016

Liechi 如果数据源比较大，比如来自数据库

library(DBI)
con <- dbConnect(
  RSQLite::SQLite(),
  "F:/lend-loan/lending-club-loan-data/lend_loan.sqlite"
)

那应该怎么操作比较合适？有兴趣的可以研究一下这个数据集
https://github.com/XiangyunHuang/RGraphics/releases/download/v0.4/lend_loan.sqlite

只是在这个数据集中，缺失值表示为 ""，我写了查某一个字段的，比如 emp_title

tbl(con, "loan") %>%
  select(emp_title) %>% 
  filter(emp_title == "") %>% 
  summarise(ratio = n()/2260668)

当我这样操作的时候，好慢

lend_loan <- tbl(con, "loan") %>% 
  collect()
missing_lend_loan <- apply(lend_loan, 2, function(x) {
  mean(x == "")
})

或者

mean_na <- function(x) mean(x == "")
missing_lend_loan <- tbl(con, "loan") %>% 
  collect() %>% 
  summarise_all(.funs= mean_na)

是不是我的姿势有问题？

tctcab

盲打一个

library(dplyr)
mean_na = function(x) mean(is.na(x))
airquality %>%
  summarise_all(.funs= mean_na)

Liechi

Cloud2016 这不知道了。

Cloud2016

感觉也就这样了，数据集大，字段多，运行时间肯定比玩具数据多得多

HarryZhu-7harryprince

Cloud2016 在数据量超级巨大（比如几个T）的做法：

sampling 数据到100W行左右的数量级(单机可处理同时保证统计的显著性)
本地通过 DataExplorer::plot_missing 得到每个字段的缺失值比例。

绝对是可以让你提早下班的一种方法 😁

yiluheihei

@Cloud2016
站在大家的肩膀上😁，总结一下就是, Base R 里面yihui 的方法

colMeans(is.na(airquality))

tidyverse可采用dplyr::summarize_all()和purrr::map()两种方法

dplyr::summarise_all(airquality, ~ mean(is.na(.)))
purrr::map_dbl(airquality, ~ mean(is.na(.)))

chuxinyuan

不够简洁，但是更纯粹点。

library(tidyverse)
airquality %>% 
  mutate(ID = 1:nrow(.)) %>% 
  gather(item, value, -ID) %>% 
  mutate(n = is.na(value)) %>% 
  group_by(item) %>% 
  summarise(na_prop = mean(n))

Cloud2016

HarryZhu-7harryprince 保证统计的显著性

怎么保证采样的代表性，或者你说的显著性

HarryZhu-7harryprince

Cloud2016
说实话这个更多是依据经验性的做法，通常每个分桶样本量至少在1000以上。比较学术的方法是说 30个样本，但是实际操作中往往会混入很多噪声，只能保证抓住主要矛盾，毕竟工业界场景是做什么都要加班和反复测试，只能在收益和成本之间取一个权衡。

chuxinyuan

library(dplyr)
airquality %>%
  summarise(
    across(
      everything(),
      ~ mean(is.na(.))
    )
  )