请有经验的小伙伴们补充,目的在于更有效的后期分析。我说说我自己简陋的步骤。这里没提到太多关于一开始清洗数据的部分,假定数据差不多整齐。大家从各自分析的需要补充哈~~ 每次看到很多很厉害的R用户,总是很羡慕,我们彼此鼓励哈。
1.设置path(我一般只在local文档中,所以输路径)
knitr::opts_knit$set(root.dir = 'C:/Users/')
getwd
2. 载入需要的packages。比如:library(tidyverse)
3.导入数据 比如用 read.csv()
4. 查看变量名称。比如 colnames(data)
5. 查看个别感兴趣变量的类别。比如 class(data$variable)
6. 查看factor类别变量(如性别)的数目。比如 table(data$gender)
7. 查看factor类别变量的level。levels(data$gender) #有时候具体的名字拼写会出差错如: Fmale, Female, Male, male
8. 查看ID是不是无重复的。
`isUnique<-function(vector){
return(!any(duplicated(vector)))
}
isUnique(data$ID)`
9. 查看数字变量的n, min, max, mean, sd
`n_min_max_mean_sd <- function(variable){
n=sum(!is.na(variable))
min = round(min(variable, na.rm = T),1)
max = round(max(variable, na.rm = T),1)
mean = round(mean(variable, na.rm = T),1)
sd = round(sd(variable, na.rm = T),1)
my_list = list(n,min, max, mean, sd)
return(my_list)
}
n_min_max_mean_sd(data$variable)`