请大家一起总结，数据分析开始的一些基本步骤

JandJ

请有经验的小伙伴们补充，目的在于更有效的后期分析。我说说我自己简陋的步骤。这里没提到太多关于一开始清洗数据的部分，假定数据差不多整齐。大家从各自分析的需要补充哈~~ 每次看到很多很厉害的R用户，总是很羡慕，我们彼此鼓励哈。
1.设置path（我一般只在local文档中，所以输路径）

knitr::opts_knit$set(root.dir = 'C:/Users/')
getwd
2. 载入需要的packages。比如：library(tidyverse)
3.导入数据 比如用 read.csv()
4. 查看变量名称。比如 colnames(data)
5. 查看个别感兴趣变量的类别。比如 class(data$variable)
6. 查看factor类别变量（如性别）的数目。比如 table(data$gender)
7. 查看factor类别变量的level。levels(data$gender) #有时候具体的名字拼写会出差错如: Fmale, Female, Male, male
8. 查看ID是不是无重复的。
`isUnique<-function(vector){
  return(!any(duplicated(vector)))
        }
isUnique(data$ID)`
9. 查看数字变量的n, min, max, mean, sd
`n_min_max_mean_sd <- function(variable){
  n=sum(!is.na(variable))
  min = round(min(variable, na.rm = T),1)
  max = round(max(variable, na.rm = T),1)
  mean = round(mean(variable, na.rm = T),1)
  sd = round(sd(variable, na.rm = T),1)
  my_list = list(n,min, max, mean, sd) 
  return(my_list)
}
n_min_max_mean_sd(data$variable)`

jimyokl

帮顶

jimyokl

感觉最重要的是对数据的模型套用和一些关键变量的处理