课程大纲
基本入门 6小时
摘要:讲解R的基本操作知识,通过本单元学习,学员可以了解R的特点、资源获取方式,并掌握基本的程序编写
案例和练习:使用R语言完成若干欧拉项目(euler project)
* 如何学习R
* 如何得到帮助
* R语言的资源和书籍
* RStudio
* 扩展包
* 工作空间
* 自定义启动项
* 批处理模式
* 数据对象
* 自定义函数
* 控制语句
* 向量化操作
数据获取 2小时
摘要:讲解R语言如何从各种方式
读取数据,学员能通过基本的WEB
知识进行网页抓取,连接数据库,通过sql语句调用数据,从本地读取excel等各种文件数据。
案例和练习:抓取豆瓣网站上的数据,编写自定义函数。
* web数据抓取
* API数据源
* 连接数据库
* 本地文档
* 其它数据源
* 数据导出
数据整理 3小时
摘要:讲解R语言如何操作数据,学员能使用R对数据进行自由的操作转换,特别是对于字符串的操作处理。
案例和练习:找出QQ群中的话唠;研究红楼梦的文本特点。
* 数据排序
* 合并数据
* 汇总数据
* 重塑数据
* 取数据子集
* 字符串操作
* 日期操作
数据可视化 3小时
摘要:讲解R语言中两种高级绘图包的使用,lattice和ggplot2,理解可视化探索的各种方法
案例和练习:使用图形来对之前的电影、文本等数据进行描述
* 直方图
* 点图
* 柱形图
* 折线图
* 饼图
* 箱线图
* 散点图
* 矩阵相关
* 地图
初级统计方法 5小时
摘要:讲解用R进行初级的统计分析,学员可掌握回归分析等基本统计模型的意义和作用。
案例和练习:使用回归来预测商品价格;模拟赌场游戏的胜负。
* 描述统计
* 统计分布
* 频率和列联表
* 相关性
* T检验
* 非参统计
* 线性回归
* 回归诊断
* 稳健回归
* 非线性回归
* 主成份分析
* Logistic回归
* 统计模拟
数据挖掘初步 (选讲)
摘要:讲解R语言中进行数据挖掘的扩展包和函数使用,学员可以掌握有监督学习和无监督学习两类挖掘方法。
案例和练习:使用R来参加kaggle数据挖掘比赛
* 一般挖掘流程
* rattle包
* 层次聚类
* K均值聚类
* 决策树
* BP神经网络
培训时间:2013年8月16日-18日(3天)
培训地点:上海,南京东路培训中心
咨询联系方式
电话: (010)68456523李老师
手机:13811729406
Q Q: 1719155708
邮箱: ivy@pinggu.org
MSN: ivyliqian817@hotmail.com