统计学与R读书笔记(第二版)--感兴趣的请进

xjx · 2008年11月27日

下载地址: http://rbbs.biosino.org/Rbbs/posts/list/686.page

统计学与R读书笔记(第二版)

Contents

第二版序

增加

改变

.

序

.

概率论与统计学基础理论

条件概率与统计独立性

条件概率

定义

性质

全概率公式

Bayes公式

事件独立性

让我们来"创造"概率测度

重复独立试验

独立性与概率计算

随机变量的分布和数字特征

随机变量

定义

随机在哪里

让我们来构造随机变量

分布

分布列

分布函数

累积分布图

期望

离散情况

连续情况

一些定理

方差和协方差

方差

方差的性质

把随机变量标准化

协方差与相关系数

怎样描述数据

原始数据

收集

分类

位置测度

算术平均数(arithmetic mean)

样本中位数(sample median)

众数

几何平均(geometric mean)

算术平均数的某些性质

改变数据的起点

数据伸缩

伸缩+改变起点

离散性测度

极差(range)

分位数(quantiles)或百分位数

偏差

方差与标准差

方差与标准差的某些性质

变异系数(coefficient variation, CV)

数据的分组

图示法

条形图(bar graph)

直方图(histogram)

茎叶图(stem-and-leaf plot)

盒型图(box plot)

偏斜度与峭度

偏斜度(skewness)

峭度(kurtosis)

离散分布

退化分布(单点分布)

贝努里分布(两点分布)

二项分布

几何分布

负二项分布(巴斯卡分布)

泊松分布

定义等

从二项分布到泊松分布

连续分布

定义

性质

均匀分布

正态分布

Stirling 公式

从二项分布到正态分布

定义

指数分布

定义

性质

与泊松分布的关系

$\Gamma $ 分布

从总体中抽取样本的方法

总体与样本的关系

推断的方法

抽样

随机数的产生方法

抽样的方法

临床研究中的盲法

估计

均值的估计

点估计

均值的标准误

均值的区间估计

t 分布

方差的估计

点估计

卡方分布

区间估计

二项分布的估计

参数 p 的点估计

区间估计

泊松分布的估计

点估计

区间估计

单侧置信区间

假设检验: 单样本推断

一般概念

正态分布均值的单样本检验: 单侧备择

方差未知的正态分布均值的单样本 t 检验

正态分布均值的单样本检验: 双侧备择

方差已知时的正态分布均值的单样本 z 检验

检验的功效

已知方差时正态分布均值的单样本z检验的功效

双侧备择

样本量的决定

单侧备择下的样本量

双侧备择下的样本量

基于置信区间宽度的样本量估计

假设检验与置信区间的关系

正态分布方差的估计-单样本卡方检验

卡方检验

p-值(双侧备择)

二项分布的单样本检验

正态近似法

精确的p-值计算

功效及样本量的计算

泊松分布的单样本推断-小样本检验

假设检验: 两样本推断

匹配样本 t 检验

匹配t检验

匹配检验的p-值计算

匹配样本均值比较的区间的估计

等方差的两独立样本均值比较的 t 检验

t 检验

p-值

区间估计

两方差相等性检验-F检验

F 分布

F 检验

方差不等的两个独立样本的 t 检验

不等方差下两个独立样本的t检验

p-值

置信区间

独立样本均值比较中样本量及功效的估计

非参数检验

匹配数据的符号检验(sign test)

正态近似法

精确方法

试验设计

基本原理

意义

基本要求

试验设计的基本要素

对比设计及其统计分析

对比设计

统计分析

随机区组设计及统计分析

设计

统计

拉丁方设计

裂区设计(主要针对农业试验)

正交设计

R基础与数学运算

介绍

概述

资源介绍

多元数据分析

R binaries 包的介绍

寻求帮助

查看所有可用的包

查看某个包的信息

查看当前调入内存的包

查看和导入R中预置的数据

查看当前环境下的变量

预运行的程序

安装, 删除非二进制包

补全

R启动时调用的文件和函数

数据编辑器

字符串合并

数字打印位数

数据的导入/导出

导入 Execl 格式

导出/保存

向文件写入数据

重定向输出

latex

数据

数据类型

原子类型

NA

向量

因子

列表(list)

数据框-data.frame

数组(array)及其存取

矩阵

字符串及相关操作

数据的基本操作

单个数据操作-R

两个数据操作

对象操作

对象的模式

对象函数

获取和改变对象属性-类

模式转换

类和泛型函数

查看类可用的泛型函数

查看泛型函数可处理的类

查看泛型函数代码

编写自己的类和泛型函数

杂项

插值

排列组合

数组与矩阵运算

四则运算

转置

上下三角矩阵

行列式的值

内积与外积

对角矩阵与取对角

解线性方程组和求矩阵的逆矩阵

求矩阵的特征值与特征向量

矩阵分解

三角分解法(LU)

奇异值分解(svd)

QR分解

最小二乘法与QR分解

积分

2D-图形

图形环境设置-par函数

设置margin大小

设置显示区域

lines

boxplot 水平放置

添加水平或垂直线

xy轴反转

rug-在一边加入显示密度的小短线

绘制到x轴的垂直线

curve-绘制函数曲线

在一幅图上添加另外一幅图

平滑曲线(density)的绘制

填充颜色

cex-绘制按照比例大小的图标

同时绘制不同数据不同颜色的图

等高线图(contour)

一页上绘制多个图

3D-图形

在 python 中调用 R (rpy2)

introduction

把 python 数据转换为 R 可用的数据

执行 R 运算

将 R 结果提取到 python

基本统计分析

R的统计模型概述

公式

符号总结

数据变换

delta 方法-随机变量函数的方差

Box-Cox变换

茆诗松的定义

R的定义

稳定方差的变换

对数变换

平方根变换

反正弦变换(角变换)

倒数变换

量反应直线化

对数变换

平方根变换

倒数变换

质反应直线化

probit变换(概率单位变换)

角变换

logit变换

正态化变换的方法

数据挖掘中的变换

采样和随机数

R 的统计表

随机采样-R

抽样

放回式抽样

非放回式抽样

产生指定分布的随机数

概率分布

离散分布

贝努里分布（Bernoulli distribution）

均匀分布（Uniform discrete distribution）

二项分布

泊松分布

超几何分布（Hypergeometric distribution）

连续分布

正态分布

t分布

$\chi ^2$分布

探索性分析

描述性统计

样本特征数

方差

标准差

最大最小值

累积最大最小值

差分

平均值

中位数

众数

偏斜度(skewness)

峭度(kurtosis)

变异系数(coefficient of variability)

异常(极端)值

分类汇总

频数表-table

频数表、频数图

连续数据

类型数据

离散数据(Categorical data)

连续数据(numerical data)

fivenum

summary

分位数

条件性测量

茎叶图

直方图

盒形图

区间分割-cut函数(类似factor)

类型数据 vs. 类型数据

类型数据 vs. 连续数据

连续数据 vs. 连续数据

用 data.frame 存储

产生 data.frame

行列的变量名称

取得数据的各种方法

条件取得数据

使用 stack 与 unstack

多元数据

二元数据

协方差

协方差矩阵

相关系数

相关系数的区间估计

估计

TODO: 矩法

TODO: 极大似然法

均值估计

点估计

均值的标准误

均值的区间估计-总体方差已知

均值的区间估计-总体方差未知

方差估计

点估计

区间估计

二项分布的估计

参数p及标准误差的点估计

p的区间估计

假设检验

各种情况使用的方法

单样本假设检验

方差未知的正态分布均值的单样本检验

数据非正态时的情况

方差已知的正态分布均值的单样本检验

功效与样本量

方差的区间估计及检验-卡方检验

两样本假设检验

说明

F检验-两正态样本方差齐性检验

其它数据类型方差的检验

t检验

功效与样本量

非参数统计

一些概念

次序统计量

无偏检验

相对效率

渐近相对效率(A.R.E)

保守性

结(tie)

一致对与不一致对

二项比例齐性检验与列联表的独立性检验的关系

基于二项分布的检验

二项分布参数的假设检验

p值与区间

功效与样本量

二项比例齐性检验: prop.test

二项比例中样本量及功效的估计

独立样本

配对样本

分位数检验

符号检验

Cox-Stuart趋势性检验

列联表

2×2列联表

Yate修正卡方检验

Fisher精确检验

联合多个表: Mantel-Haenszel检验

匹配数据二项比例检验-McNemar检验

R×C列联表

概率差异(倾向性, 趋势性)的卡方检验

独立性卡方检验

固定边缘分布的卡方检验

三向及多向列联表

中位数(分位数)检验

关联性(相依性)度量

Cramer关联系数

Pearson关联系数

Pearson均方关联系数

TschuProw系数

正关联和负关联

kappa统计量

相关性的检验

卡方拟合优度检验

相关观测的Cochran检验

其它分析方法

似然比统计量

对数线性模型

秩检验

Wilcoxon符号-秩检验

Mann-Whitney检验和Hodges-Lehmann估计

Kurskal-Wallis 检验

等方差的检验

秩相关度量

Pearson关联系数

Spearman$\rho $

Kendall $\tau $

Daniels趋势性检验

Jonckheere-Terpstra 检验

Kendall偏相关系数

几个例子

多个相关样本

Friedman 检验

Quade检验

Friedman检验与Kendall系数及Spearman系数的关系

交互作用

平衡的不完全区组设计

A.R.E. 不低于1的检验

几个独立样本的 van der Waerden (正态得分)检验

等方差检验的正态得分法

正态得分用于回归

正态得分与相关系数

随机正态离差

寻找精确分布的方法

Fisher 随机化方法

两个独立样本

配对的随机化检验

Kolmogorov-Smirnov 型统计量

检验数据是否来自某个分布-Kolmogorov-Smirnov Test

正态性检验: Shapiro–Wilk test

非参数回归

其它

其它非参数检验

方差齐性检验

回归与方差分析

AIC(赤池信息量)准则

分析之前考虑的问题

数据转换

决策树

缺失数据

极端值(outliers)

非正态的残差

异质性噪声

相关数据

多个线性相关

简单线性回归(Linear regression)

开始之前

数据

模型

直接回归分析

summary对回归结果的统计

一些数据的计算

总平方和=残差平方和+回归平方和

回归平均平方(RegMS)与残差平均平方(ResMS)及其自由度

斜率显著性的F检验及t检验

方差齐性的检验

相关系数R及其与$R^2$的关系

相关系数的单样本t检验

相关系数的Fisher变换及单样本z检验

相关系数的区间估计

相关系数的功效及样本量估计

相关系数的两样本检验

回归系数的置信区间(CI)

计算回归预测的y值

anova比较两个模型

使用anova检测斜率

可以使用的泛型函数

是否拟合的足够好?

$\sigma ^2$已知

过拟合

欠拟合

外推(Extrapolation)

一些图

多元线性回归

模型

系数的置信区间(CI)

F-值, p-值

回归值

注意

偏相关与多重相关

多项式回归

模型

例子

系数的置信区间(CI)

F-值, p-值

回归值

逐步回归

最优回归方程的选择

逐步回归的计算

更新拟合模型

回归诊断

图的威力

残差

简介 plot.lm()

普通残差

标准化(内学生化)残差

外学生化残差

残差图

残差的 Q-Q 图

影响分析

帽子矩阵H的对角元素

DFFITS 准则

Cook 统计量

COVARATIO 准则

总结

共线性

什么是共线性

共线性的发现

广义线性(Generalized Linear)模型

概念

族

glm()函数

gaussian族

二项式族

Poisson模型

拟似然模型

其它资料找到的东东

数据

回归分析

Poisson回归

logistic多元线性回归

非线性回归与非线性最小平方(nls包)

非线性回归

logistic 模型的例子

nls函数

nlm与非线性最小二乘法和最大似然法模型

nlm() 函数的用法

最小二乘法

最大似然法

一些非标准模型

方差分析

多组比较的条件

方差齐性检验

非正态样本方差齐性检验

单因素方差分析(aov,anova)

两因素方差分析

混合效应模型

TODO: 正交设计与方差分析

流行病学

一些概念

前瞻性研究

回顾性研究

现状研究

危险率的差与比(RR)

优势及优势比(OR)

优效性研究与等效性研究

生存分析

交叉设计

洗脱期

残留效应(剩余效应)

常用的回归

函数介绍

epicalc包

rateratio.test包

epiR包

rmeta

stats包

类型(属性)数据的效应测度

危险率差的估计

危险率比(RR)的估计

优势比(OR)的估计

优势比与危险率的比较

混杂与分层

分层的类型数据统计推断方法-Mantel-Haenszel检验

Mantel-Haenszel检验及优势比估计

公共优势比与效应修正

例子

匹配研究中优势比的估计

存在混杂的趋势性检验

样本量及功效的估计

计算样本量的函数

现场调查(Field survey)

两个比例的比较

病例-对照研究中p1,p2与优势比的关系

前瞻性研究和随机对照试验中的样本量估计

现状研究中的样本量估计

比较两个均值的样本量估计

批质量检验的样本量估计

两个比例比较的功效

两个均值比较的功效

分层类型数据样本量及功效的估计

多重logistic回归

一般模型

回归参数的解释

二态独立变量在多重logistic回归模型中优势比的估计

logistic回归分析和列联表分析的关系

协方差,标准差,t值,置信区间等

logistic.display函数

连续独立变量在多重logistic回归模型中优势比的估计

假设检验

多重logistic回归中的预测

logistic模型回归拟合优良性的估计

meta再分析

概念

DerSimonian-Laird 方法(随机效应模型)

Mantel-Haenszel 方法(固定效应模型)

优势比的齐性检验

解释

绘图

等效性研究(equivalence study)

统计推断

样本量的估计

交叉设计

综合的处理效应的估计

剩余效应的估计

样本量的估计

聚集性的二态数据

聚集性数据二项比例的两样本检验

样本量及功效估计

测量误差方法

人-时间数据及生存分析

一些概念

(累加)发病率

发病密度

累加发病率与发病密度的关系

率比(RR)

单样本发病率数据的统计推断

大样本方法

精确方法

发病率的置信区间

两样本发病率数据的统计推断

率比

人-时间数据的功效及样本量估计

分层的人-时间数据的统计推断

分层的人-时间数据的功效及样本量

发病率数据中趋势性的检验

生存分析

概念

危险率(hazard rate)

死亡危险率(mortality risk)

生存概率(survival probability)

生存函数(survival function)

危险函数(hazard function)

失访或截尾观察(censored observation)

时间序列的 Kaplan-Meier 估计

对数秩(log rank)检验

Cox比例风险回归模型

模型及检验

对二态独立变量危险比的估计

对连续独立变量危险比的估计

功效及样本量估计

判别,聚类,因子分析等

数据的中心化和标准化

中心化

标准化

极差正规化(最小-最大规范化)

极差标准化

小数定标规范化

正则化(normalize)

距离系数

基本性质

绝对距离(曼哈顿距离, absolute distance)

欧氏距离(Euclidean distance)

Minkowski 距离(明氏距离)

Chebyshev 距离

Canberra 距离

分离系数

Lance 和 Williams 距离

Mahalanobis distance(马氏距离)

二值定性距离

相似系数

角余弦系数

相关系数

联合系数(assosiation coefficient)

判别分析(Discriminant Analysis)

判别分析与主成分分析的关系

基于 Mahalanobis 距离的数学模型

协方差矩阵相同

协方差矩阵不同

Bayes 判别

先验概率与损失函数

两个总体的 Bayes 判别

多分类问题的 Bayes 判别

Fisher 判别

例子

聚类分析

系统聚类(hierarchical clustering method)

最短距离法(the shortest distance method)

最长距离法(the longest distance method)

中间距离法(median method)

中间距离法的推广

类平均法(average linkage method)

重心法

离差平方和法(Ward 法)

其它方法

例子

类个数的确定

k-均值动态聚类

k means 算法

k-means++方法

k 邻近法(K Nearest Neighbors, knn)算法

knn 算法

预测

平滑

优点与缺点

knn() 函数用法

主成分分析(PCA)

协方差矩阵求主成分

记号

求主成分

原始变量与主成分的相关系数

载荷(loading)

相关矩阵求主成分

主成分特征向量的具体问题的相关解释

主成分分析的例子

主成分回归

线性回归

主成分分析

主成分回归

得到与原自变量的关系式

因子分析

数学模型

例子

因子得分

典型相关分析

TODO: 典型相关系数的检验

TODO

z-curve

解释

时间序列与信号处理

神经网络方法

SOM(自组织映射)

分形

细胞机与数字生命

混沌

支持向量机(SVM)

随机模拟(Monte Carlo)方法

参考文献

Bibliography

About this document ...

cloud_wei · 2008年11月28日

整理整理，可以出一本书了。

yihui · 2008年11月28日

辛苦辛苦！

LaTeX排版可能得大大改进一下。我很好奇，为什么字之间的间距这么大呢？眼睛从左往右移动阅读太费劲了，中间大量的空白稀释了阅读得到的信息，也使得页数太长，读者看着会觉得很恐怖的：）很多地方该空格而没空格导致一行文字超级长，都超出页边距了……

bjt · 2008年11月28日

utf-8比较麻烦啊，只好一会儿切到 ubuntu 下去看

xjx · 2008年11月29日

windows下确实乱码. 又发了一个未压缩的, 经测试, win下可以看, 方便使用 win的筒子们.

还请各位多多指教.

[quote]引用第2楼谢益辉于2008-11-28 14:47发表的“”:

辛苦辛苦！

LaTeX排版可能得大大改进一下。我很好奇，为什么字之间的间距这么大呢？眼睛从左往右移动阅读太费劲了，中间大量的空白稀释了阅读得到的信息，也使得页数太长，读者看着会觉得很恐怖的：）很多地方该空格而没空格导致一行文字超级长，都超出页边距了……[/quote]

努力学习 latex 中......

88308069 · 2008年11月30日

晕菜，我还没权限下载呢

88308069 · 2008年11月30日

更晕，原来不是一个论坛

yihui · 2008年11月30日

用7-zip解压出tar文件，然后直接更名为pdf就可以了，那个tar解不出来

sudongkai · 2008年11月30日

超强啊，多谢了，收藏学习了！

bjt · 2008年11月30日

让我想起了那本巨大的 Statistics with R.pdf 呵呵

windspeedo · 2008年11月30日

顺利下载学习。

多谢xjx。有意义的大学生活。

而且根据你书中的建议，准备买你推荐的那本书。结果当当网缺货。

olive_long · 2008年12月2日

对不起,您所在的组没有使用附件的权限.

这个是怎么回事？？

海小葵 · 2008年12月14日

那是另一个论坛吧~~~~~~~

mmc1006 · 2008年12月18日

为啥我打不开?

karlqi · 2008年12月18日

之前可以打开，没有下载，

现在无法打开，没的下载，

人间最痛苦的事莫过于此

。。。。

Service Temporarily Unavailable

。。。

zhhxu1969 · 2009年2月17日

对我的帮助很大，非常感谢