下载地址: http://rbbs.biosino.org/Rbbs/posts/list/686.page
统计学与R读书笔记(第二版)
Contents
第二版序
增加
改变
.
序
.
概率论与统计学基础理论
条件概率与统计独立性
条件概率
定义
性质
全概率公式
Bayes公式
事件独立性
让我们来"创造"概率测度
重复独立试验
独立性与概率计算
随机变量的分布和数字特征
随机变量
定义
随机在哪里
让我们来构造随机变量
分布
分布列
分布函数
累积分布图
期望
离散情况
连续情况
一些定理
方差和协方差
方差
方差的性质
把随机变量标准化
协方差与相关系数
怎样描述数据
原始数据
收集
分类
位置测度
算术平均数(arithmetic mean)
样本中位数(sample median)
众数
几何平均(geometric mean)
算术平均数的某些性质
改变数据的起点
数据伸缩
伸缩+改变起点
离散性测度
极差(range)
分位数(quantiles)或百分位数
偏差
方差与标准差
方差与标准差的某些性质
变异系数(coefficient variation, CV)
数据的分组
图示法
条形图(bar graph)
直方图(histogram)
茎叶图(stem-and-leaf plot)
盒型图(box plot)
偏斜度与峭度
偏斜度(skewness)
峭度(kurtosis)
离散分布
退化分布(单点分布)
贝努里分布(两点分布)
二项分布
几何分布
负二项分布(巴斯卡分布)
泊松分布
定义等
从二项分布到泊松分布
连续分布
定义
性质
均匀分布
正态分布
Stirling 公式
从二项分布到正态分布
定义
指数分布
定义
性质
与泊松分布的关系
$\Gamma $ 分布
从总体中抽取样本的方法
总体与样本的关系
推断的方法
抽样
随机数的产生方法
抽样的方法
临床研究中的盲法
估计
均值的估计
点估计
均值的标准误
均值的区间估计
t 分布
方差的估计
点估计
卡方分布
区间估计
二项分布的估计
参数 p 的点估计
区间估计
泊松分布的估计
点估计
区间估计
单侧置信区间
假设检验: 单样本推断
一般概念
正态分布均值的单样本检验: 单侧备择
方差未知的正态分布均值的单样本 t 检验
正态分布均值的单样本检验: 双侧备择
方差已知时的正态分布均值的单样本 z 检验
检验的功效
已知方差时正态分布均值的单样本z检验的功效
双侧备择
样本量的决定
单侧备择下的样本量
双侧备择下的样本量
基于置信区间宽度的样本量估计
假设检验与置信区间的关系
正态分布方差的估计-单样本卡方检验
卡方检验
p-值(双侧备择)
二项分布的单样本检验
正态近似法
精确的p-值计算
功效及样本量的计算
泊松分布的单样本推断-小样本检验
假设检验: 两样本推断
匹配样本 t 检验
匹配t检验
匹配检验的p-值计算
匹配样本均值比较的区间的估计
等方差的两独立样本均值比较的 t 检验
t 检验
p-值
区间估计
两方差相等性检验-F检验
F 分布
F 检验
方差不等的两个独立样本的 t 检验
不等方差下两个独立样本的t检验
p-值
置信区间
独立样本均值比较中样本量及功效的估计
非参数检验
匹配数据的符号检验(sign test)
正态近似法
精确方法
试验设计
基本原理
意义
基本要求
试验设计的基本要素
对比设计及其统计分析
对比设计
统计分析
随机区组设计及统计分析
设计
统计
拉丁方设计
裂区设计(主要针对农业试验)
正交设计
R基础与数学运算
介绍
概述
资源介绍
多元数据分析
R binaries 包的介绍
寻求帮助
查看所有可用的包
查看某个包的信息
查看当前调入内存的包
查看和导入R中预置的数据
查看当前环境下的变量
预运行的程序
安装, 删除非二进制包
补全
R启动时调用的文件和函数
数据编辑器
字符串合并
数字打印位数
数据的导入/导出
导入 Execl 格式
导出/保存
向文件写入数据
重定向输出
latex
数据
数据类型
原子类型
NA
向量
因子
列表(list)
数据框-data.frame
数组(array)及其存取
矩阵
字符串及相关操作
数据的基本操作
单个数据操作-R
两个数据操作
对象操作
对象的模式
对象函数
获取和改变对象属性-类
模式转换
类和泛型函数
查看类可用的泛型函数
查看泛型函数可处理的类
查看泛型函数代码
编写自己的类和泛型函数
杂项
插值
排列组合
数组与矩阵运算
四则运算
转置
上下三角矩阵
行列式的值
内积与外积
对角矩阵与取对角
解线性方程组和求矩阵的逆矩阵
求矩阵的特征值与特征向量
矩阵分解
三角分解法(LU)
奇异值分解(svd)
QR分解
最小二乘法与QR分解
积分
2D-图形
图形环境设置-par函数
设置margin大小
设置显示区域
lines
boxplot 水平放置
添加水平或垂直线
xy轴反转
rug-在一边加入显示密度的小短线
绘制到x轴的垂直线
curve-绘制函数曲线
在一幅图上添加另外一幅图
平滑曲线(density)的绘制
填充颜色
cex-绘制按照比例大小的图标
同时绘制不同数据不同颜色的图
等高线图(contour)
一页上绘制多个图
3D-图形
在 python 中调用 R (rpy2)
introduction
把 python 数据转换为 R 可用的数据
执行 R 运算
将 R 结果提取到 python
基本统计分析
R的统计模型概述
公式
符号总结
数据变换
delta 方法-随机变量函数的方差
Box-Cox变换
茆诗松的定义
R的定义
稳定方差的变换
对数变换
平方根变换
反正弦变换(角变换)
倒数变换
量反应直线化
对数变换
平方根变换
倒数变换
质反应直线化
probit变换(概率单位变换)
角变换
logit变换
正态化变换的方法
数据挖掘中的变换
采样和随机数
R 的统计表
随机采样-R
抽样
放回式抽样
非放回式抽样
产生指定分布的随机数
概率分布
离散分布
贝努里分布(Bernoulli distribution)
均匀分布(Uniform discrete distribution)
二项分布
泊松分布
超几何分布(Hypergeometric distribution)
连续分布
正态分布
t分布
$\chi ^2$分布
探索性分析
描述性统计
样本特征数
方差
标准差
最大最小值
累积最大最小值
差分
平均值
中位数
众数
偏斜度(skewness)
峭度(kurtosis)
变异系数(coefficient of variability)
异常(极端)值
分类汇总
频数表-table
频数表、频数图
连续数据
类型数据
离散数据(Categorical data)
连续数据(numerical data)
fivenum
summary
分位数
条件性测量
茎叶图
直方图
盒形图
区间分割-cut函数(类似factor)
类型数据 vs. 类型数据
类型数据 vs. 连续数据
连续数据 vs. 连续数据
用 data.frame 存储
产生 data.frame
行 列的变量名称
取得数据的各种方法
条件取得数据
使用 stack 与 unstack
多元数据
二元数据
协方差
协方差矩阵
相关系数
相关系数的区间估计
估计
TODO: 矩法
TODO: 极大似然法
均值估计
点估计
均值的标准误
均值的区间估计-总体方差已知
均值的区间估计-总体方差未知
方差估计
点估计
区间估计
二项分布的估计
参数p及标准误差的点估计
p的区间估计
假设检验
各种情况使用的方法
单样本假设检验
方差未知的正态分布均值的单样本检验
数据非正态时的情况
方差已知的正态分布均值的单样本检验
功效与样本量
方差的区间估计及检验-卡方检验
两样本假设检验
说明
F检验-两正态样本方差齐性检验
其它数据类型方差的检验
t检验
功效与样本量
非参数统计
一些概念
次序统计量
无偏检验
相对效率
渐近相对效率(A.R.E)
保守性
结(tie)
一致对与不一致对
二项比例齐性检验与列联表的独立性检验的关系
基于二项分布的检验
二项分布参数的假设检验
p值与区间
功效与样本量
二项比例齐性检验: prop.test
二项比例中样本量及功效的估计
独立样本
配对样本
分位数检验
符号检验
Cox-Stuart趋势性检验
列联表
2×2列联表
Yate修正卡方检验
Fisher精确检验
联合多个表: Mantel-Haenszel检验
匹配数据二项比例检验-McNemar检验
R×C列联表
概率差异(倾向性, 趋势性)的卡方检验
独立性卡方检验
固定边缘分布的卡方检验
三向及多向列联表
中位数(分位数)检验
关联性(相依性)度量
Cramer关联系数
Pearson关联系数
Pearson均方关联系数
TschuProw系数
正关联和负关联
kappa统计量
相关性的检验
卡方拟合优度检验
相关观测的Cochran检验
其它分析方法
似然比统计量
对数线性模型
秩检验
Wilcoxon符号-秩检验
Mann-Whitney检验和Hodges-Lehmann估计
Kurskal-Wallis 检验
等方差的检验
秩相关度量
Pearson关联系数
Spearman$\rho $
Kendall $\tau $
Daniels趋势性检验
Jonckheere-Terpstra 检验
Kendall偏相关系数
几个例子
多个相关样本
Friedman 检验
Quade检验
Friedman检验与Kendall系数及Spearman系数的关系
交互作用
平衡的不完全区组设计
A.R.E. 不低于1的检验
几个独立样本的 van der Waerden (正态得分)检验
等方差检验的正态得分法
正态得分用于回归
正态得分与相关系数
随机正态离差
寻找精确分布的方法
Fisher 随机化方法
两个独立样本
配对的随机化检验
Kolmogorov-Smirnov 型统计量
检验数据是否来自某个分布-Kolmogorov-Smirnov Test
正态性检验: Shapiro–Wilk test
非参数回归
其它
其它非参数检验
方差齐性检验
回归与方差分析
AIC(赤池信息量)准则
分析之前考虑的问题
数据转换
决策树
缺失数据
极端值(outliers)
非正态的残差
异质性噪声
相关数据
多个线性相关
简单线性回归(Linear regression)
开始之前
数据
模型
直接回归分析
summary对回归结果的统计
一些数据的计算
总平方和=残差平方和+回归平方和
回归平均平方(RegMS)与残差平均平方(ResMS)及其自由度
斜率显著性的F检验及t检验
方差齐性的检验
相关系数R及其与$R^2$的关系
相关系数的单样本t检验
相关系数的Fisher变换及单样本z检验
相关系数的区间估计
相关系数的功效及样本量估计
相关系数的两样本检验
回归系数的置信区间(CI)
计算回归预测的y值
anova比较两个模型
使用anova检测斜率
可以使用的泛型函数
是否拟合的足够好?
$\sigma ^2$已知
过拟合
欠拟合
外推(Extrapolation)
一些图
多元线性回归
模型
系数的置信区间(CI)
F-值, p-值
回归值
注意
偏相关与多重相关
多项式回归
模型
例子
系数的置信区间(CI)
F-值, p-值
回归值
逐步回归
最优回归方程的选择
逐步回归的计算
更新拟合模型
回归诊断
图的威力
残差
简介 plot.lm()
普通残差
标准化(内学生化)残差
外学生化残差
残差图
残差的 Q-Q 图
影响分析
帽子矩阵H的对角元素
DFFITS 准则
Cook 统计量
COVARATIO 准则
总结
共线性
什么是共线性
共线性的发现
广义线性(Generalized Linear)模型
概念
族
glm()函数
gaussian族
二项式族
Poisson模型
拟似然模型
其它资料找到的东东
数据
回归分析
Poisson回归
logistic多元线性回归
非线性回归与非线性最小平方(nls包)
非线性回归
logistic 模型的例子
nls函数
nlm与非线性最小二乘法和最大似然法模型
nlm() 函数的用法
最小二乘法
最大似然法
一些非标准模型
方差分析
多组比较的条件
方差齐性检验
非正态样本方差齐性检验
单因素方差分析(aov,anova)
两因素方差分析
混合效应模型
TODO: 正交设计与方差分析
流行病学
一些概念
前瞻性研究
回顾性研究
现状研究
危险率的差与比(RR)
优势及优势比(OR)
优效性研究与等效性研究
生存分析
交叉设计
洗脱期
残留效应(剩余效应)
常用的回归
函数介绍
epicalc包
rateratio.test包
epiR包
rmeta
stats包
类型(属性)数据的效应测度
危险率差的估计
危险率比(RR)的估计
优势比(OR)的估计
优势比与危险率的比较
混杂与分层
分层的类型数据统计推断方法-Mantel-Haenszel检验
Mantel-Haenszel检验及优势比估计
公共优势比与效应修正
例子
匹配研究中优势比的估计
存在混杂的趋势性检验
样本量及功效的估计
计算样本量的函数
现场调查(Field survey)
两个比例的比较
病例-对照研究中p1,p2与优势比的关系
前瞻性研究和随机对照试验中的样本量估计
现状研究中的样本量估计
比较两个均值的样本量估计
批质量检验的样本量估计
两个比例比较的功效
两个均值比较的功效
分层类型数据样本量及功效的估计
多重logistic回归
一般模型
回归参数的解释
二态独立变量在多重logistic回归模型中优势比的估计
logistic回归分析和列联表分析的关系
协方差,标准差,t值,置信区间等
logistic.display函数
连续独立变量在多重logistic回归模型中优势比的估计
假设检验
多重logistic回归中的预测
logistic模型回归拟合优良性的估计
meta再分析
概念
DerSimonian-Laird 方法(随机效应模型)
Mantel-Haenszel 方法(固定效应模型)
优势比的齐性检验
解释
绘图
等效性研究(equivalence study)
统计推断
样本量的估计
交叉设计
综合的处理效应的估计
剩余效应的估计
样本量的估计
聚集性的二态数据
聚集性数据二项比例的两样本检验
样本量及功效估计
测量误差方法
人-时间数据及生存分析
一些概念
(累加)发病率
发病密度
累加发病率与发病密度的关系
率比(RR)
单样本发病率数据的统计推断
大样本方法
精确方法
发病率的置信区间
两样本发病率数据的统计推断
率比
人-时间数据的功效及样本量估计
分层的人-时间数据的统计推断
分层的人-时间数据的功效及样本量
发病率数据中趋势性的检验
生存分析
概念
危险率(hazard rate)
死亡危险率(mortality risk)
生存概率(survival probability)
生存函数(survival function)
危险函数(hazard function)
失访或截尾观察(censored observation)
时间序列的 Kaplan-Meier 估计
对数秩(log rank)检验
Cox比例风险回归模型
模型及检验
对二态独立变量危险比的估计
对连续独立变量危险比的估计
功效及样本量估计
判别,聚类,因子分析等
数据的中心化和标准化
中心化
标准化
极差正规化(最小-最大规范化)
极差标准化
小数定标规范化
正则化(normalize)
距离系数
基本性质
绝对距离(曼哈顿距离, absolute distance)
欧氏距离(Euclidean distance)
Minkowski 距离(明氏距离)
Chebyshev 距离
Canberra 距离
分离系数
Lance 和 Williams 距离
Mahalanobis distance(马氏距离)
二值定性距离
相似系数
角余弦系数
相关系数
联合系数(assosiation coefficient)
判别分析(Discriminant Analysis)
判别分析与主成分分析的关系
基于 Mahalanobis 距离的数学模型
协方差矩阵相同
协方差矩阵不同
Bayes 判别
先验概率与损失函数
两个总体的 Bayes 判别
多分类问题的 Bayes 判别
Fisher 判别
例子
聚类分析
系统聚类(hierarchical clustering method)
最短距离法(the shortest distance method)
最长距离法(the longest distance method)
中间距离法(median method)
中间距离法的推广
类平均法(average linkage method)
重心法
离差平方和法(Ward 法)
其它方法
例子
类个数的确定
k-均值动态聚类
k means 算法
k-means++方法
k 邻近法(K Nearest Neighbors, knn)算法
knn 算法
预测
平滑
优点与缺点
knn() 函数用法
主成分分析(PCA)
协方差矩阵求主成分
记号
求主成分
原始变量与主成分的相关系数
载荷(loading)
相关矩阵求主成分
主成分特征向量的具体问题的相关解释
主成分分析的例子
主成分回归
线性回归
主成分分析
主成分回归
得到与原自变量的关系式
因子分析
数学模型
例子
因子得分
典型相关分析
TODO: 典型相关系数的检验
TODO
z-curve
解释
时间序列与信号处理
神经网络方法
SOM(自组织映射)
分形
细胞机与数字生命
混沌
支持向量机(SVM)
随机模拟(Monte Carlo)方法
参考文献
Bibliography
About this document ...
统计学与R读书笔记(第二版)
Contents
第二版序
增加
改变
.
序
.
概率论与统计学基础理论
条件概率与统计独立性
条件概率
定义
性质
全概率公式
Bayes公式
事件独立性
让我们来"创造"概率测度
重复独立试验
独立性与概率计算
随机变量的分布和数字特征
随机变量
定义
随机在哪里
让我们来构造随机变量
分布
分布列
分布函数
累积分布图
期望
离散情况
连续情况
一些定理
方差和协方差
方差
方差的性质
把随机变量标准化
协方差与相关系数
怎样描述数据
原始数据
收集
分类
位置测度
算术平均数(arithmetic mean)
样本中位数(sample median)
众数
几何平均(geometric mean)
算术平均数的某些性质
改变数据的起点
数据伸缩
伸缩+改变起点
离散性测度
极差(range)
分位数(quantiles)或百分位数
偏差
方差与标准差
方差与标准差的某些性质
变异系数(coefficient variation, CV)
数据的分组
图示法
条形图(bar graph)
直方图(histogram)
茎叶图(stem-and-leaf plot)
盒型图(box plot)
偏斜度与峭度
偏斜度(skewness)
峭度(kurtosis)
离散分布
退化分布(单点分布)
贝努里分布(两点分布)
二项分布
几何分布
负二项分布(巴斯卡分布)
泊松分布
定义等
从二项分布到泊松分布
连续分布
定义
性质
均匀分布
正态分布
Stirling 公式
从二项分布到正态分布
定义
指数分布
定义
性质
与泊松分布的关系
$\Gamma $ 分布
从总体中抽取样本的方法
总体与样本的关系
推断的方法
抽样
随机数的产生方法
抽样的方法
临床研究中的盲法
估计
均值的估计
点估计
均值的标准误
均值的区间估计
t 分布
方差的估计
点估计
卡方分布
区间估计
二项分布的估计
参数 p 的点估计
区间估计
泊松分布的估计
点估计
区间估计
单侧置信区间
假设检验: 单样本推断
一般概念
正态分布均值的单样本检验: 单侧备择
方差未知的正态分布均值的单样本 t 检验
正态分布均值的单样本检验: 双侧备择
方差已知时的正态分布均值的单样本 z 检验
检验的功效
已知方差时正态分布均值的单样本z检验的功效
双侧备择
样本量的决定
单侧备择下的样本量
双侧备择下的样本量
基于置信区间宽度的样本量估计
假设检验与置信区间的关系
正态分布方差的估计-单样本卡方检验
卡方检验
p-值(双侧备择)
二项分布的单样本检验
正态近似法
精确的p-值计算
功效及样本量的计算
泊松分布的单样本推断-小样本检验
假设检验: 两样本推断
匹配样本 t 检验
匹配t检验
匹配检验的p-值计算
匹配样本均值比较的区间的估计
等方差的两独立样本均值比较的 t 检验
t 检验
p-值
区间估计
两方差相等性检验-F检验
F 分布
F 检验
方差不等的两个独立样本的 t 检验
不等方差下两个独立样本的t检验
p-值
置信区间
独立样本均值比较中样本量及功效的估计
非参数检验
匹配数据的符号检验(sign test)
正态近似法
精确方法
试验设计
基本原理
意义
基本要求
试验设计的基本要素
对比设计及其统计分析
对比设计
统计分析
随机区组设计及统计分析
设计
统计
拉丁方设计
裂区设计(主要针对农业试验)
正交设计
R基础与数学运算
介绍
概述
资源介绍
多元数据分析
R binaries 包的介绍
寻求帮助
查看所有可用的包
查看某个包的信息
查看当前调入内存的包
查看和导入R中预置的数据
查看当前环境下的变量
预运行的程序
安装, 删除非二进制包
补全
R启动时调用的文件和函数
数据编辑器
字符串合并
数字打印位数
数据的导入/导出
导入 Execl 格式
导出/保存
向文件写入数据
重定向输出
latex
数据
数据类型
原子类型
NA
向量
因子
列表(list)
数据框-data.frame
数组(array)及其存取
矩阵
字符串及相关操作
数据的基本操作
单个数据操作-R
两个数据操作
对象操作
对象的模式
对象函数
获取和改变对象属性-类
模式转换
类和泛型函数
查看类可用的泛型函数
查看泛型函数可处理的类
查看泛型函数代码
编写自己的类和泛型函数
杂项
插值
排列组合
数组与矩阵运算
四则运算
转置
上下三角矩阵
行列式的值
内积与外积
对角矩阵与取对角
解线性方程组和求矩阵的逆矩阵
求矩阵的特征值与特征向量
矩阵分解
三角分解法(LU)
奇异值分解(svd)
QR分解
最小二乘法与QR分解
积分
2D-图形
图形环境设置-par函数
设置margin大小
设置显示区域
lines
boxplot 水平放置
添加水平或垂直线
xy轴反转
rug-在一边加入显示密度的小短线
绘制到x轴的垂直线
curve-绘制函数曲线
在一幅图上添加另外一幅图
平滑曲线(density)的绘制
填充颜色
cex-绘制按照比例大小的图标
同时绘制不同数据不同颜色的图
等高线图(contour)
一页上绘制多个图
3D-图形
在 python 中调用 R (rpy2)
introduction
把 python 数据转换为 R 可用的数据
执行 R 运算
将 R 结果提取到 python
基本统计分析
R的统计模型概述
公式
符号总结
数据变换
delta 方法-随机变量函数的方差
Box-Cox变换
茆诗松的定义
R的定义
稳定方差的变换
对数变换
平方根变换
反正弦变换(角变换)
倒数变换
量反应直线化
对数变换
平方根变换
倒数变换
质反应直线化
probit变换(概率单位变换)
角变换
logit变换
正态化变换的方法
数据挖掘中的变换
采样和随机数
R 的统计表
随机采样-R
抽样
放回式抽样
非放回式抽样
产生指定分布的随机数
概率分布
离散分布
贝努里分布(Bernoulli distribution)
均匀分布(Uniform discrete distribution)
二项分布
泊松分布
超几何分布(Hypergeometric distribution)
连续分布
正态分布
t分布
$\chi ^2$分布
探索性分析
描述性统计
样本特征数
方差
标准差
最大最小值
累积最大最小值
差分
平均值
中位数
众数
偏斜度(skewness)
峭度(kurtosis)
变异系数(coefficient of variability)
异常(极端)值
分类汇总
频数表-table
频数表、频数图
连续数据
类型数据
离散数据(Categorical data)
连续数据(numerical data)
fivenum
summary
分位数
条件性测量
茎叶图
直方图
盒形图
区间分割-cut函数(类似factor)
类型数据 vs. 类型数据
类型数据 vs. 连续数据
连续数据 vs. 连续数据
用 data.frame 存储
产生 data.frame
行 列的变量名称
取得数据的各种方法
条件取得数据
使用 stack 与 unstack
多元数据
二元数据
协方差
协方差矩阵
相关系数
相关系数的区间估计
估计
TODO: 矩法
TODO: 极大似然法
均值估计
点估计
均值的标准误
均值的区间估计-总体方差已知
均值的区间估计-总体方差未知
方差估计
点估计
区间估计
二项分布的估计
参数p及标准误差的点估计
p的区间估计
假设检验
各种情况使用的方法
单样本假设检验
方差未知的正态分布均值的单样本检验
数据非正态时的情况
方差已知的正态分布均值的单样本检验
功效与样本量
方差的区间估计及检验-卡方检验
两样本假设检验
说明
F检验-两正态样本方差齐性检验
其它数据类型方差的检验
t检验
功效与样本量
非参数统计
一些概念
次序统计量
无偏检验
相对效率
渐近相对效率(A.R.E)
保守性
结(tie)
一致对与不一致对
二项比例齐性检验与列联表的独立性检验的关系
基于二项分布的检验
二项分布参数的假设检验
p值与区间
功效与样本量
二项比例齐性检验: prop.test
二项比例中样本量及功效的估计
独立样本
配对样本
分位数检验
符号检验
Cox-Stuart趋势性检验
列联表
2×2列联表
Yate修正卡方检验
Fisher精确检验
联合多个表: Mantel-Haenszel检验
匹配数据二项比例检验-McNemar检验
R×C列联表
概率差异(倾向性, 趋势性)的卡方检验
独立性卡方检验
固定边缘分布的卡方检验
三向及多向列联表
中位数(分位数)检验
关联性(相依性)度量
Cramer关联系数
Pearson关联系数
Pearson均方关联系数
TschuProw系数
正关联和负关联
kappa统计量
相关性的检验
卡方拟合优度检验
相关观测的Cochran检验
其它分析方法
似然比统计量
对数线性模型
秩检验
Wilcoxon符号-秩检验
Mann-Whitney检验和Hodges-Lehmann估计
Kurskal-Wallis 检验
等方差的检验
秩相关度量
Pearson关联系数
Spearman$\rho $
Kendall $\tau $
Daniels趋势性检验
Jonckheere-Terpstra 检验
Kendall偏相关系数
几个例子
多个相关样本
Friedman 检验
Quade检验
Friedman检验与Kendall系数及Spearman系数的关系
交互作用
平衡的不完全区组设计
A.R.E. 不低于1的检验
几个独立样本的 van der Waerden (正态得分)检验
等方差检验的正态得分法
正态得分用于回归
正态得分与相关系数
随机正态离差
寻找精确分布的方法
Fisher 随机化方法
两个独立样本
配对的随机化检验
Kolmogorov-Smirnov 型统计量
检验数据是否来自某个分布-Kolmogorov-Smirnov Test
正态性检验: Shapiro–Wilk test
非参数回归
其它
其它非参数检验
方差齐性检验
回归与方差分析
AIC(赤池信息量)准则
分析之前考虑的问题
数据转换
决策树
缺失数据
极端值(outliers)
非正态的残差
异质性噪声
相关数据
多个线性相关
简单线性回归(Linear regression)
开始之前
数据
模型
直接回归分析
summary对回归结果的统计
一些数据的计算
总平方和=残差平方和+回归平方和
回归平均平方(RegMS)与残差平均平方(ResMS)及其自由度
斜率显著性的F检验及t检验
方差齐性的检验
相关系数R及其与$R^2$的关系
相关系数的单样本t检验
相关系数的Fisher变换及单样本z检验
相关系数的区间估计
相关系数的功效及样本量估计
相关系数的两样本检验
回归系数的置信区间(CI)
计算回归预测的y值
anova比较两个模型
使用anova检测斜率
可以使用的泛型函数
是否拟合的足够好?
$\sigma ^2$已知
过拟合
欠拟合
外推(Extrapolation)
一些图
多元线性回归
模型
系数的置信区间(CI)
F-值, p-值
回归值
注意
偏相关与多重相关
多项式回归
模型
例子
系数的置信区间(CI)
F-值, p-值
回归值
逐步回归
最优回归方程的选择
逐步回归的计算
更新拟合模型
回归诊断
图的威力
残差
简介 plot.lm()
普通残差
标准化(内学生化)残差
外学生化残差
残差图
残差的 Q-Q 图
影响分析
帽子矩阵H的对角元素
DFFITS 准则
Cook 统计量
COVARATIO 准则
总结
共线性
什么是共线性
共线性的发现
广义线性(Generalized Linear)模型
概念
族
glm()函数
gaussian族
二项式族
Poisson模型
拟似然模型
其它资料找到的东东
数据
回归分析
Poisson回归
logistic多元线性回归
非线性回归与非线性最小平方(nls包)
非线性回归
logistic 模型的例子
nls函数
nlm与非线性最小二乘法和最大似然法模型
nlm() 函数的用法
最小二乘法
最大似然法
一些非标准模型
方差分析
多组比较的条件
方差齐性检验
非正态样本方差齐性检验
单因素方差分析(aov,anova)
两因素方差分析
混合效应模型
TODO: 正交设计与方差分析
流行病学
一些概念
前瞻性研究
回顾性研究
现状研究
危险率的差与比(RR)
优势及优势比(OR)
优效性研究与等效性研究
生存分析
交叉设计
洗脱期
残留效应(剩余效应)
常用的回归
函数介绍
epicalc包
rateratio.test包
epiR包
rmeta
stats包
类型(属性)数据的效应测度
危险率差的估计
危险率比(RR)的估计
优势比(OR)的估计
优势比与危险率的比较
混杂与分层
分层的类型数据统计推断方法-Mantel-Haenszel检验
Mantel-Haenszel检验及优势比估计
公共优势比与效应修正
例子
匹配研究中优势比的估计
存在混杂的趋势性检验
样本量及功效的估计
计算样本量的函数
现场调查(Field survey)
两个比例的比较
病例-对照研究中p1,p2与优势比的关系
前瞻性研究和随机对照试验中的样本量估计
现状研究中的样本量估计
比较两个均值的样本量估计
批质量检验的样本量估计
两个比例比较的功效
两个均值比较的功效
分层类型数据样本量及功效的估计
多重logistic回归
一般模型
回归参数的解释
二态独立变量在多重logistic回归模型中优势比的估计
logistic回归分析和列联表分析的关系
协方差,标准差,t值,置信区间等
logistic.display函数
连续独立变量在多重logistic回归模型中优势比的估计
假设检验
多重logistic回归中的预测
logistic模型回归拟合优良性的估计
meta再分析
概念
DerSimonian-Laird 方法(随机效应模型)
Mantel-Haenszel 方法(固定效应模型)
优势比的齐性检验
解释
绘图
等效性研究(equivalence study)
统计推断
样本量的估计
交叉设计
综合的处理效应的估计
剩余效应的估计
样本量的估计
聚集性的二态数据
聚集性数据二项比例的两样本检验
样本量及功效估计
测量误差方法
人-时间数据及生存分析
一些概念
(累加)发病率
发病密度
累加发病率与发病密度的关系
率比(RR)
单样本发病率数据的统计推断
大样本方法
精确方法
发病率的置信区间
两样本发病率数据的统计推断
率比
人-时间数据的功效及样本量估计
分层的人-时间数据的统计推断
分层的人-时间数据的功效及样本量
发病率数据中趋势性的检验
生存分析
概念
危险率(hazard rate)
死亡危险率(mortality risk)
生存概率(survival probability)
生存函数(survival function)
危险函数(hazard function)
失访或截尾观察(censored observation)
时间序列的 Kaplan-Meier 估计
对数秩(log rank)检验
Cox比例风险回归模型
模型及检验
对二态独立变量危险比的估计
对连续独立变量危险比的估计
功效及样本量估计
判别,聚类,因子分析等
数据的中心化和标准化
中心化
标准化
极差正规化(最小-最大规范化)
极差标准化
小数定标规范化
正则化(normalize)
距离系数
基本性质
绝对距离(曼哈顿距离, absolute distance)
欧氏距离(Euclidean distance)
Minkowski 距离(明氏距离)
Chebyshev 距离
Canberra 距离
分离系数
Lance 和 Williams 距离
Mahalanobis distance(马氏距离)
二值定性距离
相似系数
角余弦系数
相关系数
联合系数(assosiation coefficient)
判别分析(Discriminant Analysis)
判别分析与主成分分析的关系
基于 Mahalanobis 距离的数学模型
协方差矩阵相同
协方差矩阵不同
Bayes 判别
先验概率与损失函数
两个总体的 Bayes 判别
多分类问题的 Bayes 判别
Fisher 判别
例子
聚类分析
系统聚类(hierarchical clustering method)
最短距离法(the shortest distance method)
最长距离法(the longest distance method)
中间距离法(median method)
中间距离法的推广
类平均法(average linkage method)
重心法
离差平方和法(Ward 法)
其它方法
例子
类个数的确定
k-均值动态聚类
k means 算法
k-means++方法
k 邻近法(K Nearest Neighbors, knn)算法
knn 算法
预测
平滑
优点与缺点
knn() 函数用法
主成分分析(PCA)
协方差矩阵求主成分
记号
求主成分
原始变量与主成分的相关系数
载荷(loading)
相关矩阵求主成分
主成分特征向量的具体问题的相关解释
主成分分析的例子
主成分回归
线性回归
主成分分析
主成分回归
得到与原自变量的关系式
因子分析
数学模型
例子
因子得分
典型相关分析
TODO: 典型相关系数的检验
TODO
z-curve
解释
时间序列与信号处理
神经网络方法
SOM(自组织映射)
分形
细胞机与数字生命
混沌
支持向量机(SVM)
随机模拟(Monte Carlo)方法
参考文献
Bibliography
About this document ...