样本数量问题

qiaonation

一个典型的样本数量问题，想讨论一下。统计全省的某一电力设备的健康状况。

比如全省有1万台，历史数据表明合格率为80%。要确定至少需要检测多少台才能够代表全体，有个经典的公式是

n=(z^2)p(1-p))/(e^2+(z^2)p(1-p))/N)=(1.96^2*0.8*0.2)/(0.02^2+(1.96^2*0.8*0.2)/10000)=1332

即检测1332台就可以保证95%置信区间精确度80±2%。

现在的问题是，想知道是否有必要在南北两个区内单独抽样，是否需要在每个市单独抽样。个人觉得这要根据历史数据先计算每个区和每个市的合格率。如果和总体合格率相同，就没有必要。但是这在统计上有没有什么相关的理论和方法呢，谢谢！

cr7madrid

回复第1楼的 qiaonation：抽样理论分层抽样？

xiaoxiao7880

实际调研的时候会在各市/区域都有抽样，而且按照数量比例进行配额确定各市/区域的样本数。

全省范围内县市的数量较多，一般先划分区域，再在区域内选择一两个县市，不过电力设备的健康状况好像很难找到划分区域的指标，困惑中。找到这个“辅助信息”应该是分层抽样的关键，也是分层抽样优于简单随机抽样的前提。

分层抽样（Stratified random sampling）

　　是把调查总体分为同质的、互不交叉的层（或类型），然后在各层（或类型）中独立抽取样本。例如：调查零售店时，按照其规模大小或库存额大小分层，然后在每层中按简单随机方法抽取大型零售店若干、中型若干、小型若干；调查城市时，按城市总人口或工业生产额分出超大型城市、中型城市、小型城市等，再抽出具体的各类型城市若干。

　　优点：

　　适用于层间有较大的异质性，而每层内的个体具有同质性的总体，能提高总体估计的精确度，在样本量相同的情况下，其精度高于简单抽样和系统抽样；能保证“层”的代表性，避免抽到“差”的样本；同时，不同层可以依据情况采用不同的抽样框和抽样方法。

　　缺点：

　　要求有高质量的、能用于分层的辅助信息；由于需要辅助信息，抽样框的创建需要更多的费用，更为复杂；抽样误差估计比简单抽样和系统抽样更复杂。

qiaonation

回复第3楼的 xiaoxiao7880：thanks, that's it.

qiaonation

回复第2楼的 cr7madrid：it is the stratified sampling.