mini-whale

  •  
  • 2009年3月28日
  • 注册于 2009年3月28日
  • [未知用户] 前面的有些笔误,请斑竹帮我删除,谢谢!

    对于统计学者,pdf的价值肯定高于直方图,但是为了得到pdf,哪怕是近似的,也要n非常大。这在实际生活中,很难做到。
    有些时候,我们的报告需要给领导之类的外行看,他们会对pdf感兴趣?比如ARPU(平均每用户收入)分析,领导只希望简单的看到0~50、50~100、100~150、150~200、〉200这5档数据。统计学者可能会对直方图省略细节的特点吹毛求疵,可普通人只会觉得通俗易懂。别忘了外行对于pdf概率处处为0,可积分后概率不为1这一点就需要仔细解释。
    对于离散总体,pdf退化,需要引入冲击函数δ,但与其费劲的引入广义函数,还不如直接采用直方图呢。

    以上是直方图优越于pdf的3个场合。

    至于直方图与聚类分析的关系其实很容易解释。工作中,我们经常需要对数据划分档次,比如前面的5档0~50、50~100、100~150、 150~200、〉200。这个档次划分很直观,但是否科学?经常有这样的遗憾,只差1就可以换档。这样的遗憾不可避免,但可以最大限度的减少。如果用户在50元附近很多,50就绝不是一个好的分界点,如果80附近用户较少,80就是一个好的分界点。但这样的描述过于简单,全面的考虑就必须引入聚类分析。通过聚类,观察数据的分布,从而较好地划分档次标准,最后根据这个档次标准进行定性分析。
  • 很受启发,也来多说两句关于直方图的话题:)

    显然,直方图和“经验分布”Fn(x)密切相关。Glivenko已经证明,当n→∞时,Fn(x)→F(x),其中F(x)是分布函数。

    直方图的组距又牵涉到“聚类分析”这个方法。
    如果分组数量→∞,则显然直方图→分布函数曲线,这是非常理想的,但实际工作中,重复抽样的代价通常交大,无法让n极大。
    那么,分组数量究竟取多少合适?只有聚类分析才能给出完满的回答。

    直方图的下限取多少?这又与抽样分布、方差、置信度密切相关。