[未知用户] 前面的有些笔误,请斑竹帮我删除,谢谢!
对于统计学者,pdf的价值肯定高于直方图,但是为了得到pdf,哪怕是近似的,也要n非常大。这在实际生活中,很难做到。
有些时候,我们的报告需要给领导之类的外行看,他们会对pdf感兴趣?比如ARPU(平均每用户收入)分析,领导只希望简单的看到0~50、50~100、100~150、150~200、〉200这5档数据。统计学者可能会对直方图省略细节的特点吹毛求疵,可普通人只会觉得通俗易懂。别忘了外行对于pdf概率处处为0,可积分后概率不为1这一点就需要仔细解释。
对于离散总体,pdf退化,需要引入冲击函数δ,但与其费劲的引入广义函数,还不如直接采用直方图呢。
以上是直方图优越于pdf的3个场合。
至于直方图与聚类分析的关系其实很容易解释。工作中,我们经常需要对数据划分档次,比如前面的5档0~50、50~100、100~150、 150~200、〉200。这个档次划分很直观,但是否科学?经常有这样的遗憾,只差1就可以换档。这样的遗憾不可避免,但可以最大限度的减少。如果用户在50元附近很多,50就绝不是一个好的分界点,如果80附近用户较少,80就是一个好的分界点。但这样的描述过于简单,全面的考虑就必须引入聚类分析。通过聚类,观察数据的分布,从而较好地划分档次标准,最后根据这个档次标准进行定性分析。
对于统计学者,pdf的价值肯定高于直方图,但是为了得到pdf,哪怕是近似的,也要n非常大。这在实际生活中,很难做到。
有些时候,我们的报告需要给领导之类的外行看,他们会对pdf感兴趣?比如ARPU(平均每用户收入)分析,领导只希望简单的看到0~50、50~100、100~150、150~200、〉200这5档数据。统计学者可能会对直方图省略细节的特点吹毛求疵,可普通人只会觉得通俗易懂。别忘了外行对于pdf概率处处为0,可积分后概率不为1这一点就需要仔细解释。
对于离散总体,pdf退化,需要引入冲击函数δ,但与其费劲的引入广义函数,还不如直接采用直方图呢。
以上是直方图优越于pdf的3个场合。
至于直方图与聚类分析的关系其实很容易解释。工作中,我们经常需要对数据划分档次,比如前面的5档0~50、50~100、100~150、 150~200、〉200。这个档次划分很直观,但是否科学?经常有这样的遗憾,只差1就可以换档。这样的遗憾不可避免,但可以最大限度的减少。如果用户在50元附近很多,50就绝不是一个好的分界点,如果80附近用户较少,80就是一个好的分界点。但这样的描述过于简单,全面的考虑就必须引入聚类分析。通过聚类,观察数据的分布,从而较好地划分档次标准,最后根据这个档次标准进行定性分析。