手里有客户消费的流水数据,包含的内容有 某客户(customerID) 在 某时(date) 哪种类型(m_type)的商户(merch)做了多少消费(bill_amt);这些数据的跨度为两年,就是说每个客户在两年里每次消费的记录都记录下来了。
现在,我希望基于这些数据 对客户的消费习惯进行归纳归类,比如 哪些客户倾向于高频率地进行小额消费,高频率的大额消费,哪些倾向于进行低频率大额消费 ,低频率的小额消费。。。
我初步设想,每个客户消费每次的消费额可以设想成 一个分布,这个分布会有极大值,极小值,中值等等,如何能够通过聚类模型或其他更好的办法将这些类型归纳出来。但是后来想想,仅仅是这些极大值,极小值,中值又无法表现出频率这个概念,而且我不太喜欢用平均数,比如月均消费次数,月均消费金额这样的变量,因为我观察数据发现有些人倾向于在过年过节那几个月频频消费,有些则全年较平均的消费,而平均数很容易抹杀掉这些特征。
总之,归类的时候,要兼顾 消费时间的分布 和 消费金额的分布,如何能够找出一个或多个统计量,用这些统计量浓缩用户的这些信息,然后通过模型找出几种类别来。
请教这里的高人们,欢迎任何形式的反馈