cwjl11 大家好: 我现在有这样一个需求,我想分析下公司续签率低的原因,也就是说有10个人买了公司的服务,但是只有2个人会连续买。影响续签率的指标大概有三十多项。有三年历史数据,分续签过的用户和没有续签的用户。 我现在想得到以下几个结论: 1.这三十多个指标中哪些指标是重点影响续签率的。 请问如果要实现这个目标,可以用到哪些方法?用逻辑回归,神经网络? 2.如果我要找到续签率低的原因,可以从哪些方面入手呢。 难道需要对各个指标一个一个的分析,得出续签客户和非续签客户这个指标分别是什么情况? 需要用哪些统计指标去衡量呢? 第一次做这样的分析项目,还请大家指点迷津,谢谢大家。
nan.xiao 用 random forest 做一个分类模型,然后分别 1. 看 variable importance plot 2. 看每个变量的 partial dependence plot glm PCA 之类的,都是局限性比较大的方法了,对你的数据可能合适也可能不合适。
51133001114 1.我觉得你可以看一下多元回归分析中的判别分析中的逐步判别,找一些关于逐步判别知识讲的具体点的书。因为你这里只有该用户续不续签的数据,而不是关于某些地方某几年某分公司的续签率,所以你用逐步回归比较好,找出判断该用户续签还是不续签的判断指标。 2.如果你把数据按三十个指标分类,计算出30个指标都一样的那一类的续签率,即那一类中续签的人数除以总签的人数,这样你才用回归分析比较合适吧。
cwjl11 回复 第5楼 的 51133001114:谢谢您的建议。 我今天又想了下,如果我也需要从地区,行业去分析公司的续签率呢。需要用到哪些分析技术呢? 还有就是我是否需要考虑时间的维度,比如我将用户都按照注册时间算起,计算每个用户注册一个月内这三十个指标,1-2个月,2-3个月,3-4个月。。也就是在时间序列上怎么去分析这三十个指标呢? 以上大家提到的主成分分析和多元回归分析中的判别分析中的逐步判别,随机森林等方法我都会去看下。再次感谢大家!