fenguoerbian
换句话说如今也有不少并不明白统计原理而是拿着锤子蒙头敲钉子的事情。
实不相瞒,其实我就是其中之一。我已经是工作近十年的老牛马了,但职业路线既不是领域专家,也不是技术大佬,多数时候确实就是在对工具并不完全了解的情况下直接上手用,好比我之前学习用 echarts4r/DT 来绘图制表,但我也不敢说对它们有多了解,甚至用少了会忘记,最近用都是回坛子里翻以前写的文章,现在 AI 浪潮兴起,又是一大波工具端到我面前来,我也只能说尽量在用的时候用好,而不是被工具牵着走。
我来汇报一下前面许下的承诺吧。后来我是这么干的,首先看了下历年汇总数据,看看每年的数据总量、各风险等级占比,结合业务上的常识缩小了时间范围;接着就是把梳理出来的特征先筛一轮,离散型用卡方检验、连续型用单因素方差分析,做卡方检验的时候确实会出现某特征某类别为0的情况,我试了合并以及全都+5的方式;最后用 ordinalNet 包建立一个基础的有序多分类模型然后转换评分卡。整个过程中大多数代码都是依靠 AI 帮忙写的,因为我之前没接触过有序多分类,所以选择用哪个包也是让 AI 列举出各个包的优势劣势然后再多轮问答中选择了一个。
最后的最后,由于原始数据本身是极端不平衡的,看混淆矩阵的效果也十分一言难尽,我问了下 AI 模型系数如何解读,它告诉我正的系数代表倾向于把高风险区分出来,负的系数代表倾向于把低风险区分出来,而我最后搞出来的结果全都是负的系数,也就是说根本就没有找到什么特征能把高风险区分出来,所以只能把结果整理好反馈给用户,然后老老实实承认自己水平实在有限。