lyxmoo 回复 第1楼 的 yoyup: 看你的原始数据是什么。 这么说吧,可能不适合你的情况,互联网上的数据中,比如用户点击请求,如果从电信通道全抓过来后,最少丢弃95%, 因为很难分清哪些是用户点击,哪些是网页发起。
yoyup 回复 第4楼 的 lyxmoo:感谢版主回复。我是对用户需求做预测,预测的时候首先要对历史数据进行预处理,比如滤掉坏点,补齐缺失的点。比如对单个用户数据规模是10000的话,预处理的时候肯定有一部分的值要被改变,在滤掉坏点的时候采用滤波的形式,让坏点处的值被前后相邻数据的均值代替,但是对很多数据这么做的话,预测结果就没有实际意义。我的问题是,这一部分的处理占到百分之多少比较合适?我在处理过程中采用设置阈值的方法将这部分的值控制在百分之5左右,即10000个数据里最多只处理500个。