yihui 回复 第163楼 的 guyancanyun:可以找一下是否有id重复的嘛,不过即使有重复,影响应该也是微乎其微 回复 第164楼 的 opps:你要是没事干可以试试看有没有办法比0.03更低……
Tuzi 回复 第167楼 的 temp: 对每个teat.txt中的USER_B,基于在train.txt中被cli+msg和rec的比值排序就可以到0.22。在这里写出来没有别的意思,希望阁下都能把精力放在进一步提高上。
windwail 回复 第171楼 的 temp:我打个比方来说这个问题 问:明年联盟最高的中国球员会是谁? 答:姚明 问:为什么? 答:去年也是,前年也是,还有大前年也是,再往前几年都是 问:那半人马星α星系最高的球员是谁? 答:没有提供关于星系的信息
fanbaolei 请问楼主:系统将B推荐给A并且A对B有了click或msg后,系统还会继续向A推荐该B吗?如果会,在test中rec_times是否包含click或msg后系统又向该用户推荐的次数?
fanbaolei 回复 第175楼 的 bootstrap:在test中rec_times是否包含click或msg后系统又向该用户推荐的次数? 这一问我没法从数据中知道。求解释,这对建模很关键。。。。。。
bootstrap 回复 第176楼 的 fanbaolei:你在训练集中切一部分出来做测试集就行了。真正的测试集和训练集都是从同一个大数据集中切出来的,各种特性都相似。所以你对测试集中的任何疑问都可以通过分析手中的训练集得到解答
fanbaolei 回复 第177楼 的 bootstrap:这个貌似是自己可以定义的。。。在出题时想让rec_times包含click或msg后系统又向该用户推荐的次数就可以让它包含,不想包含就不包含。。。这个我是无法知道,可能我太笨了。。。[s:12]
fanbaolei 回复 第179楼 的 bootstrap:那这样的话,test中包含的完全只是系统偏好,完全没有用户的偏好在里面。。。如果说不包含的话,还说的过去。。。唉,我的思路可能陷入了死胡同。。。