第一届全国大学生数据挖掘邀请赛答疑帖

回复第160楼的 ddtd：一个月，R、SAS、python、perl、matlab这种脚本语言随便一个都能学到熟练的程度了吧。平时没有具体问题学习语言，现在完全没这个问题

我问下统计profile_m和profile_f信息时候发现个问题。为什么id号最大只有到548394而总共有548395个人？

是不是0.03几的都是牛人！[s:14]

回复第163楼的 guyancanyun：可以找一下是否有id重复的嘛，不过即使有重复，影响应该也是微乎其微

回复第164楼的 opps：你要是没事干可以试试看有没有办法比0.03更低……

回复第107楼的 zaq1xsw2tktk：请教一下什么方法能上0.22? 谢谢!

大家有没有试过不用profile信息, 能够做到多少? 谢谢! 随便做一个SVD大概能做到0.16的样子。

回复第166楼的 temp：这个恐怕不能问吧，得自己摸索。

回复第167楼的 temp：0.16和现在的0.2435差距有点大。。。

回复第167楼的 temp：对每个teat.txt中的USER_B，基于在train.txt中被cli+msg和rec的比值排序就可以到0.22。在这里写出来没有别的意思，希望阁下都能把精力放在进一步提高上。

赞! 这不就是传说中的"popularity"方法? 难道爱情也是大众化的?[s:11]

回复第170楼的 Tuzi：

果然了得

10 temp 0.2322 0.2732 2011-04-13 14:44:28

baseline提高了 :)

回复第171楼的 temp：我打个比方来说这个问题

问：明年联盟最高的中国球员会是谁？

答：姚明

问：为什么？

答：去年也是，前年也是，还有大前年也是，再往前几年都是

问：那半人马星α星系最高的球员是谁？

答：没有提供关于星系的信息

请问楼主：系统将B推荐给A并且A对B有了click或msg后，系统还会继续向A推荐该B吗？如果会，在test中rec_times是否包含click或msg后系统又向该用户推荐的次数？

回复第174楼的 fanbaolei：请自行查证，玩数据挖掘就是要自己把玩数据的方方面面

回复第175楼的 bootstrap：在test中rec_times是否包含click或msg后系统又向该用户推荐的次数？这一问我没法从数据中知道。求解释，这对建模很关键。。。。。。

回复第176楼的 fanbaolei：你在训练集中切一部分出来做测试集就行了。真正的测试集和训练集都是从同一个大数据集中切出来的，各种特性都相似。所以你对测试集中的任何疑问都可以通过分析手中的训练集得到解答

回复第177楼的 bootstrap：这个貌似是自己可以定义的。。。在出题时想让rec_times包含click或msg后系统又向该用户推荐的次数就可以让它包含，不想包含就不包含。。。这个我是无法知道，可能我太笨了。。。[s:12]

回复第178楼的 fanbaolei：包含。。。不用太纠结这些东西的

回复第179楼的 bootstrap：那这样的话，test中包含的完全只是系统偏好，完全没有用户的偏好在里面。。。如果说不包含的话，还说的过去。。。唉，我的思路可能陷入了死胡同。。。

回复第180楼的 fanbaolei：系统现在的算法基本上就是随机推荐