• 机器学习
  • 数据挖掘邀请赛-一个酱油党的感言

由本论坛举办的第一次数据挖掘竞赛就要落幕了。本人早早的就注册了,却直到最后一刻也没有提交结果,实在惭愧[s:12]

本来我的一个想法是男会员和女会员要分开建模。以男性会员为例,只选择训练集中被记录发信息给女会员有60-600次的男会员(约200个)。msg太少没有信息,太多则信息混乱。然后对这200男的所对应的有msg,click事件的分别用SVM建立200个分类器。

下面的问题是给你一个新的男会员信息,如何选择该用200个分类器中的哪一个或哪几个来对所有女会员进行甄别。这个可以根据其所中意的女会员进行刻画。在训练集中,对有共同感兴趣(msg)的女会员超过比如10个的男会员进行分组(N),最后根据此新男会员的背景和要求来判断他和哪些组相近。从而选择若干对应的分类器对所有女会员进行打分,取和就得每个女会员的评分。分类器打出分,可以按一定的权重累加,选择某个分类器的信心越大,赋给其权重就越大。

哎,也不知道这个算法是否合理。更想知道排名考前的那些队的算法和源代码如何。我倒有个建议,这个活动结束后可以搞一个专版,约请所有入围的队写个小结介绍自己的算法,也算是给大家一个学习的机会。

还有,我知道为了这次活动有很多论坛上的活跃会员如bootstrap, cloud_wei等等付出了大量工作,论坛元老谢老师等也一直给予关注。本人虽然是有硕士学位的博士研究生,在数据挖掘领域却是小学生,根据我过去一年多学习R的体会,在实战中能力提高才会更快。非常感谢各位的努力和付出,希望来年还有类似的活动,来年我一定不再打酱油。[s:11]

支持去参加答辩的同学回来写点收获和感想。[s:11]

这个事情也是我在考虑的。想法非常好,大力支持。本想请bootstrap落实这件事,可是这个期间他实在太辛苦了,于心不忍,不知道cloud_wei是否能在赛后落实,我觉得把每个人的探索过程合集出来会很有意思的。

我也是在比赛中打酱油(那个英文“打酱油”的),不过最近两周比较忙没去打了。我在开赛后几天发现五行R代码就可以过0.21了(当时看见有人说C++几行代码就0.2+,后来发现可能的确如此),后来一直没去考虑改进,鉴于现在比赛还没结束,先不多说。

回复 第3楼 的 谢益辉:如果高手们需要搭把手打打杂,如和队员沟通,整理scripts什么的。本人很乐意帮忙,毕竟估计有人会用python,而我是用python的。还有抛开建模做个性化推荐的本来目的不谈,这个网络行为数据本身也应该可以发掘出不少统计上显著的现象,或许也比较有趣。尽管网络行为随意行很大,但是应该比所谓的调查问卷要可靠很多。而您似乎早就提过对调查问卷数据的不信任或不care.

回复 第4楼 的 ruikoeln:同意,比如我刚开始分析这个背景数据的时候就发现男人和女人在年龄要求上不一样,男人想找比自己小5岁的女人,而女人想找比自己大3岁的男人(就平均值而言),哈哈。

问卷数据是逼着人问出来的,我永远不会觉得这种数据靠谱;相比之下,这批数据的采集没有太多人为干涉,质量应该稍微好一点。有玩头。

回复 第5楼 的 谢益辉:而且交友网站的低龄男比较多,从数据上看90年以后(最小93年)的男样本基本上多女样本一半。这也说明在现实的婚恋市场上,低龄女的竞争优势相比低龄男来说大得多,不需要到交友网站找啊[s:11]

我也终于从数据上相信了一个砖家早就说过的,解决我国目前婚恋难题最好的办法就是姐弟恋~~

回复 第6楼 的 zhuwx:也有专家说的是40岁男找20岁女啊,貌似这两位专家的意见结合起来就完美了呢。。。

啊,等全部结束了我也会写一篇感言~~

PS:从数据集里发现,射手座、摩羯座多剩女...

回复 第3楼 的 谢益辉:我觉得我们只能发个邀请,如果有队伍乐意写自然很nice。不过不想写的话也只能尊重这种“传里不传外”的指导思想了~~

回复 第8楼 的 rainywh269:This is really interesting![s:13]

回复 第9楼 的 cloud_wei:尽量邀请吧,没有强迫的意思。我估计可以挖出不少好玩的事情来。

回复 第8楼 的 rainywh269:我当时也想过星座的事情,但没空做。动机来自于婚恋网站本身,我看到很多地方都有跟星座有关的帖子,于是觉得星座应该是有影响的。

菜鸟最后一天混合的时候有用到年龄~最后一天才发现用户是可以直接看到年龄的~偶去刷新推荐的时候刷不动…一直都是同一组人被推荐~而且里面还有一个长相非常可怕的~导致我直接关了~

厄~有个疑问是这样的~对同一组推荐的~大多一组12个似乎~然后在网页上似乎是6个一组 然后统计发现 后面6个比前面6个获得点击多了去了~一开始觉得很诡异~后来发现是6个6个推荐的~个人是觉得先翻页看看有没张的还可以的~没有就拉倒了~有就忘了第一页的~

花一个月做这个比赛收获很多东西,没有基础所以只能酱油了哈。好在是科大土著所以八号还是想去蹭大家的答辩~

比赛终于结束了,感谢主办方付出的的所有努力,也为所有“对手”喝彩!!~

回复 第14楼 的 lnsight:答辩是8号在科大??

回复 第14楼 的 lnsight:你们做的也很好~

9 Insight 0.2404 0.2809 2011-04-27 16:54:46

膜拜各神牛…希望有机会可以去膜拜神牛

回复 第12楼 的 SiNZeRo:我也因为这比赛注册了世纪佳缘...[s:19] 话说你很有戏啊~踩deadline踩得很惊心动魄吧

菜鸟最后的挣扎…好多模型都没来得及的试着混合~

如果有幸去现象膜拜大牛~一定先感谢国家…在gfw的保护下给我们搭建如此快速的局域网