第一届全国大学生数据挖掘邀请赛答疑帖

bootstrap

回复第61楼的 chengwh567：感谢理解。

对于test和train为何格式不同，我之前考虑了很久，才决定用现在的格式（虽然造成了误解）。很显然，train中包含的信息更加丰富，比如B和C在同一轮推荐给A，结果B获得了click而C没有。如果在后续推荐中，C被再次推荐给A（B未被重复推荐），且获得click。这种情况就说明，B与C相比，B对A更有吸引力。做推荐系统时，这种信息显然是有用的。

在test中仅仅给出B向A推荐的次（REC_TIMES）的原因是：由于test中与A对应的B只出现一次，更易于描述提交文件中每一行元素与候选会员B的对应关系。否则，如你所说，train中第1人共获得1190次推荐，而仅仅包含760余人，对应关系在做文字说明时比较困难，我前后改了几次，都不理想，以最终放弃而作罢。

显然从train可以得到类似于test格式的数据，举例说明如下。假设train中有数据行：

USER_ID_A USER_ID_B ROUND ACTION

A B1 1 rec

A B2 1 rec

A B2 1 click

A B3 1 rec

A B1 2 rec

A B3 2 rec

A B3 2 click

A B3 2 msg

则整合成类似test的格式数据如下（提供的test中去掉了最后一列，需要建模预测）：

USER_ID_A USER_ID_B REC_TIMES ACTION

A B1 2 0

A B2 1 1

A B3 2 2

B1在前2轮均被推荐，因此REC_TIMES=2，但ACTION=0

B2仅在某轮被推荐过一次，获得click，因此REC_TIMES=1，ACTION=1

B3被两次推荐，先后获得click和msg，因此REC_TIMES=2，ACTION=2

需要说明的是，获得click的，在train中必于同一轮内占两行，一行标记rec，一行标记click

获得msg的，在train中必于同一轮内占三行，一行标记rec，一行标记click，一行标记msg。

这是因为，数据是基于推荐进行采集，一位会员点击或发信，对象都一定是系统推荐的。我们在采集数据时，去掉了那些会员通过搜索进行的交友数据。因此有高级action，必有低级action。

当然也有极少数例外（约170例），原因在于，本次数据采集的时间窗口为2010年12月1日—2011年2月28日。某些会员可能是在11月30日晚登录而获得推荐会员列表，却在12月1日凌晨才发生了click/msg，此时标记为rec的记录的时间戳在12月1日之前，因此没有包含在train中，因此只有click/msg，缺少rec。对于这些情况，test中的REC_TIMES一律置成2，因为REC_TIMES的平均值在1.7左右。这种情况很少出现，因此未在题目中进行说明。

如果你把test中第三列累加，会发现略少于信息汇总表中的550万，就是这个原因造成的。精力有限，未作说明，也不大可能影响建模。

bootstrap

回复第61楼的 chengwh567：说实在的，我没看懂你的这个写法，泪奔[s:14]

chengwh567

谢谢楼主再次做了详细的说明，里面涉及到了很多的细节，在需要表示如此多内容和细节的情况下难免会产生疏漏和误解，楼主的幸苦能感受到，上面我讲的是：怎么从train.txt 数据中怎么得出test.txt的程序设计方法，里面也有部分误解：就是对推荐次数的误解，1190不是被推荐的次数，而是信息的条目数，推荐的次数是rec的数目（当然把楼主最后说的情况的2也要加进去）。

要自己测试程序，是需要剔除相同的B的，因为A始终只需要一个B（而不是多次的重复），为了得到这个唯一的B，对程序进行排序后，那么就得先算rec的数目（当然如果不管轮数是不用算的），然后剔除相同，那么B就只会出现一次，这是程序需要的预处理，也是为了测试模型的性能需要

zaq1xsw2tktk

确实id=484394就出现了只有一次click，一次msg，但是没有rec的情况。。

id=502809，2次msg，一次rec，没有click。

开始还以为是msg，之前可以没有rec。。

bootstrap

回复第51楼的 windwail：真乃猛将也，你也超过0.22了

bootstrap

回复第65楼的 zaq1xsw2tktk：我之前侥幸认为很少人能下阁下这样极其仔细地清理数据，因此没有做说明，发现问题有人提问时再回答。关于这个问题我也是比赛数据快发布时才发现的，那时网站人员已经下班，没时间更改了。

bootstrap

回复第65楼的 zaq1xsw2tktk：像id=502809这种情况的确也有，即有msg和rec却没有click，而且这种情况用我上面的时间窗口还不能解释，所以我就绕过去了。也许是数据遗漏造成的。

Ihavenothing

回复第68楼的 bootstrap：

train的第2611752行也是如此，只有click而没有rec，而且这里可能问题更大些，因为两个用户都是男性。这个应该是网站后台记录的问题，难免有错误或遗漏，但比例应该很小。

bootstrap

回复第69楼的 Ihavenothing：的确比例非常低，可以通过这两名用户的其他信息对真实性别进行推断

bootstrap

回复第50楼的 zaq1xsw2tktk：点击前能看到头像（具体规则见字段表说明）、昵称（不提供）、年龄和地区（本数据均来源于同一地区）。此外不包含其他信息。

nan.xiao

我觉得在现实中，click并不能代表什么。一个更贴近事实的模型，click最后应该算在rec里，数据也就相当于一个0-1数据。但是，以NDCG为标准进行评价，认为click含有信息的模型显然将比二元数据的模型得到更高的排名。这时，应该选择更符合现实情况的模型，还是应该选择NDCG更高的模型？

以NDCG为标准导出的基本假设，是否有真实运行经验的依托呢？

windwail

回复第72楼的 nan.xiao：虽然click和msg不同，但click和rec也是不同的，首先得有流量，然后才有转化

本题中NDCG10有不合理的地方，但click和rec还是不能混在一起

以现实情况来说，二元分类才是不符合实际产业评价指标的过度简化，我们可以看到业务报表中可是没有二元指标的，都是以复杂的方式计算得来的，具有实际优化意义的业务指标就是这样，不好直接套用回归或者分类算法

bootstrap

回复第73楼的 windwail：先大赞一下windwail！不知你的算法提升空间如何？我与排名2-3的队伍沟通过，他们认为仍有不小的改进空间。

如windwail所言。另外单纯从数据来看，由click到msg的转化率约为27%，远高于rec到click的转化率，因此把click和rec等同起来，多少是不合适的。

ndcg的选取是个折中的方案，因为只能通过离线方式进行评价，又因为是比赛，所以必须有一个量化的指标来进行评判，所以难免有些偏颇。

关于NDCG与实际情况的符合程度，一个办法是可以在比赛结束后，采用获奖队伍的方法进行在线评测，这是最佳的评估方案，只要计算P(rec->click)和P(click->msg)是否与数据相比有极大提高，即能判定算法的实际价值。

我刚才做了约5万次模拟，在长度为20的序列中，随机放置1个msg，4个click，15个rec，且保证在前10名中至少包含一个click/msg的情况下（否则NDCG@10 = 0），所得NDCG@10在[0.232, 0.0234]之间的排列组合共计144组，所得基本特征如下：

1、前10名中不能包含msg，但前15名中平均包含msg约0.48个

2、前10名中平均包含3个click，前15名中平均包含click约3.53个

因此基于当前最好的结果NDCG@10=0.2336，对应算法给出的前15名中，大致可包含msg/click约略低于4个。考虑到实际的模拟应该基于长度为167的会员集合（中位数），上述估计会略略高估一些，但不会差得很离谱，毕竟NDCG@10仅仅关心排名前10的精度。模拟仅仅想从侧面说明一下NDCG@10在一定意义下的合理之处。

ddtd

请问浏览器对上传有影响么？我用的CHROME 10，上传完毕就显示“请选择文件”，然后就没反应了，不知道是成功了还是失败了？

windwail

回复第74楼的 bootstrap：心中没底，我是调参数调出来的

nan.xiao

你们说得都有些道理，个人不反对细化处理click，也的确只能在完赛后应用到真实环境中才能判断NDCG与实际情况的符合程度。

bootstrap

回复第75楼的 ddtd：经测试无问题。换个浏览器试试？刚才在后台测试新的提交程序，希望能够反馈出提交文件的格式错误信息，你可以再试一试。

bootstrap

回复第76楼的 windwail：你现在最好的0.2336参数在train上的拟合ndcg@10是多少？如果差异不大，那么完全没必要担心推广的性能了。话说复旦的兄弟好猛，又有一位拔得头筹了！你们之间认识么？

ddtd

python的那个计算NDCG的脚本怎么用？对这个实在是不熟悉，不知道什么叫“在配置好python环境后”，是指安装好？

bootstrap

回复第80楼的 ddtd：自己用熟悉的软件写一个吧，定义很清晰。实在不行就按照python 2.6，然后直接运行即可。