bootstrap 回复 第38楼 的 eeee:首先,你计算rec次数的方式是不对的,你重复计算了clikc/msg,请仔细一点,这种问题可以自己解决的。。。另外请仔细看题,正确理解labels每一行的含义,我们有详细的叙述。
ForeverDream 回复 第40楼 的 bootstrap:请看清问题是“profile中的这两列都是33和3301,是不是表示这两列的数据是不提供的了?”,请你看了profile的文件再回答这个问题好吗?谢谢。
chengwh567 我遇到了楼上eee一样的问题,还请楼主一定给出个解答。我把题目看了不下三遍,本来已经打算开始写程序,突然发现一个输出的问题,按照youranks.txt的第一项94 479 400...这里总共有763项,而数据说明中多次说输出是按照test.txt中的A和B的顺序来的,但是发现test.txt中的第一个A(96)只有542项,要知道542!=763的,这是我不知道为什么的第一点! 第二点是你说这又是根据train.txt按照A和B排序得到的,于是我对train.txt进行了排序,发现有1190项,也是不等于yourranks.txt第一项的763项,这我就疑惑了,你这个yourrank的763是哪些人,是推荐给96的那542个人呢?还是推荐给2的1190个人呢?或者又是其他的一些人? 还请bootstrap给出一个较详细的解答,写的数据说明实在是有很多的不清晰的地方,有时又出现几个错别字,真是有点花时间上去理清头绪~~~
bootstrap 回复 第53楼 的 LPAI:一个人会多次推荐,test第三列REC_TIMES是推荐次数,与train中第三列ROUND意义不同。推荐一次叫一个interaction。由于时间窗口的截取问题,这样折算出的总数会略高于5,509,312 这个量对建模是无关紧要的,不必纠结,搞清楚数据结构就行了
bootstrap 回复 第54楼 的 chengwh567:yourranks.txt是一个例子,对应的是train而非test。 请仔细读读几天前我给eee的解答,他看完后已经理解清楚了[s:13] 另外数据说明的错别字请务必指出,周一我们可以修改。 关于数据的含义,为了避免陈述的误解,我们都是通过实例来进行说明的,如果你真的仔细读了说明,应该不会有问题。从你对1190的疑惑来看,没看清我们例子的说明。我们相信关于数据的描述是基本准确的,毕竟现在服务器已经收到超过400次成功提交了。
chengwh567 疑惑我解决了,我通过运行程序验证理解的,但是不是取最高的得分(这里你的意思表述不是很准确),而是把train.txt进行排序,然后剔除相同的相邻两项是可以得到得到的763~! 我知道有很多成功提交,但是别人的成功提交不代表该问题已经表述的很清楚,文档的表达能力还是有待进一步提高,错别字的问题希望作者再通读一遍文章,自己就可以发现~
chengwh567 确实够幸苦!攒一下,应该这样描述:对于被同时推荐给一个人的B,只考虑得分最大的一次(msg=3,click=2,rec=1),其他的被推荐在测试时被剔除不考虑,故而保证了一个人被推荐一次(例如:train.txt<已按照A和B递增排完序>中第一人2总共有1190次被推荐,只考虑得分最大一次,剔除相同的多次推荐故而只剩下763次,大家可自行验证) 这样大家都懂了!~