刚刚涉水, 这两个星期在搞web个性化推荐这块,过程略嫌有趣而艰辛,一个人学习好苦比呢~~!python,R,概率论线性代数等数学基础知识大致是整个学习元素了~!
url处理这块, 我想把它们hash成pageId,以便后续挖掘工作得到的数据源格式为{uid,{pageId}},如果自定义实现自己对字符串这块的解析和映射并不熟悉,没能去尝试,用数据库听说数据库内部hash算法可以自动处理成pageId,虽说欲速则不达但很抱歉时间仓促,,自己边弄变请教学习了~!PS. 网络下载的web日志预处理后的数据自己处理成用户页面矩阵后矩阵太稀疏,直接运用聚类或者关联算法很难有结果,所以矩阵分解或许奏效~~!有人能提供一个比较好的实验数据集~!我先自己构造一个了~! 谢谢谢谢 ~! 能给出一个对的方向,提点意见也不胜感激了~!