Weblog预处理过程中 Url如何hash成pageId (利用数据库还是语言层自定义hash函数处理..?)

vipassana

刚刚涉水，这两个星期在搞web个性化推荐这块，过程略嫌有趣而艰辛，一个人学习好苦比呢~~！python，R，概率论线性代数等数学基础知识大致是整个学习元素了~！

url处理这块，我想把它们hash成pageId，以便后续挖掘工作得到的数据源格式为｛uid,{pageId}｝，如果自定义实现自己对字符串这块的解析和映射并不熟悉，没能去尝试，用数据库听说数据库内部hash算法可以自动处理成pageId，虽说欲速则不达但很抱歉时间仓促，，自己边弄变请教学习了~！PS. 网络下载的web日志预处理后的数据自己处理成用户页面矩阵后矩阵太稀疏，直接运用聚类或者关联算法很难有结果，所以矩阵分解或许奏效~~！有人能提供一个比较好的实验数据集~！我先自己构造一个了~！谢谢谢谢 ~！能给出一个对的方向，提点意见也不胜感激了~！