请教大家有什么比较好的序列聚类算法吗

lesleyc

我的序列比较特殊，虽然是数字表示的，但是每个数字代表了某个内容的Id,所以k均值似乎行不通

序列长度控制在20以内，有几十万条序列

我一点头绪都没有，不是学dm的出身，大家不要bs我。

南田

这个问题也不是很清楚。我们来猜想一下你所说的序列数据，假设：

记录1的序列为 - 12345

记录2的序列为 - 673

。。

你说每个数字代表某个内容的id，设想这是一个超市数据，则 1代表海鲜，2代表蔬菜， 3代表酒类，4-。。。

是否这样？如果是，那么你的数据需要改造一下。首先，找出序列中所有的uniqe值，我们假设有30个。其次，就每一个值建造一个变量，应该有30个。每个记录在每个变量上的取值是0或是1，取决于该记录所拥有的序列情况。至此，你应该已经可以用k均值聚类了(如果没有做过，可以去找一些参考书籍)。

你如果能指出聚类分析的目的是什么？大家也许会更好帮助你。也许我们会发现达到你的目标不应该用聚类分析。

lesleyc

我的序列是用户对网站浏览内容的序列

比如用户浏览了page1,page2,page3...

每个page对应了多个主题

我就把page都转换成相应的主题来进行表示

比如page1:tag11,tag12

page2:tage21,tag22,tag23

page3:tag11,tag31

page跟tag是多对多关系

最终的序列是由tag组成的，我已经把每个序列中的tag都unique了。我这样做的目的是找出用户对哪些tag比较感兴趣，兴趣相似的用户就划到一组去

但是这样势必产生的数据会非常庞大

有什么好一点的思路可以推荐一下吗

南田

我上面讲的适合你的需要: 为每个tag建一个哑变量，然后利用k均值作聚类。如果你嫌tag太多的话，可以考虑用page，效果可能还好一些。因为很多tag高度相关，对聚类来说是多余的。

但是，我的问题仍然存在：你的实际目的是什么？通过聚类分析得到的客户分类如何使用？假设这个项目的目标是改善网站设计，或是建立客户购物推荐系统（如亚马逊），那么聚类就不是正确的思路，你需要关联分析。

lesleyc

我的目的就是建立客户推荐系统。关联分析我同门已经实现了，现在想试试新的方法。

我试过用page，但是page太多了。比如我拿的那个数据吧，将近700万条的浏览序列，其中有将近60万个不同的page，数据显得非常松散，无规律可言。如果换成用tag表示，那么就只有14万多，撇去一些出现次数很少的tag，就只有5万多了。

南田

我古狗了一下，看到这篇文章。地址是

http://articles.e-works.net.cn/oa/Article42868_4.htm

基于聚类的（Cluster-based）协同过滤推荐算法提出了另外一种解决方案。将整个用户空间根据用户的购买习惯和评分特点划分为若干个不同的聚类，从而使得聚类内部用户对项的评分尽可能相似，而不同聚类间用户对商品的评分尽可能不同。根据每个聚类中用户对商品的评分信息生成一个虚拟用户，虚拟用户代表了该聚类中用户对商品的典型评分，将所有虚拟用户对商品的评分作为新的搜索空间，查询当前用户在虚拟用户空间中的最近邻居，产生对应的椎荐结果。相对于原始的用户空间而言，虚拟的用户空间要小得多，因此最近邻查询的效率也高得多，可以有效提高推荐算法的实时响应速度。

聚类分析在数据挖掘领域进行了深入研究。K-means聚类算法是最简单同时也是非常有效的聚类算法。采用K-means聚类算法对整个用户空间进行聚类的主要步骤如下：

1) 随机选择k个用户作为种子节点，将k个用户对项的评分数据作为初始的聚类中心。

2) 对剩余的用户集合，计算每条用户与k个聚类中心的相似性，将每个用户分配到相似性最高的聚类中。

3) 对新生成的聚类，计算聚类中所有用户对项的平均评分，生成新的聚类中。

4) 重复以上2到3步，直到聚类不再发主改变为止。

生成聚类之后，Cluster－based协同过滤推荐算法可以分为如下两步：

1) 虚拟用户集主成：根据不同的聚类生成对应的聚类中心，聚类中心与聚类中其他用户的距离之和最小，代表该聚类中用户对商品的典型评分。将所有的聚类中心作为虚拟的用户集合。

2) 推荐产生：在虚拟的用户集合上使用各种相似牲度量方法搜索当前用户的若干最近邻居，然后根据最近邻居对商品的评分信息产生对应的推荐结果。最近邻搜索和推荐产生的方法跟协同过滤推荐算法类似，在此不再赘述。

南田

补：我个人感觉上面所讲的有一点不是很清楚，“各种相似牲度量方法搜索当前用户的若干最近邻居”。好像这样做需要事先了解这个“当前用户”是谁。如果你的数据库根本不能识别客户（大多数网站都不行，除非是注册客户），就无从决定这个“相似性”。而关联算法则不需要知道你是谁，只根据你的浏览途径决定应该推出的网页内容。

lesleyc

恩，我需要实现的就是不依赖于客户的注册信息来确定客户的聚类。因此只能通过用户的浏览行为。

而作为实验数据的网站是没有评分系统的，因此利用评分来作为聚类依据在我这里也不可行了。

我现在是这么处理的：

用户浏览行为是一个由不同并且唯一的tag组成的，这些tag都排序了。把序列进行两两连配，得到的分数作为序列的相似度，依此来进行聚类，用的k-means方法。

但是这样子似乎不太可行。首先序列一多就无法计算了，太耗内存。然后这种相似度的计算，我自己都觉得有点说不过去，不知道结果会怎样。但是又想不到其他更好的方法。

现在就当在这里了，唉。

南田

能不能说一下序列两两连配得到的“相似”分数是如何计算的？

我不太理解为什么要计算这样一个20万 X 20万（假设你有20万条序列）的矩阵。根据我在上面的转贴，在推荐系统中使用聚类分析的思路是根据客户对项的评分对客户进行分组。你没有评分数据，但可以使用是否浏览每个项这个哑变量。这里，聚类单位是客户，变量是所有项的评分（包括哑变量）。

你的做法好像是一个不同的思路。能不能解释一下其中的逻辑。另外，这样进行聚类如何可以实现根据客户浏览行为进行推荐？

lesleyc

两个序列之间的相似分数我是这么计算的，如果两个序列中有一个相同项，那么我就计其为1分，反之不计分。

比如abcd与cef就计1分。每个序列里面每项都只出现一次，不会重复出现，而且我把序列中各项都排序过了。不考虑其出现的先后次序，仅仅看其是否出现。

相当于分析两个浏览序列的相似度时，仅仅看其共同兴趣有多少。

那么如果有20万条这样的浏览序列，我要对之进行聚类，如果使用k中心法，保守一点看，若我的初始中心选取的不好导致其中一个聚类有10万条序列，在迭代中计算下一个中心时，是否就需要计算一个10w*10w的相似度矩阵呢？

南田

能不能换一个角度。既然你的目的是利用已浏览tag来决定应该推出的tag，而且tag数量远少于序列（5万个tag，20万序列？），不妨找tag之间的相似，而不是序列的相似。换句话说，计算每个tag和其他所有tag的两两相关（每个tag是一个哑变量，所以pearson相关就可以），然后选出相关系数最高的N个tag作为对这个tag的下一步推荐。这样做有两个好处：减少计算量。更重要的是，得到的推荐系统不必依赖客户识别。

lesleyc

恩，我之前的确钻入牛角尖了。这倒是个思路，我试试看。谢咯，呵呵！