有意思。
小疑问:
“无名氏”是一个人,还是一群人?
还有词牌14 是什么?
轩哥依旧浪漫,依稀让我有种怀古伤今之感呀~可惜这个时节无法抬头仰望星空
太浪漫了~ 不过corplot中的矩阵排序不算是双向聚类吧?

此外,应该把作者的高频词也拿出来啊

加一张按照高频词聚类的图:

[未知用户] 啊,无名氏是一群人,词牌14是所有词牌名失传的集合,已经在原文注明了。:-)
[未知用户] 我自己的理解是双向聚类包含于矩阵排序,仔细想想觉得相关系数矩阵的排序不能算在双向聚类中,因为对称的矩阵只有一个自由变化的维度。
这些概念的界定请lanfeng给个权威的答案吧?
[未知用户] 谢谢怡轩!

那我就再问点细节的。

“无名氏”是算作1377位词人中的一个吗?是他(她)还是辛弃疾(还是他们一起)在最后那个图中画的那个圈?

在做bi-clustering时,是用了 BCBimax() 吗?这个组数怎么选啊?

哎,我问这种问题好像很无聊 。。。好看就行了。。
像周邦彦,秦观大概能排到什么位置~有的人虽然高产,但似乎没听说过他们的代表作。
我是来围观星光图的。看来词人喜欢都有共同的爱好啊,都偏爱为数不多的几个词牌。
[未知用户] 哈哈,细节还是很重要的,谢谢老师指出。无名氏是算在1377人中的,本来我想删掉,但后来一想可以作为一个参考,所以就没动。
几个典型的词牌和作者可以看下面这张图:

白色、绿色和蓝色分别代表无名氏、辛弃疾和苏轼(因为排序的缘故,这三个圆在之前的图中几乎是重合的,我在这里是调整了它们的半径,使得它们能区分开),黄色、红色和紫色分别表示浣溪沙、鹧鸪天和水调歌头。
排序用的是seriation包的seriate()函数(最后的代码中有),它没有指定类数,算法是最大化ME(Measure of Effectiveness)准则,定义为
[latex]M(X) = 1/2 \sum_{i=1}^{n} \sum_{j=1}^{m} x_{i,j}(x_{i,j-1}+x_{i,j+1}+x_{i-1,j}+x_{i+1,j})[/latex]
不过是个NP难度的优化。
[未知用户] 查了一下,周邦彦是186首,在第23位,秦观是90首,第61位。
[未知用户] 若干年后你和cloud_wei都会被标记在宇宙中的某个地方的。:D
[未知用户] 原来是三(群)人一起画的圈,谢谢详细说明。
小轩哥出品的果然是精品啊!
[未知用户] 矩阵排序是可以做双向聚类的,如果用相关矩阵的话得用两个才行。

你的文字太动人了:)
[未知用户] 说你俩吧,我最多好为梁父吟。此外,你的排序算法可以试试TSP的,因为矩阵收尾不能相接,是TSP排序结果的一个缺点;但你的极坐标下成了圆环,和TSP排序思想极为吻合。不过不知计算时间快不。
赞那极坐标星云图~