统计词话（一）

COSeditor

https://cos.name/2011/03/statistics-in-chinese-song-poem-1/

hssnow

呵呵，期待下集

qiushi_wu

[未知用户] 说明宋代文人喜欢抽风，问路和怀旧，数学也不好

皮皮米菲兔

好棒~~~

Ihavenothing

[未知用户] 何出此言啊，呵呵。恐怕“后之视今，亦犹今之视昔”啊。:-)

G_will

Cool!

yihui

[未知用户] 有抽风问路怀旧，这数学不好是从哪儿看出来的？数数只能从一数到十？一笑一枝一点一片十分十年……

cloud_wei

重剑无锋，大巧不工；此文之谓也。

以后喝酒应该让每人根据抽中的高频意境吟诵相应的词句，背不出来则罚酒。

文章名字起得极好，贴切传神又兼具文学味道和统计味道，陶醉+拜服~~~

gaotao

随意一扫,竟发现横着连读也不错(31开始):

风吹今夜依旧
不似多情
十年风月
行人当时谁知
故人寂寞

dengyishuo

你可以用这个程序分析一下范仲淹和辛弃疾词的区别，或者分析一下婉约派和豪放派词的不同之处。也许是更近一步。

yihui

[未知用户] 是不是随机抽样任意组合都很可能成为一首词？宋词和政治题、思想汇报似乎有某种相似性啊 :D

RaielZ

好多風,各種風

yihui

这些口口字符有可能是在GB2312编码下显示不出来，比如《殢人娇》的第一个字。貌似贺铸和无名氏的口口最多。我不知道原始数据是什么编码以及UTF8是不是会好一些。

这数据还有一个小问题，Title和Title2基本上相同，要么就是Title2为空，此时往往是上一首词不完整，最后一句挪到了下一行。

数据再进一步量化一下，也许能做出一篇不错的论文。

yihui

[未知用户] 方向上来说，好像没有北风、西风、南风，只有东风。我怎么想起麻将来了，东西南北中发白……

这“古道西风瘦马”可能是看前人总是打东风都腻了才打出西风来的，还是各朝代的气象条件不一样？……

话说回来为啥从没听说过什么诗词里出现过南风呢？夏天诗人们都干啥去了？

RaielZ

[未知用户] 那個那個，西風有排第八的（or 7th）。。
南風是真的沒什麽印象。可能南風在天熱刮得多，基本沒被察覺到。

Ihavenothing

[未知用户] 忘了说了，这个csv是我整理后的结果，title是词牌名，title2是词牌正名，因为不知道怎么翻译所以就干脆title和title2了。有的词牌内容丢失了，就标注为“失调名”，这时候词牌正名就是空的，而词的内容也往往不完整。

gaotao

[未知用户] 虽然词的格律要求严格,但随机抽样任意组合产词估计还是行,不过品味高的肯定少了.
灵光乍现,想我这种不会作词的人,拿着这个词料库让电脑自己按一个词牌往里面填,说不定都可以成为一个"伪词人".:)

Ihavenothing

[未知用户] 看这个：一种宋词自动生成的遗传算法及其机器实现。

gaotao

[未知用户] 哈哈, 我当时就正在想可以按辛弃疾的来填词呢..
原来现在以前国外的诗歌自动生成现在在中国的各种古典文化也有少进展了..
宋词应该算好做的...诗就难写了, 文言文就更那个了...

yihui

[未知用户] “希望我们的研究，能够弥补我国在诗歌自动生成学术性研究方面的不足”——这种东西开开玩笑还可以，真的当学术研究我怎么想怎么觉得没谱……已经有的诗词都读不完了，不知道有谁会去读自动生成的诗词。不管自动生成的诗词如何漂亮通顺，它们都没有特定的意境和人的情感。