yihui 这些口口字符有可能是在GB2312编码下显示不出来,比如《殢人娇》的第一个字。貌似贺铸和无名氏的口口最多。我不知道原始数据是什么编码以及UTF8是不是会好一些。 这数据还有一个小问题,Title和Title2基本上相同,要么就是Title2为空,此时往往是上一首词不完整,最后一句挪到了下一行。 数据再进一步量化一下,也许能做出一篇不错的论文。
yihui [未知用户] 方向上来说,好像没有北风、西风、南风,只有东风。我怎么想起麻将来了,东西南北中发白…… 这“古道西风瘦马”可能是看前人总是打东风都腻了才打出西风来的,还是各朝代的气象条件不一样?…… 话说回来为啥从没听说过什么诗词里出现过南风呢?夏天诗人们都干啥去了?
Ihavenothing [未知用户] 忘了说了,这个csv是我整理后的结果,title是词牌名,title2是词牌正名,因为不知道怎么翻译所以就干脆title和title2了。有的词牌内容丢失了,就标注为“失调名”,这时候词牌正名就是空的,而词的内容也往往不完整。
gaotao [未知用户] 虽然词的格律要求严格,但随机抽样任意组合产词估计还是行,不过品味高的肯定少了. 灵光乍现,想我这种不会作词的人,拿着这个词料库让电脑自己按一个词牌往里面填,说不定都可以成为一个"伪词人".:)
gaotao [未知用户] 哈哈, 我当时就正在想可以按辛弃疾的来填词呢.. 原来现在以前国外的诗歌自动生成现在在中国的各种古典文化也有少进展了.. 宋词应该算好做的...诗就难写了, 文言文就更那个了...
yihui [未知用户] “希望我们的研究,能够弥补我国在诗歌自动生成学术性研究方面的不足”——这种东西开开玩笑还可以,真的当学术研究我怎么想怎么觉得没谱……已经有的诗词都读不完了,不知道有谁会去读自动生成的诗词。不管自动生成的诗词如何漂亮通顺,它们都没有特定的意境和人的情感。