• R语言
  • 关于字符处理,有个比较头疼的问题

大家都知道,简体字集合对繁体字集合并不是一一对应的,而是一对多,也就是说有可能存在几个繁体字的简体都是同一个简体字。

而且,这只是只考虑单字的情况,如果是词组就更复杂了,这个和习惯有关,比如“软件”的繁体一般对应为“軟體”。

怎么才能做出繁体转简体(这个还简单),和简体转繁体(这个比较难)的程序呢?

我所见到,只有微软的Office能非常好的实现这个转化。

但是,那个又不能拿来所用。(除非你c^C c^V,还要编辑器编码配合)

很苦恼[s:15]。

大家有什么好的想法吗?

我觉得要求不高的话, 做做内码转换就行了, 再深入一点, 情况就很复杂了.

不过可以看看这个:

http://gerry.lamost.org/blog/?p=603

回复 第2楼 的 nan.xiao:

嗯。

已经很好了。

想想,还是做词库是最可行的解决方案,问题就是怎么做词库。