大家都知道,简体字集合对繁体字集合并不是一一对应的,而是一对多,也就是说有可能存在几个繁体字的简体都是同一个简体字。
而且,这只是只考虑单字的情况,如果是词组就更复杂了,这个和习惯有关,比如“软件”的繁体一般对应为“軟體”。
怎么才能做出繁体转简体(这个还简单),和简体转繁体(这个比较难)的程序呢?
我所见到,只有微软的Office能非常好的实现这个转化。
但是,那个又不能拿来所用。(除非你c^C c^V,还要编辑器编码配合)
很苦恼[s:15]。
大家有什么好的想法吗?
大家都知道,简体字集合对繁体字集合并不是一一对应的,而是一对多,也就是说有可能存在几个繁体字的简体都是同一个简体字。
而且,这只是只考虑单字的情况,如果是词组就更复杂了,这个和习惯有关,比如“软件”的繁体一般对应为“軟體”。
怎么才能做出繁体转简体(这个还简单),和简体转繁体(这个比较难)的程序呢?
我所见到,只有微软的Office能非常好的实现这个转化。
但是,那个又不能拿来所用。(除非你c^C c^V,还要编辑器编码配合)
很苦恼[s:15]。
大家有什么好的想法吗?
我觉得要求不高的话, 做做内码转换就行了, 再深入一点, 情况就很复杂了.
不过可以看看这个:
http://gerry.lamost.org/blog/?p=603
回复 第2楼 的 nan.xiao:
嗯。
已经很好了。
想想,还是做词库是最可行的解决方案,问题就是怎么做词库。