R 读取中文的乱码怎么解决？

zhangader

zhangader

能具体点吗，我是都中文网页时出现乱码。中文全是乱码非常麻烦。能否给个例子吗/。

renkun-ken

看这里我的回复中介绍了用stringi的编码函数消除乱码。

miemiekurisu

首先你可能需要搞清楚:
1. 抓取的网页本身是什么编码,一般来说页头都会有一些charset信息
2. 系统默认用什么编码
印象当中windows版的R只支持CP936的代码页,
所有抓取到的文本流都默认ANSI或者GBK
据说是因为win本身不支持unicode.
Linux一般都默认Unicode.

我的话一般抓取网页内容都依靠python处理,
R以分析python生成的结果文件为主,所以没这方面经验.