zhangader <p class="area01"><e7><94><98>篓篓<82><83><e7><9c><81></p> <p class="area02"> <e5><85>隆茫<e5>隆陇<9e> <e5><ae><9a>篓篓拢陇<bf> <e7><99><bd>篓娄<93><b6> 篓篓拢陇<bf><e5><ae><81> </p>
miemiekurisu 首先你可能需要搞清楚: 1. 抓取的网页本身是什么编码,一般来说页头都会有一些charset信息 2. 系统默认用什么编码 印象当中windows版的R只支持CP936的代码页, 所有抓取到的文本流都默认ANSI或者GBK 据说是因为win本身不支持unicode. Linux一般都默认Unicode. 我的话一般抓取网页内容都依靠python处理, R以分析python生成的结果文件为主,所以没这方面经验.