新浪微博文本分析初探v0.1
赞图形,顺便求解为啥我的中文词云画出来就是乱码?...伤心。
哇把李舰大哥的精华都应用上了
[未知用户] 弄个舰哥粉丝团神马的...
[未知用户] 是不是因为编码的问题?试试iconv(x,"utf-8","gbk")?
其中x是你要输出的对象。
其中x是你要输出的对象。
认真学习ing
[未知用户] 无论是GBK还是UTF-8都是乱码...只不过前者不可读而后者直接是这种...莫不是跟我把locale设成utf8_en_US有关?
我也想尝试下rweibo,请问下 你是在R版本2.10.1和JDK1.6的环境下操作成功的吗,因为我的R版本为2.15.2 它提示我无法使用rJava;能提供下邮箱么,这样交流起来方便些
[未知用户] 我猜可能是你电脑上没安装java吧。
[未知用户] 说的是JER么。。。
看来对于我们学传播学的帮助很大
res <- web.search.content("泰囧", page = 50, sleepmean = 10,
sleepsd = 1)$Weibo
求助:用这一句搜索内容的时候速度非常非常慢,page=1都要好几分钟才能打开,怎么回事
sleepsd = 1)$Weibo
求助:用这一句搜索内容的时候速度非常非常慢,page=1都要好几分钟才能打开,怎么回事
[未知用户] 这个应该和网络状况有关吧我觉得。有多慢呢?page=1的情况下大概花了多长时间?
> res <- web.search.content("泰囧", page = 10, sleepmean = 10,sleepsd = 1)$Weibo
错误于fromJSON(weibojson) :
CHAR() can only be applied to a 'CHARSXP', not a 'NULL'
错误于fromJSON(weibojson) :
CHAR() can only be applied to a 'CHARSXP', not a 'NULL'
5 天 后
[未知用户] 这个问题遇到多次了,换个机器试试
13 天 后
Rweibo已经抓取成功,res内也包括了我想要的内容,但是在Rwordseg 使用的你的代码处理的时候最终结果都是字和每个字的freq,求指导啊!!但是我在
> require(Rwordseg)
> segmentCN("钓鱼岛是中国的,苍井空是大家的")
[1] "钓鱼岛" "是" "中国" "的" "苍井空" "是" "大家" "的"
这样是没问题的,我对字符型数据的处理似乎有点问题
> require(Rwordseg)
> segmentCN("钓鱼岛是中国的,苍井空是大家的")
[1] "钓鱼岛" "是" "中国" "的" "苍井空" "是" "大家" "的"
这样是没问题的,我对字符型数据的处理似乎有点问题
6 天 后
你好!我在使用words=unlist(lapply(X=res, FUN=segmentCN))之后,words得到的是乱码(感觉像是把中文编码给拆开来了),请问有解决方法吗?
另外,如果楼主方便的话,是否能在编码后面添加简单的注释?谢谢
另外,如果楼主方便的话,是否能在编码后面添加简单的注释?谢谢
LZ辛苦了。请问个问题,我使用words=unlist(lapply(X=res, FUN=segmentCN))之后,得到的结果是乱码(感觉像是中文编码被拆分开来了),请问应该如何解决?
[未知用户] 趴下来的数据本身是正常的吗?还是说分词以后变成乱码了?
[未知用户] 趴下来的数据是正常的,如果直接用segmentCN对趴下来的数据进行分词也是正常的。但是如果用words=unlist(lapply(X=res2, FUN=segmentCN))对数据进行分词,就不正常了。