新浪微博文本分析初探v0.1

COSeditor · 2013年1月13日

https://cos.name/2013/01/analysis-of-weibo/

Cloudly · 2013年1月14日

赞图形，顺便求解为啥我的中文词云画出来就是乱码？...伤心。

tato27 · 2013年1月14日

哇把李舰大哥的精华都应用上了

Cloudly · 2013年1月14日

[未知用户] 弄个舰哥粉丝团神马的...

bigknife · 2013年1月14日

[未知用户] 是不是因为编码的问题？试试iconv(x,"utf-8","gbk")？
其中x是你要输出的对象。

dzw259 · 2013年1月15日

认真学习ing

Cloudly · 2013年1月17日

[未知用户] 无论是GBK还是UTF-8都是乱码...只不过前者不可读而后者直接是这种...莫不是跟我把locale设成utf8_en_US有关？

wyfhdl · 2013年1月17日

我也想尝试下rweibo，请问下你是在R版本2.10.1和JDK1.6的环境下操作成功的吗，因为我的R版本为2.15.2 它提示我无法使用rJava；能提供下邮箱么，这样交流起来方便些

bigknife · 2013年1月19日

[未知用户] 我猜可能是你电脑上没安装java吧。

wyfhdl · 2013年1月21日

[未知用户] 说的是JER么。。。

carlsophia · 2013年1月23日

看来对于我们学传播学的帮助很大

rafferty · 2013年1月25日

res <- web.search.content("泰囧", page = 50, sleepmean = 10,
sleepsd = 1)$Weibo

求助：用这一句搜索内容的时候速度非常非常慢，page=1都要好几分钟才能打开，怎么回事

bigknife · 2013年1月26日

[未知用户] 这个应该和网络状况有关吧我觉得。有多慢呢？page=1的情况下大概花了多长时间？

tato27 · 2013年1月28日

> res <- web.search.content("泰囧", page = 10, sleepmean = 10,sleepsd = 1)$Weibo
错误于fromJSON(weibojson) :
CHAR() can only be applied to a 'CHARSXP', not a 'NULL'

bigknife · 2013年2月2日

[未知用户] 这个问题遇到多次了，换个机器试试

wyfhdl · 2013年2月15日

Rweibo已经抓取成功，res内也包括了我想要的内容，但是在Rwordseg 使用的你的代码处理的时候最终结果都是字和每个字的freq，求指导啊！！但是我在
> require(Rwordseg)
> segmentCN("钓鱼岛是中国的，苍井空是大家的")
[1] "钓鱼岛" "是" "中国" "的" "苍井空" "是" "大家" "的"
这样是没问题的，我对字符型数据的处理似乎有点问题

Drewry · 2013年2月21日

你好！我在使用words=unlist(lapply(X=res, FUN=segmentCN))之后，words得到的是乱码(感觉像是把中文编码给拆开来了)，请问有解决方法吗？
另外，如果楼主方便的话，是否能在编码后面添加简单的注释？谢谢

Drewry · 2013年2月21日

LZ辛苦了。请问个问题，我使用words=unlist(lapply(X=res, FUN=segmentCN))之后，得到的结果是乱码(感觉像是中文编码被拆分开来了)，请问应该如何解决？

bigknife · 2013年2月21日

[未知用户] 趴下来的数据本身是正常的吗？还是说分词以后变成乱码了？

Drewry · 2013年2月23日

[未知用户] 趴下来的数据是正常的，如果直接用segmentCN对趴下来的数据进行分词也是正常的。但是如果用words=unlist(lapply(X=res2, FUN=segmentCN))对数据进行分词，就不正常了。