raygod2 先谢谢回答的各位! 最近在处理微博文本的问题,无奈电脑装不上JAVA,只能读取经过分词处理后的文本,问题随之而来 1,分词后的文本应该存成什么格式,才便于我用tm包后续处理? 2,如果是txt格式,是否txt文件中就直接是这个样子? (比如文本只有两句话,分别是“我真的不知道”,“怎么处理比较好”) 我 真的 不 知道 怎么 处理 比较 好 3,对上述格式的文件,为什么我用Corpus(DataframeSource(a))读取后就完全没有中文了?但用Corpus(VectorSource(a))读取后就有中文,可貌似变成按列存储了!?比如我用inspect(a[1])查看,结果就是"我""怎么",而不是想象中的"我""真的""不""知道" 针对上述问题,请大家帮忙
raygod2 看了很多论坛里的问题 都没有这方面的解答和过程 还请各位帮帮忙 另外还有一个问题,强行用DocumentTermMatrix函数读取后,报错提示 警告信息: In is.na(x) : is.na()不适用于类别为'NULL'的非串列或非矢量 请问这又是什么情况?