中文分词后的微博文本应该存成什么格式才便于tm包后续处理？

raygod2

先谢谢回答的各位！

最近在处理微博文本的问题，无奈电脑装不上JAVA，只能读取经过分词处理后的文本，问题随之而来

1，分词后的文本应该存成什么格式，才便于我用tm包后续处理？

2，如果是txt格式，是否txt文件中就直接是这个样子？

（比如文本只有两句话，分别是“我真的不知道”，“怎么处理比较好”）

我真的不知道

怎么处理比较好

3，对上述格式的文件，为什么我用Corpus(DataframeSource(a))读取后就完全没有中文了？但用Corpus(VectorSource(a))读取后就有中文，可貌似变成按列存储了！？比如我用inspect(a[1])查看，结果就是"我""怎么"，而不是想象中的"我""真的""不""知道"

针对上述问题，请大家帮忙

raygod2

看了很多论坛里的问题都没有这方面的解答和过程还请各位帮帮忙

另外还有一个问题，强行用DocumentTermMatrix函数读取后，报错提示

警告信息：

In is.na(x) : is.na()不适用于类别为'NULL'的非串列或非矢量

请问这又是什么情况？