如题,R软件可以直接读取word文件吗?或者用其他的软件读,形成某种数据库形式的文件,然后使用R与该数据库的对接?
R软件可以读取word文件吗
RDOM应该可以,不过我没有直接操作过Word,只用R操作过Excel,用Excel里的VBA操纵Word
和RExcel同胞的Sword可能能搞定。没用过,感兴趣可以试试。
二进制的.doc建议直接寻求其他语言或者工具提供的接口
以OOXML保存的.docx可以直接解开 内容基本上在其中的/word/document.xml 前提是文档比较简单 最好是纯文字 如果文档结构比较复杂 有乱七八糟的东西嵌入其中 解析起来会很麻烦
回复 第4楼 的 nan.xiao:我是听一个HR抱怨在收集简历的时候,一直要把word内容复制到excel中。简历中一般就是表格加图片。
那要解决这个问题不仅需要正确读取私有格式 而且还涉及到人工智能了 因为你没法控制他怎么组织简历的结构和内容 可以认为目前最好的方法就是人肉识别 。。。 为了避免这个问题 在线填表投简历的形式应运而生 非结构化数据强制转化成结构化数据 当然这样做非常不利于体现个性 所以其实很多都是结合两者 既填表又传简历
回复 第5楼 的 littboy:如果是这样建议直接在Excel中使用VBA解决,Word中的文字段落、图片、表格、文本框等全部是对象,可以直接取来用。我以前做这些东西的时候是以一个Access为中心,拿VBA当粘胶,外面连着R、Office家族、SQL Server/MySQL等。当然用R当核心也是可以的,需要绕一下。
回复 第7楼 的 lijian:VBA的角色很重要。
6 年 后
试试hrbrmstr/docxtractr R语言提取 docx文档