nan.xiao 二进制的.doc建议直接寻求其他语言或者工具提供的接口 以OOXML保存的.docx可以直接解开 内容基本上在其中的/word/document.xml 前提是文档比较简单 最好是纯文字 如果文档结构比较复杂 有乱七八糟的东西嵌入其中 解析起来会很麻烦
nan.xiao 那要解决这个问题不仅需要正确读取私有格式 而且还涉及到人工智能了 因为你没法控制他怎么组织简历的结构和内容 可以认为目前最好的方法就是人肉识别 。。。 为了避免这个问题 在线填表投简历的形式应运而生 非结构化数据强制转化成结构化数据 当然这样做非常不利于体现个性 所以其实很多都是结合两者 既填表又传简历
lijian 回复 第5楼 的 littboy:如果是这样建议直接在Excel中使用VBA解决,Word中的文字段落、图片、表格、文本框等全部是对象,可以直接取来用。我以前做这些东西的时候是以一个Access为中心,拿VBA当粘胶,外面连着R、Office家族、SQL Server/MySQL等。当然用R当核心也是可以的,需要绕一下。