msjhfu
当前工作目录文件夹dir中有普通PDF文件若干,文件全部为英文。想把这些文件作为语料库:
> dir=DirSource(mode="text") #明确文件所在目录为当前工作目录
> corpus=Corpus(dir,readerControl=list(reader=readPDF(engine=c("xpdf")),language= "en")) #读入dir目录中的文档作为语料库
上面的第一句好像没有问题,但是第二句有问题,我觉得可能问题主要出在readPDF函数这块,请大家帮助,看看该如何修改。多谢大家。
complicated
pdf格式比较复杂,tm原生的函数支持此格式未必好用,笨点的办法不如把pdf转txt,以前用过批量转的软件
msjhfu
可能是此语句的参数设置有问题,也可能是Xpdf的安装有问题?可是看help(readPDF)里对Xpdf的安装貌似也没啥要求和说明呀?
msjhfu
msjhfu
我的Xpdf安装在c盘根目录:c:\xpdf文件夹里面。文件xpdfrc直接放在xpdf文件夹下。
msjhfu
R的工作目录dir并不是c:\xpdf
msjhfu
[未知用户]
谢谢。准备按照你说的思路,另行寻找办法。