千字文读取字符数量显示错误，中文识别错误？

junfei

对于千字文读取无法显示最终数量报错，代码如下：

download.file(url = 
                "http://dapengde.com/r4rookies/qianziwen.txt",
              destfile = "c:/r4r/qianziwen.txt")
qzw <- readLines('c:/r4r/qianziwen.txt', encoding = 'UTF-8')
class(qzw)
length(qzw)
nchar(qzw)

qzwmerged <- paste(qzw, collapse = '')
qzwmerged <- gsub(' ', '', qzwmerged)
nchar(qzwmerged)
qzwsingle <- strsplit(qzwmerged, '')[[1]]
chardup <- qzwsingle[duplicated(qzwsingle)]
for(i in chardup) print(paste(i, grep(i, qzw, value = T)))

运行结果如下：

> download.file(url = 
+                 "http://dapengde.com/r4rookies/qianziwen.txt",
+               destfile = "c:/r4r/qianziwen.txt")
trying URL 'http://dapengde.com/r4rookies/qianziwen.txt'
Content type 'text/plain' length 2373 bytes
downloaded 2373 bytes
> qzw <- readLines('c:/r4r/qianziwen.txt', encoding = 'UTF-8')
Warning message:
In readLines("c:/r4r/qianziwen.txt", encoding = "UTF-8") :
  incomplete final line found on 'c:/r4r/qianziwen.txt'
> class(qzw)
[1] "character"
> length(qzw)
[1] 125
> nchar(qzw)
Error in nchar(qzw) : invalid multibyte string, element 1
> qzwmerged <- paste(qzw, collapse = '')
> qzwmerged <- gsub(' ', '', qzwmerged)
> nchar(qzwmerged)
[1] 3105
> qzwsingle <- strsplit(qzwmerged, '')[[1]]
> chardup <- qzwsingle[duplicated(qzwsingle)]
> for(i in chardup) print(paste(i, grep(i, qzw, value = T)))
...
[56] "㸸 \xe6\xfd\xc9\xc8Բ�\xe0 \xd2\xf8\xd6\xf2쿻\xcd"             
[57] "㸸 \xcfҸ\xe8�\xc6\xd1\xe7 �ӱ��\xd9\xf5\xfc"                   
[58] "㸸 �պ\xf3\xcb\xc3\xd0\xf8 �\xc0\xec\xeb\u009fA��" 
...

其中千字文的长度运行应该是249，而我这结果确实125， nchar(qzwmerged)结果应该是1000，却不知是什么原因多达3105，for语句循环之后也没有出现中文语句，似乎是识别中文上出现的问题，但是加了UTF-8的编码，也不知是什么原因？还请经验丰富的朋友能告知如何修改？在此先谢谢啦！

yihui

junfei 如楼上所说，这个文件的确不是 UTF-8 编码（ @dapengde 友尽）而是中文 Windows 系统的默认编码（简体中文 GBK 或 GB18030）。读进来转一下就好了：

qzw = readLines('http://dapengde.com/r4rookies/qianziwen.txt')
qzw = iconv(qzw, 'GBK', 'UTF-8')

还有，@dapengde 你的书中竟然有如此这般硬编码的路径 c:/r4r/qianziwen.txt？！还是楼主从你的博客里搬来的代码？

dapengde

junfei 感谢指正。确实是楼上各位说的 qianziwen.txt 文件的编码问题。已经修改和更新。代码不用改，再试试。

yihui tctcab 我认罪。

完全想不起来是啥原因让我代码里写的是 encoding = 'UFT-8' 而文件编码是 ANSI。书稿是 bookdown 写的，照理说这种情况下编译应该出错才对。

最大的可能，就是成书后整理重复文件时，误打死了孙悟空而留下了六耳猕猴。

硬编码的路径 c:/r4r/qianziwen.txt 确实是书里用的。这是因为前文在教读者从硬盘的绝对路径读取数据文件。这也是为啥这个例子里在 readLines 之前先多此一举地 download，目的就是反复让读者练习读取本地数据。其实功能上来说直接 qzw <- readLines("http://dapengde.com/r4rookies/qianziwen.txt", encoding = 'UTF-8') 就行了。

这是两年前写书的想法。写完书这两年里，我的想法发生了触及灵魂的变化。如果现在写，我会介绍 rosr 包里整合的相对路径法。

下面 qianziwen.txt 修改编码后，旧代码现在的运行结果。

    download.file(url = 
                    "http://dapengde.com/r4rookies/qianziwen.txt",
                  destfile = "c:/r4r/qianziwen.txt")
    qzw <- readLines('c:/r4r/qianziwen.txt', encoding = 'UTF-8')
    class(qzw)

    ## [1] "character"

    length(qzw)

    ## [1] 249

    nchar(qzw)

    ##   [1] 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9
    ##  [36] 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0
    ##  [71] 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9
    ## [106] 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0
    ## [141] 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9
    ## [176] 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0
    ## [211] 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9 0 9
    ## [246] 0 9 0 9

    qzwmerged <- paste(qzw, collapse = '')
    qzwmerged <- gsub(' ', '', qzwmerged)
    nchar(qzwmerged)

    ## [1] 1000

    qzwsingle <- strsplit(qzwmerged, '')[[1]]
    chardup <- qzwsingle[duplicated(qzwsingle)]
    for(i in chardup) print(paste(i, grep(i, qzw, value = T)))

    ## [1] "发 吊民伐罪 周发殷汤" "发 盖此身发 四大五常"
    ## [1] "义 节义廉退 颠沛匪亏" "义 俊义密勿 多士实宁"
    ## [1] "实 策功茂实 勒碑刻铭" "实 俊义密勿 多士实宁"
    ## [1] "云 云腾致雨 露结为霜" "云 岳宗泰岱 禅主云亭"
    ## [1] "昆 金生丽水 玉出昆冈" "昆 昆池碣石 钜野洞庭"
    ## [1] "戚 欣奏累遣 戚谢欢招" "戚 亲戚故旧 老少异粮"
    ## [1] "洁 女慕贞洁 男效才良" "洁 纨扇圆洁 银烛炜煌"
    ## [1] "并 九州禹迹 百郡秦并" "并 释纷利俗 并皆佳妙"

tctcab

ubuntu下试了一下一样是乱码，但浏览器里可以正常显示，怀疑该文件并不是utf-8编码的说

junfei

dapengde 好的，明白了！谢谢啦！不知R中有什么办法可以看出所需类似文件的编码麽？然后给出对应的编码进行读取。如果以后再碰到其它文件而不知编码，想必也是会出现类似的问题的，或者说新人不知如何应对类似编码问题！我试着在文件属性中查看其编码也只是在河中摸着鱼，抓不到鱼尾巴呀！
yihui tctcab 谢谢两位的指点！果然方法千百种，各位见多识广呀！

tctcab

大鹏快进来挨打

yihui

dapengde 哈哈，完全可以理解。我得承认我自己一样用过 GBK 编码、同样也写过硬编码的路径。大家都是这样走弯路过来的，被坑的次数多了就会撕心裂肺地喊”谁不用 UTF-8 谁友尽“了。

dapengde 采编吗只能是一种辅助手段，因为文件编码不存在完全可靠的自动判断方法。唯一可靠的就是文件的作者明确告知编码。所以要是全世界都用 UTF-8，我们就没那么多事儿了，程序猿们每年都可以多放三个月假。

dapengde

junfei 包治百病。可以用 stringi 包的 stri_enc_detect()函数或 readr 包的 guess_encoding() 函数。以先前那个该判死刑的 ANSI 编码文件为例：

    stringi::stri_enc_detect('c:/r4r/qianziwen.txt')

    ## [[1]]
    ##      Encoding Language Confidence
    ## 1       UTF-8                0.15
    ## 2  ISO-8859-1       en       0.15
    ## 3  ISO-8859-2       hu       0.15
    ## 4  ISO-8859-9       tr       0.15
    ## 5    UTF-16BE                0.10
    ## 6    UTF-16LE                0.10
    ## 7   Shift_JIS       ja       0.10
    ## 8     GB18030       zh       0.10
    ## 9      EUC-JP       ja       0.10
    ## 10     EUC-KR       ko       0.10
    ## 11       Big5       zh       0.10

嗯，这个结果貌似有误。换一个。

    readr::guess_encoding('c:/r4r/qianziwen.txt')

    ## # A tibble: 4 x 2
    ##   encoding confidence
    ##   <chr>         <dbl>
    ## 1 GB18030        0.78
    ## 2 EUC-KR         0.63
    ## 3 EUC-JP         0.39
    ## 4 Big5           0.27

这个靠谱。所以可以用下面的语句自动判断编码读取：

    enc <- readr::guess_encoding('c:/r4r/qianziwen.txt')$encoding[1]
    qianziwen <- 'c:/r4r/qianziwen.txt'
    qzw <- readLines(qianziwen, encoding = enc)
    qzw[1]

    ## [1] "天地玄黄 宇宙洪荒"

junfei

dapengde
好的，明白了，谢谢！这是能够判断txt文本格式的包，在读取中华字经时发现官网上是PDF版本的格式，对于PDF格式文本不知有什么样的包适合读取文本格式的？在实践时发现PDF和word格式的文本均不能进行读取？不知是不是不能对此进行读取呢？还是有其他的高招呢？

dapengde

yihui 多放三个月假太乐观了，万一是裁猿 25% 呢……

dapengde

junfei 别人怎么做我不知道，我的高招就是：全选，复制，粘贴到记事本。存成 txt，再用 R 处理。

junfei

dapengde
原来是七十二变呀！厉害厉害！谢谢！要是能够批量查询PDF中的字符（中文或者英文字符），想必写论文又能多一大助力呀~