machine learning for hacker里的代码求助

bigknife

本书第三章做垃圾邮件识别的代码，出现了问题，请教高人看看除了什么问题。

</p>
<p>> spam.path <- file.path("data", "spam")<br />
> get.msg <- function(path)<br />
+ {<br />
+   con <- file(path, open = "rt", encoding = "latin1")<br />
+   text <- readLines(con)<br />
+   # The message always begins after the first full line break<br />
+   msg <- text[seq(which(text == "")[1] + 1, length(text), 1)]<br />
+   close(con)<br />
+   return(paste(msg, collapse = "\n"))<br />
+ }<br />
> spam.docs <- dir(spam.path)<br />
> spam.docs <- spam.docs[which(spam.docs != "cmds")]<br />
> all.spam <- sapply(spam.docs,<br />
+                    function(p) get.msg(file.path(spam.path, p)))<br />
错误于seq.default(which(text == "")[1] + 1, length(text), 1) :<br />
  seq(.)里的(to - from)/by 有错<br />
此外: 警告信息：<br />
1: In readLines(con) :<br />
  输入链结'data/spam/00006.5ab5620d3d7c6c0db76234556a16f6c1'内的输入不对<br />
2: In readLines(con) :<br />
  输入链结'data/spam/00009.027bf6e0b0c4ab34db3ce0ea4bf2edab'内的输入不对<br />
3: In readLines(con) :<br />
  输入链结'data/spam/00035.7ce3307b56dd90453027a6630179282e'内的输入不对<br />
4: In readLines(con) :<br />
  读'data/spam/00035.7ce3307b56dd90453027a6630179282e'时最后一行未遂<br />

文件的路径应该不是问题。错误说是seq里的东西错了，我也没发现是哪里出了错。请高人指点。
</p>

nan.xiao

从 https://github.com/johnmyleswhite/ML_for_Hackers 全新 clone 了一份代码，除了由于 ggplot2 升级带来的绘图语句错误以外，其它无误。

「一定是你打开的方式不对。」 [s:11]

bigknife

回复第2楼的 nan.xiao：我用的链接里的代码，还是同样的问题。在打开数据之前，我也首先setwd设定了路径，

<br />
> head(spam.docs)<br />
[1] "00001.7848dde101aa985090474a91ec93fcf0" "00002.d94f1b97e48ed3b553b3508d116e6a09"<br />
[3] "00003.2ee33bc6eacdb11f38d052c44819ba6c" "00004.eac8de8d759b7e74154f142194282724"<br />
[5] "00005.57696a39d7d84318ce497886896bf90d" "00006.5ab5620d3d7c6c0db76234556a16f6c1"<br />

到这儿应该没啥问题，文件名应该都对，可是在运行最后一句sapply的那一句，就出错了。我头都大。
</p>

nan.xiao

00006.5ab5620d3d7c6c0db76234556a16f6c1

00009.027bf6e0b0c4ab34db3ce0ea4bf2edab

00035.7ce3307b56dd90453027a6630179282e

这三个文件中都存在一些非ASCII字符，不知道数据是哪来的，总之，保存得有问题。

00035.7ce3307b56dd90453027a6630179282e

是韩文邮件，字符集是 ks_c_5601-1987，却是以 ISO-8859 保存的。。。能删就删吧。。。

gujianbo

回复第4楼的肖楠：我的也是楼主这样的问题，求解啊，我都排除了有异常字符的文件，但是工作量实在太大了，有没有什么解决方案啊，我是在windows环境下运行的，就出现这个问题了，你运行过吗，出现过这个问题吗

nan.xiao

回复第5楼的 gujianbo：

抱歉，我没有 Windows，不过至少一年前在 Linux 下测试是正常的。现在好像作者也修复了 ggplot2 升级造成的画图代码失效问题。

如果你买的是中文版的书，可以到微博上 @ 一下译者，或者发个邮件问问，或者既 @ 又发邮件。

lyxmoo

回复第6楼的肖楠：

有个粗暴而又丑陋的办法。执行起来报错巨多，主要就是想将原始的 data 目录中文件用iconv 转换成utf-8

执行完毕后，将 email_classify.R 中的路径参数中 data 改为 iconved, get.msg 中latin1 改成 utf-8

有不嫌麻烦的可以试一下.

</p>
<p>#!/bin/bash</p>
<p>for x in data/*<br />
  do<br />
    if [ -d $x ]<br />
            then<br />
               mj=单引号echo $x | cut -d \/ -f 2单引号<br />
               mkdir -p iconved/$mj<br />
                 for i in $x/*<br />
                    do<br />
                        c=单引号grep "charset=" $i  | cut -d \= -f 2 | sed -e "s/\"//g" | cut -d  \  -f 1单引号<br />
                          if [ $c!="" ]<br />
                            then<br />
                             t=单引号echo $i | cut -d \/ -f 3单引号<br />
                             echo $c $t<br />
                             iconv -f $c -t utf-8 $i -o iconved/$mj/$t<br />
                        fi<br />
                    done<br />
    fi<br />
  done<br />

</p>

vonze21

请问楼主现在这个问题解决了吗？

hsnh

把get.msg函数中的latin1改成native.enc，就可以了。

官方注释

援引自：http://www.oreilly.com/catalog/errataunconfirmed.csp?isbn=0636920018483