如何用R读取web页的数据

petboy · 2010年1月26日

如题，不知可有达人知道，之前有看到过的印象但找不到资料了

好像一个读取所有内容的一个是只读取data.frame的内容的

bjt · 2010年1月27日

这得看什么网页，一般可以 readLines 到 R ，然后正则表达式处理，最后读成 data.frame

还有一个 RCurl ： http://cos.name/bbs/read.php?tid=17816&keyword=RCurl。这个比较推荐，虽然有点复杂，但是终极杀器！ [s:11]

lyxmoo · 2010年1月27日

还可以使用 download.file

download.file(reading_url,target_file_name,"wget",mode = "wb",cacheOK = TRUE, quiet=TRUE)

然后得到的是 target_file_name 这个文本文件，再读文本处理就可以了。

没什么直接读处理data.frame的法子吧。

yihui · 2010年1月27日

用readLines(网址)的时候R会自动下载文件，然后再读。

除了“readLines()+正则表达式+文本处理”这种暴力方法之外，XML包也是个很好的工具，它提供了很强大的标记语言（如HTML/XML）处理的方法，你可以根据网页源码的标签去提取相应的值，比如根据<table>去找数据表，这比正则表达式方便多了。

你可以根据具体目的使用具体的函数，但getNodeSet、(ht/x)mlParse、xmlGetAttr、xmlValue等“底层”函数对你应该有用，这个包里也有一些相对“高层”的函数如readHTMLTable可以直接提取网页中的表格。

bravebird · 2010年6月10日

回复第2楼的刘思喆：思喆兄在很久之前写过一段代码，上中彩网抓取双色球的开奖结果[s:11]。我现在正在找这段代码，思喆兄发给我一份吧。

ryusukekenji · 2010年6月26日

思喆兄在很久之前写过一段代码，上中彩网抓取双色球的开奖结果。我现在正在找这段代码，思喆兄发给我一份吧。

不晓得刘版主也可否发一份让小弟参考呢？
</p>