• R语言
  • 如何用R读取web页的数据

如题,不知可有达人知道,之前有看到过的印象 但找不到资料了

好像一个读取所有内容的 一个是只读取data.frame的内容的
还可以使用  download.file



download.file(reading_url,target_file_name,"wget",mode = "wb",cacheOK = TRUE, quiet=TRUE)



然后得到的是 target_file_name 这个文本文件,再读文本处理就可以了。



没什么直接读处理data.frame的法子吧。
用readLines(网址)的时候R会自动下载文件,然后再读。



除了“readLines()+正则表达式+文本处理”这种暴力方法之外,XML包也是个很好的工具,它提供了很强大的标记语言(如HTML/XML)处理的方法,你可以根据网页源码的标签去提取相应的值,比如根据<table>去找数据表,这比正则表达式方便多了。



你可以根据具体目的使用具体的函数,但getNodeSet、(ht/x)mlParse、xmlGetAttr、xmlValue等“底层”函数对你应该有用,这个包里也有一些相对“高层”的函数如readHTMLTable可以直接提取网页中的表格。
4 个月 后

回复 第2楼 的 刘思喆:思喆兄在很久之前写过一段代码,上中彩网抓取双色球的开奖结果[s:11]。我现在正在找这段代码,思喆兄发给我一份吧。

17 天 后

思喆兄在很久之前写过一段代码,上中彩网抓取双色球的开奖结果。我现在正在找这段代码,思喆兄发给我一份吧。 


不晓得刘版主也可否发一份让小弟参考呢?
</p>