petboy 2010年1月26日发布 #1 2010年1月26日星期二 07点24分 如题,不知可有达人知道,之前有看到过的印象 但找不到资料了 好像一个读取所有内容的 一个是只读取data.frame的内容的
bjt2010年1月27日发布 #2 2010年1月27日星期三 01点49分 这得看什么网页,一般可以 readLines 到 R ,然后正则表达式处理,最后读成 data.frame 还有一个 RCurl : http://cos.name/bbs/read.php?tid=17816&keyword=RCurl。这个比较推荐,虽然有点复杂,但是终极杀器! [s:11]
lyxmoo2010年1月27日发布 #3 2010年1月27日星期三 05点22分 还可以使用 download.file download.file(reading_url,target_file_name,"wget",mode = "wb",cacheOK = TRUE, quiet=TRUE) 然后得到的是 target_file_name 这个文本文件,再读文本处理就可以了。 没什么直接读处理data.frame的法子吧。
yihui2010年1月27日发布 #4 2010年1月27日星期三 18点51分 用readLines(网址)的时候R会自动下载文件,然后再读。 除了“readLines()+正则表达式+文本处理”这种暴力方法之外,XML包也是个很好的工具,它提供了很强大的标记语言(如HTML/XML)处理的方法,你可以根据网页源码的标签去提取相应的值,比如根据<table>去找数据表,这比正则表达式方便多了。 你可以根据具体目的使用具体的函数,但getNodeSet、(ht/x)mlParse、xmlGetAttr、xmlValue等“底层”函数对你应该有用,这个包里也有一些相对“高层”的函数如readHTMLTable可以直接提取网页中的表格。
bravebird 2010年6月10日发布 #5 2010年6月10日星期四 01点44分 回复 第2楼 的 刘思喆:思喆兄在很久之前写过一段代码,上中彩网抓取双色球的开奖结果[s:11]。我现在正在找这段代码,思喆兄发给我一份吧。
ryusukekenji 2010年6月26日发布 #6 2010年6月26日星期六 17点13分 思喆兄在很久之前写过一段代码,上中彩网抓取双色球的开奖结果。我现在正在找这段代码,思喆兄发给我一份吧。 不晓得刘版主也可否发一份让小弟参考呢? </p>
bjt 这得看什么网页,一般可以 readLines 到 R ,然后正则表达式处理,最后读成 data.frame 还有一个 RCurl : http://cos.name/bbs/read.php?tid=17816&keyword=RCurl。这个比较推荐,虽然有点复杂,但是终极杀器! [s:11]
lyxmoo 还可以使用 download.file download.file(reading_url,target_file_name,"wget",mode = "wb",cacheOK = TRUE, quiet=TRUE) 然后得到的是 target_file_name 这个文本文件,再读文本处理就可以了。 没什么直接读处理data.frame的法子吧。
yihui 用readLines(网址)的时候R会自动下载文件,然后再读。 除了“readLines()+正则表达式+文本处理”这种暴力方法之外,XML包也是个很好的工具,它提供了很强大的标记语言(如HTML/XML)处理的方法,你可以根据网页源码的标签去提取相应的值,比如根据<table>去找数据表,这比正则表达式方便多了。 你可以根据具体目的使用具体的函数,但getNodeSet、(ht/x)mlParse、xmlGetAttr、xmlValue等“底层”函数对你应该有用,这个包里也有一些相对“高层”的函数如readHTMLTable可以直接提取网页中的表格。