• R语言
  • 搜房网或安居客的网页上的数据下载的问题

我想用RCurl和XML下载和处理在售二手房的数据(价格/地理位置等)

以徐汇区的为例:

安居客:http://shanghai.anjuke.com/sale/xuhui/

搜房网:http://esf.sh.soufun.com/house-a019/

但是以上两个网站只提供了100页的数据,其余的就没有了。

如何那得全部的数据呢?比如搜房网上徐汇的全部二手房的信息?

如果有条件,带硬盘去两个公司的服务器上拷贝数据。

如果没有上面的条件,并且不知道两个公司提供的其他数据接口的话,只能接受对方目前所提供给客户端的这些接口。用RCurl模拟你的手动翻页动作,翻一页下载一页,直到全部。

楼主去吧

http://search.51job.com/job/47889249,c.html

http://search.51job.com/job/44251153,c.html