不好意思,这两天在捣鼓别的,没有上论坛。
网上有一篇帖子《Beautiful Soup 爬虫抓取百度网盘》,有兴趣的可以看一下。
但是我觉得这个方法是基于对搜索引擎返回结果的抓取,基本上可以认为是静态网页的抓取,
并且搜索引擎返回的结果是有限制,所以最终的到的结果应该也是非常少的。
仔细分析一下百度网盘分享者的主页你会发现它是动态网页,需要浏览器的做JS解析,
这就为是构建爬虫的最大限制。所以我采用了python+selenium来模拟浏览器对网页
进行解析,然后再做抓取。这种方法最大的限制就是网速,效率不是很高。
具体步骤:
1. 收集google中排名比较靠前的百度共享者的主页(我收集了500多个)
2. 收集每一个主页中他们的关注,粉丝,并获取他们的信息(主页,共享,关注,粉丝等)
• 由这些信息构建新的表(更全面的百度网盘用户 baiduyun_users)
(a) 进入关注页,记录被关注者的主页
(b) 进入粉丝页
i. 记录每个粉丝的信息
ii. 进入每一个粉丝的关注页,记录它们的所有关注页信息
3. 获取每个用户更加详细的信息,创建新的表。获取时根据分享数目从多到少排序。
• 社会关系表baiduyun_social
• 分享文件表baiduyun_files
小弟纯属班门弄斧,瞎折腾,望高手指教
数据库下载地址:http://pan.baidu.com/s/1AJP2u
请使用sqliteman查看:http://pan.baidu.com/s/1ntjYSUd
数据库中的表baiduyun_social,可能不够全,还需要再修改程序