大家好,相信很多人都在使用百度网盘吧。

你想知道别人都分享了什么吗?

想知道那些人的分享最有价值吗?

还有谁是真正的分享达人吗?

小弟最近玩爬虫收集到百度网盘近3500人多达37万条分享记录,

不知哪位数据控想一起玩。

不好意思,这两天在捣鼓别的,没有上论坛。

网上有一篇帖子《Beautiful Soup 爬虫抓取百度网盘》,有兴趣的可以看一下。

但是我觉得这个方法是基于对搜索引擎返回结果的抓取,基本上可以认为是静态网页的抓取,

并且搜索引擎返回的结果是有限制,所以最终的到的结果应该也是非常少的。

仔细分析一下百度网盘分享者的主页你会发现它是动态网页,需要浏览器的做JS解析,

这就为是构建爬虫的最大限制。所以我采用了python+selenium来模拟浏览器对网页

进行解析,然后再做抓取。这种方法最大的限制就是网速,效率不是很高。

具体步骤:

1. 收集google中排名比较靠前的百度共享者的主页(我收集了500多个)

2. 收集每一个主页中他们的关注,粉丝,并获取他们的信息(主页,共享,关注,粉丝等)

• 由这些信息构建新的表(更全面的百度网盘用户 baiduyun_users)

(a) 进入关注页,记录被关注者的主页

(b) 进入粉丝页

i. 记录每个粉丝的信息

ii. 进入每一个粉丝的关注页,记录它们的所有关注页信息

3. 获取每个用户更加详细的信息,创建新的表。获取时根据分享数目从多到少排序。

• 社会关系表baiduyun_social

• 分享文件表baiduyun_files

小弟纯属班门弄斧,瞎折腾,望高手指教

数据库下载地址:http://pan.baidu.com/s/1AJP2u

请使用sqliteman查看:http://pan.baidu.com/s/1ntjYSUd

数据库中的表baiduyun_social,可能不够全,还需要再修改程序

对了,最近想找工作,喜欢数据挖掘,数据分析,深度学习,以前翻译过一本R语言的书(在论坛中发过),还翻译了openCV3-python的文档,由于没时间校正,暂时还没公开。所以我对python,R,opencv,django都有一点了解,希望那位不嫌弃能帮忙推荐,谢谢大家了。虽然是学生物,但还有点学习能力,望大家多多帮忙!

本人最大的缺点是兴趣太广了,对各种计算机技术都感兴趣,玩过很多,但都是皮毛,现在想找工作,只能徒伤悲了,希望大家别学我!