百度云公开分享数据库

lhduan · 2014年4月23日

大家好，相信很多人都在使用百度网盘吧。

你想知道别人都分享了什么吗？

想知道那些人的分享最有价值吗？

还有谁是真正的分享达人吗？

小弟最近玩爬虫收集到百度网盘近3500人多达37万条分享记录，

不知哪位数据控想一起玩。

superdesolator · 2014年4月23日

回复第1楼的 lhduan：想学习方法哦[s:11]

bitting304 · 2014年4月25日

同楼上，楼主是怎么做到的

bitting304 · 2014年4月25日

同楼上，楼主是怎么做到的

tlw1987 · 2014年4月25日

求方法，别卖关子了[s:15]

lhduan · 2014年4月26日

不好意思，这两天在捣鼓别的，没有上论坛。

网上有一篇帖子《Beautiful Soup 爬虫抓取百度网盘》，有兴趣的可以看一下。

但是我觉得这个方法是基于对搜索引擎返回结果的抓取，基本上可以认为是静态网页的抓取，

并且搜索引擎返回的结果是有限制，所以最终的到的结果应该也是非常少的。

仔细分析一下百度网盘分享者的主页你会发现它是动态网页，需要浏览器的做JS解析，

这就为是构建爬虫的最大限制。所以我采用了python+selenium来模拟浏览器对网页

进行解析，然后再做抓取。这种方法最大的限制就是网速，效率不是很高。

具体步骤：

1. 收集google中排名比较靠前的百度共享者的主页（我收集了500多个）

2. 收集每一个主页中他们的关注，粉丝，并获取他们的信息（主页，共享，关注，粉丝等）

• 由这些信息构建新的表（更全面的百度网盘用户 baiduyun_users）

(a) 进入关注页，记录被关注者的主页

(b) 进入粉丝页

i. 记录每个粉丝的信息

ii. 进入每一个粉丝的关注页，记录它们的所有关注页信息

3. 获取每个用户更加详细的信息，创建新的表。获取时根据分享数目从多到少排序。

• 社会关系表baiduyun_social

• 分享文件表baiduyun_files

小弟纯属班门弄斧，瞎折腾，望高手指教

数据库下载地址：http://pan.baidu.com/s/1AJP2u

请使用sqliteman查看：http://pan.baidu.com/s/1ntjYSUd

数据库中的表baiduyun_social，可能不够全，还需要再修改程序

lhduan · 2014年4月26日

lhduan · 2014年4月26日

对了，最近想找工作，喜欢数据挖掘，数据分析，深度学习，以前翻译过一本R语言的书（在论坛中发过），还翻译了openCV3-python的文档，由于没时间校正，暂时还没公开。所以我对python，R，opencv，django都有一点了解，希望那位不嫌弃能帮忙推荐，谢谢大家了。虽然是学生物，但还有点学习能力，望大家多多帮忙！

本人最大的缺点是兴趣太广了，对各种计算机技术都感兴趣，玩过很多，但都是皮毛，现在想找工作，只能徒伤悲了，希望大家别学我！