直接下载:
http://pan.baidu.com/s/1jG62bhO
个人主页:
http://www.backyardlife.com.cn/duan/
小弟半年前翻译的。本来希望出版,可惜是在线文档,没能出版。现在无私奉献给需要的同学。
主要是没怎么上过国内的python社区,所以在此灌水,希望大家见谅!对了,最近想找工作,喜欢数据挖掘,数据分析,深度学习,以前翻译过一本R语言的书(在论坛中发过),还翻译了openCV3-python的文档,由于没时间校正,暂时还没公开。所以我对python,R,opencv,django都有一点了解,希望那位不嫌弃能帮忙推荐,谢谢大家了。虽然是学生物,但还有点学习能力,望大家多多帮忙!
本人最大的缺点是兴趣太广了,对各种计算机技术都感兴趣,玩过很多,但都是皮毛,现在想找工作,只能徒伤悲了,希望大家别学我!不好意思,这两天在捣鼓别的,没有上论坛。
网上有一篇帖子《Beautiful Soup 爬虫抓取百度网盘》,有兴趣的可以看一下。
但是我觉得这个方法是基于对搜索引擎返回结果的抓取,基本上可以认为是静态网页的抓取,
并且搜索引擎返回的结果是有限制,所以最终的到的结果应该也是非常少的。
仔细分析一下百度网盘分享者的主页你会发现它是动态网页,需要浏览器的做JS解析,
这就为是构建爬虫的最大限制。所以我采用了python+selenium来模拟浏览器对网页
进行解析,然后再做抓取。这种方法最大的限制就是网速,效率不是很高。
具体步骤:
1. 收集google中排名比较靠前的百度共享者的主页(我收集了500多个)2. 收集每一个主页中他们的关注,粉丝,并获取他们的信息(主页,共享,关注,粉丝等)
• 由这些信息构建新的表(更全面的百度网盘用户 baiduyun_users)
(a) 进入关注页,记录被关注者的主页
(b) 进入粉丝页
i. 记录每个粉丝的信息
ii. 进入每一个粉丝的关注页,记录它们的所有关注页信息
3. 获取每个用户更加详细的信息,创建新的表。获取时根据分享数目从多到少排序。
• 社会关系表baiduyun_social
• 分享文件表baiduyun_files
小弟纯属班门弄斧,瞎折腾,望高手指教
数据库下载地址:http://pan.baidu.com/s/1AJP2u
请使用sqliteman查看:http://pan.baidu.com/s/1ntjYSUd
数据库中的表baiduyun_social,可能不够全,还需要再修改程序大家好,相信很多人都在使用百度网盘吧。
你想知道别人都分享了什么吗?
想知道那些人的分享最有价值吗?
还有谁是真正的分享达人吗?
小弟最近玩爬虫收集到百度网盘近3500人多达37万条分享记录,
不知哪位数据控想一起玩。感谢大家的支持,现在已经有几个热心肠的帅哥跟我联系并得到lyx文档了,希望大家不要对我的翻译水平太过嫌弃,希望大家发挥自己的智慧把他修改的"面目全非",哈哈.
另外非常感谢版主的支持,如果真能按您所想上线Github,让大家一切协作,那肯定会很帅的.
如果大家不嫌弃,我非常乐意把书稿捐献给统计之都,由大家一起努力出一本好的入门教程,谢谢.我的邮箱是lhduan@ion.ac.cn
欢迎大家联系由于自己水平太过垃圾,尤其是后边部分翻译的比较吃力,再加上对排版研究不多,所以现在这本书总体质量很差,发到这里就是一个目的,希望各位大神一起帮忙修订,做一个开源翻译,每一个愿意修订的都可以得到一份lyx文档,而且你的名字也可以加入到译者行列。
我现在只想能把这个文档做好,还没考虑过出版,太麻烦了最近学习R,翻译了一本教程,希望各位大神多多指点!
A First Course in Statistical Programming with R
请问版主如何上传附件?
暂时先放在百度网盘了,欢迎大家下载!
http://pan.baidu.com/s/15Qj1N