lhduan

  •  
  • 2014年7月18日
  • 注册于 2013年9月23日
  • 直接下载:

    http://pan.baidu.com/s/1jG62bhO

    个人主页:

    http://www.backyardlife.com.cn/duan/

  • 小弟半年前翻译的。本来希望出版,可惜是在线文档,没能出版。现在无私奉献给需要的同学。

    主要是没怎么上过国内的python社区,所以在此灌水,希望大家见谅!

  • 对了,最近想找工作,喜欢数据挖掘,数据分析,深度学习,以前翻译过一本R语言的书(在论坛中发过),还翻译了openCV3-python的文档,由于没时间校正,暂时还没公开。所以我对python,R,opencv,django都有一点了解,希望那位不嫌弃能帮忙推荐,谢谢大家了。虽然是学生物,但还有点学习能力,望大家多多帮忙!

    本人最大的缺点是兴趣太广了,对各种计算机技术都感兴趣,玩过很多,但都是皮毛,现在想找工作,只能徒伤悲了,希望大家别学我!

  • 不好意思,这两天在捣鼓别的,没有上论坛。

    网上有一篇帖子《Beautiful Soup 爬虫抓取百度网盘》,有兴趣的可以看一下。

    但是我觉得这个方法是基于对搜索引擎返回结果的抓取,基本上可以认为是静态网页的抓取,

    并且搜索引擎返回的结果是有限制,所以最终的到的结果应该也是非常少的。

    仔细分析一下百度网盘分享者的主页你会发现它是动态网页,需要浏览器的做JS解析,

    这就为是构建爬虫的最大限制。所以我采用了python+selenium来模拟浏览器对网页

    进行解析,然后再做抓取。这种方法最大的限制就是网速,效率不是很高。

    具体步骤:

    1. 收集google中排名比较靠前的百度共享者的主页(我收集了500多个)

    2. 收集每一个主页中他们的关注,粉丝,并获取他们的信息(主页,共享,关注,粉丝等)

    • 由这些信息构建新的表(更全面的百度网盘用户 baiduyun_users)

    (a) 进入关注页,记录被关注者的主页

    (b) 进入粉丝页

    i. 记录每个粉丝的信息

    ii. 进入每一个粉丝的关注页,记录它们的所有关注页信息

    3. 获取每个用户更加详细的信息,创建新的表。获取时根据分享数目从多到少排序。

    • 社会关系表baiduyun_social

    • 分享文件表baiduyun_files

    小弟纯属班门弄斧,瞎折腾,望高手指教

    数据库下载地址:http://pan.baidu.com/s/1AJP2u

    请使用sqliteman查看:http://pan.baidu.com/s/1ntjYSUd

    数据库中的表baiduyun_social,可能不够全,还需要再修改程序

  • 大家好,相信很多人都在使用百度网盘吧。

    你想知道别人都分享了什么吗?

    想知道那些人的分享最有价值吗?

    还有谁是真正的分享达人吗?

    小弟最近玩爬虫收集到百度网盘近3500人多达37万条分享记录,

    不知哪位数据控想一起玩。

  • 感谢大家的支持,现在已经有几个热心肠的帅哥跟我联系并得到lyx文档了,希望大家不要对我的翻译水平太过嫌弃,希望大家发挥自己的智慧把他修改的"面目全非",哈哈.

    另外非常感谢版主的支持,如果真能按您所想上线Github,让大家一切协作,那肯定会很帅的.

    如果大家不嫌弃,我非常乐意把书稿捐献给统计之都,由大家一起努力出一本好的入门教程,谢谢.

  • 我的邮箱是lhduan@ion.ac.cn

    欢迎大家联系

  • 由于自己水平太过垃圾,尤其是后边部分翻译的比较吃力,再加上对排版研究不多,所以现在这本书总体质量很差,发到这里就是一个目的,希望各位大神一起帮忙修订,做一个开源翻译,每一个愿意修订的都可以得到一份lyx文档,而且你的名字也可以加入到译者行列。

    我现在只想能把这个文档做好,还没考虑过出版,太麻烦了

  • 最近学习R,翻译了一本教程,希望各位大神多多指点!

    A First Course in Statistical Programming with R

    请问版主如何上传附件?

    暂时先放在百度网盘了,欢迎大家下载!

    http://pan.baidu.com/s/15Qj1N