20 天 后

赞,最近也做了几个爬虫玩玩,参考了一些某呼某博的文章,不过感觉都没有这一个全面。学习啦~

    11 天 后

    谢谢,这个比较好用。博主可以讲一下代理吗?爬虫菜鸟,爬过几次网站后,就被封了IP。

      XT-123123 被封ip说明你使用爬虫姿势不对。估计是访问频率过快,毕竟服务器资源有限,写个爬虫一秒千次请求地定点轰炸别人的服务器这种行为太不仗义了

        tctcab 主要是现在刚刚入手爬虫,很多都不知道怎么处理,谢谢楼主提醒。

        tctcab 能否讲一下Curl2r包在windows下的安装?github是讲了在linux下如何安装,windows里试了半天也没安装好。楼主帖子里好像也被略过了,py的例子比较全。谢谢~~~

          SkyFx 命令是

          install.packages("devtools")
          devtools::install_github('badbye/curl2r')

          这是在R里执行的命令。你可能需要先安装devtools

          这种包是不分操作系统的说


          刚刚win10下测试安装成功。

          另外这个包就是这篇文章的作者写的……博客 http://yalei.name/
          github https://github.com/badbye

          试试能不能艾特成功 @yalei

            tctcab 谢谢~安装是搞定了,现在是

            $ curl2r 拷贝进来curl的命令 # 此处不要用双引号括住!

            这句无法运行,这好像不是R的用法?

              SkyFx 我没试过`」 ∠)_不过记得源代码写的意思应该是在terminal里执行
              源代码都在github,仔细看看吧


              另外要在windows下面用terminal的话……试过基于mintty的git for windows 里带的git bash,感觉还不错