重复爬虫时，代理设置

ywh19860616

各位老师，好！我想从网站http://www.cbrc.gov.cn/zhuanti/xzcf/getPcjgXZCFDocListDividePage/shanghai.html?current=爬取数据，发现多次爬之后就会被认为非法攻击这个网页，然后电脑ip被限制，不能访问这个网站。有没有办法可以用伪装浏览器或代理IP什么的解决？。下面是我写的代码：

`
rm(list=ls())
library(rvest)
library(stringr)
library(stringi)

web1 = "http://www.cbrc.gov.cn/zhuanti/xzcf/getPcjgXZCFDocListDividePage/shanghai.html?current="
web2 = list()
web3 = list()
for (i in 1:10){
web2[] = paste(web1,i,sep="")
page = read_html(web2[],encoding="UTF-8")
web3[] = page %>% html_nodes(".bookw3 a") %>% html_attr('href')
}
`
执行上面例子会提示：Error in open.connection(x, "rb") : HTTP error 403.然后这个网页就打不开了。
在这个网站https://blog.csdn.net/tayangdang1058/article/details/81319094看到一个例子，

library(xml2) library(httr) h2<-'http://www.dianping.com/search/keyword/325/0_%E9%85%92%E5%90%A7/p3' session = h2 %>% html_session(add_headers(User-Agent="Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.0 Mobile/14E304 Safari/602.1")) %>% html_nodes("h4")%>%html_text()

不知道如何修改？请各位有经验的老师能否给点提示，谢谢！

tctcab

循环里设置 Sys.sleep(10) 让爬虫10秒爬一次，用爬虫在短时间内制造大量访问别人的服务器很容易把服务器锤烂的……

ywh19860616

tctcab 谢谢您！这个方法可以。这里提的代理IP，您用过吗？

ywh19860616

tctcab 您好！我发现在循环加了Sys.sleep(10)之后，还是会才存在这个问题。
比如我下载完shanghai的后，下载jiangsu的，把地址修改为
http://www.cbrc.gov.cn/zhuanti/xzcf/getPcjgXZCFDocListDividePage/jiangsu.html?current=

然后接着用上面的程序
`
rm(list=ls())
library(rvest)
library(stringr)
library(stringi)
source("G:\\scrapweb.R")

web1 = "http://www.cbrc.gov.cn/zhuanti/xzcf/getPcjgXZCFDocListDividePage/jiangsu.html?current="
web2 = list()
web3 = list()
for (i in 1:19){
web2[] = paste(web1,i,sep="")
page = read_html(web2[],encoding="UTF-8")
web3[] = page %>% html_nodes(".bookw3 a") %>% html_attr('href')
Sys.sleep(10)
}
`
提示错误：Error in open.connection(x, "rb") : HTTP error 403.
^^{IP又被禁止了。}