各位老师,好!我想从网站http://www.cbrc.gov.cn/zhuanti/xzcf/getPcjgXZCFDocListDividePage/shanghai.html?current=爬取数据,发现多次爬之后就会被认为非法攻击这个网页,然后电脑ip被限制,不能访问这个网站。有没有办法可以用伪装浏览器或代理IP什么的解决?。下面是我写的代码:
`
rm(list=ls())
library(rvest)
library(stringr)
library(stringi)
web1 = "http://www.cbrc.gov.cn/zhuanti/xzcf/getPcjgXZCFDocListDividePage/shanghai.html?current="
web2 = list()
web3 = list()
for (i in 1:10){
web2[] = paste(web1,i,sep="")
page = read_html(web2[],encoding="UTF-8")
web3[] = page %>% html_nodes(".bookw3 a") %>% html_attr('href')
}
`
执行上面例子会提示:Error in open.connection(x, "rb") : HTTP error 403.然后这个网页就打不开了。
在这个网站https://blog.csdn.net/tayangdang1058/article/details/81319094看到一个例子,
library(xml2)
library(httr)
h2<-'http://www.dianping.com/search/keyword/325/0_%E9%85%92%E5%90%A7/p3'
session = h2 %>% html_session(add_headers(
User-Agent="Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWebKit/603.1.30 (KHTML, like Gecko) Version/10.0 Mobile/14E304 Safari/602.1")) %>% html_nodes("h4")%>%html_text()
不知道如何修改?请各位有经验的老师能否给点提示,谢谢!