事件原起是酱紫的,某天俺在网络上溜达看到有个县的统计公报里有下面这段话,但是过段时间看又没有了。
社会保障能力稳步提高。2023年机关事业单位退休人员8778人,发放养老待遇7.85亿元;企业单位离退休人员13220人,发放养老待遇3.69亿元;城乡居民养老保险待遇领取人员11.94万人,发放养老待遇2.51亿元
后来我一通搜索,找到了一个名为红黑统计公报库的网站,还有这份公报的原文https://tjgb.hongheiku.com/xjtjgb/xj2020/48602.html,同时发现这个网站还存了很多省市县级统计公报,于是打算抓取这些文本,看看有多少县公布了类似信息。
现在的问题是,我按照下面的方法抓了9千多个网页,但有3千多个没有符合条件的信息,我猜应该是下面写的这种模式太单一,没有覆盖所有情况,但我也没法把剩下3千多个网页逐个戳开看看,所以请问还有没有别的多快好省的办法呢?
# 举个栗子
url<-'https://tjgb.hongheiku.com/xjtjgb/xj2020/56339.html'
# 读取网页源代码
html_lines <- readLines(url, warn = FALSE)
# 使用正则表达式提取文本
content <-
gsub('<p[^>]*>(.*?)</p>', '\\1', html_lines, perl = TRUE)
# 使用正则表达式匹配含有“养老”或“退休”且包含数字的段落
pattern <- ".*(养老保险|养老待遇|退休).*\\d+.*"
result <- grep(pattern , content, value = TRUE)
result