抓取网页数据时，如何确保想要抓的所有数据都抓下来了？

yuanfan

事件原起是酱紫的，某天俺在网络上溜达看到有个县的统计公报里有下面这段话，但是过段时间看又没有了。

社会保障能力稳步提高。2023年机关事业单位退休人员8778人，发放养老待遇7.85亿元；企业单位离退休人员13220人，发放养老待遇3.69亿元；城乡居民养老保险待遇领取人员11.94万人，发放养老待遇2.51亿元

后来我一通搜索，找到了一个名为红黑统计公报库的网站，还有这份公报的原文https://tjgb.hongheiku.com/xjtjgb/xj2020/48602.html，同时发现这个网站还存了很多省市县级统计公报，于是打算抓取这些文本，看看有多少县公布了类似信息。

现在的问题是，我按照下面的方法抓了9千多个网页，但有3千多个没有符合条件的信息，我猜应该是下面写的这种模式太单一，没有覆盖所有情况，但我也没法把剩下3千多个网页逐个戳开看看，所以请问还有没有别的多快好省的办法呢？

# 举个栗子
url<-'https://tjgb.hongheiku.com/xjtjgb/xj2020/56339.html'
# 读取网页源代码
html_lines <- readLines(url, warn = FALSE)

# 使用正则表达式提取文本
content <-
  gsub('<p[^>]*>(.*?)</p>', '\\1', html_lines, perl = TRUE)

# 使用正则表达式匹配含有“养老”或“退休”且包含数字的段落
pattern <- ".*(养老保险|养老待遇|退休).*\\d+.*"
result <- grep(pattern , content, value = TRUE)
result

yuanfan

这种情况https://tjgb.hongheiku.com/xjtjgb/xj2020/56304.html不知道怎么抓取数据，页面上放的不是文本，而是有一个框，框里疑似放的是 PDF 文档，用开发者模式的元素选择器去查看，只能查到单个的汉字，而不能查到段落，因此按一楼的模式无法抓取文本。

CyrusYip

yuanfan 在开发者工具点 Network，然后刷新网页，你会看到请求里面有 PDF 文件，链接是 https://tjgb.hongheiku.com/wp-content/uploads/2024/10/1728310399-20240807164034233.pdf 。

https://tjgb.hongheiku.com/xjtjgb/xj2020/56304.html 这个网页的源代码有上述文件的路径（/wp-content/uploads/2024/10/1728310399-20240807164034233.pdf）。

			<div class="pdfjs-fullscreen"><a href="https://tjgb.hongheiku.com/wp-content/plugins/pdfjs-viewer-shortcode/pdfjs/web/viewer.php?file=/wp-content/uploads/2024/10/1728310399-20240807164034233.pdf&dButton=true&pButton=true&oButton=false&sButton=true#zoom=auto&pagemode=none" >View Fullscreen</a></div><div><iframe width="100%" height="800px" src="https://tjgb.hongheiku.com/wp-content/plugins/pdfjs-viewer-shortcode/pdfjs/web/viewer.php?file=/wp-content/uploads/2024/10/1728310399-20240807164034233.pdf&dButton=true&pButton=true&oButton=false&sButton=true#zoom=auto&pagemode=none" title="Embedded PDF" class="pdfjs-iframe"></iframe></div>

yuanfan

CyrusYip

嗯，果然是 PDF。但是我抓数的本领还很菜，知道是 PDF 了，也拿它没办法。

IRONAnthony

yuanfan

可以尝试这么做：

library(pdftools)

ExtractPDFContent <- function(url) {
  pdfFileName <- tail(strsplit(URL, "/")[[1]], 1)
  destPDFPath <- paste0(getwd(), "/", pdfFileName)
  download.file(URL, destPDFPath, mode="wb")
  pdfContent <- pdf_text(destPDFPath)
  return(pdfContent)
}

URL <- 'https://tjgb.hongheiku.com/wp-content/uploads/2024/10/1728310399-20240807164034233.pdf'
pdfContent <- ExtractPDFContent(URL)

pattern <- ".*(养老保险|养老待遇|退休).*\\d+.*"
result <- grep(pattern , pdfContent, value = TRUE)
result

yuanfan

IRONAnthony

很有用，谢谢小新。