通过 pdb <- tools::CRAN_package_db() 获取 CRAN 上每个R包的信息,我想提取每个R包的开发者和贡献者,开发者我用 Maintainer 字段提取,贡献者需要从Author或者Authors@R字段提取,而Author字段就是一段一段的文本,要从文本中识别姓名,并根据文意提取贡献者,我不会做(我知道不少可以正则表达式提取,可还有很多正则无力),所以我就看看Authors@R字段,发现它们是包含 person 类的字符(这个类可以?person查看),需要先 x = eval(parse(text= XX )) 字符串转化为表达式,计算后得到 person 类,再 paste( x$given, x$family ) 提取名字,本以为找到什么捷径了,由于很多人没有按格式书写,上一步计算完并没有得到person类或者根本是乱的,导致此路不通,所以始终免不了在一堆文本中找贡献者名字。


看了一下应该直接Author列就能搞定了:authors@R 列反而好多是NA


  • 名字都用逗号隔开,所以strsplit一下就可以获得名字
  • 偶尔有[aut,dtc,cre]或 <aaa@gmail.com> 这样的字段,也可以直接正则删之。


db <- tools::CRAN_package_db()

db_author <- db$Author
db_author_tidy <- gsub("\\[.*?\\]|<.*?>","",db_author)
db_author_tidy_split <- strsplit(db_author_tidy,",") 

db_author_list <- lapply(db_author_tidy_split,stringr::str_trim)



    tctcab 大部分是这样, Authors@RNA 表示这个R包没有别的贡献者,去掉这些个R包,再根据 Author 字段提取贡献者,清理函数

      cran_packages <- as.data.frame( readRDS( file = 'data/packages.rds' ), stringsAsFactors = FALSE)
    # 干脆下载下来保存到本地  tools::CRAN_package_db() 是在线下载,慢
      # 地址 address 指定的数据集每天都在变
      address <- 'https://cran.r-project.org/web/packages/packages.rds'
      con <- url( address, "rb" )
      cran_packages <- as.data.frame( readRDS( gzcon( con ) ), stringsAsFactors = FALSE)
    (NAmissing <- colnames( cran_packages )[ apply( cran_packages, 2, function( x ) { all( is.na(x) ) } ) ])
    cran_packages <- cran_packages[,setdiff( colnames( cran_packages ), NAmissing) ])
    sub_cran_pkgs <- cran_packages[which(!is.na(cran_packages$`Authors@R`)),]
    sub_cran_pkgs <- sub_cran_pkgs[,c("Package","Maintainer","Author","Authors@R")]
    clean_author2 <- function(x) {
    		x <- gsub("\\[.*?\\]|\\(.*?\\)","",x)
    		x <- gsub("<([^<>]*)>","",x)
    		x <- gsub("\\\n","",x)
    		x <- gsub("(\\\t)|(\\\")|(\\\')|(')","",x)
    		x <- gsub(" +$", "", x)  # 去掉末尾空格
    		x <- gsub("  ","",x)  # 两空格转一个空格
    author_names <- lapply(sub_cran_pkgs$Author, clean_author2)

    比如有这样的情况 (()) 嵌套着来,导致如下错乱的结果,眼力所及先放一个,其他情况防不胜防,正则能力已是捉襟见肘。

    > sub_cran_pkgs[54,]$Author
    [1] "Hiroshi Akima [aut, cph] (Fortran code (TOMS 760, 761, 697 and 433)),\n  Albrecht Gebhardt [aut, cre, cph] (R port (interp* functions), bicubic*\n    functions),\n  Thomas Petzold [ctb, cph] (aspline function),\n  Martin Maechler [ctb, cph] (interp2xyz function + enhancements),\n  YYYY Association for Computing Machinery, Inc. [cph] (covers code from\n    TOMS 760, 761, 697 and 433)"
    > author_names[54]
    [1] "Hiroshi Akima),Albrecht Gebhardt, bicubic*functions),Thomas Petzold,Martin Maechler,YYYY Association for Computing Machinery, Inc."

    yihui 曾说 ?regex 要看八百遍,为之奈何?tctcab 有什么通俗的、方便查询的资料





        tctcab 正则写成那样是因为有不少其他情况,如果你愿意 这样多看些的话。下面仅挑选姓名长度大致合理的区间

