可复现的代码

# 获取 R 包元数据
Sys.setenv(R_CRAN_WEB = "https://mirrors.tuna.tsinghua.edu.cn/CRAN")
# 返回 data.frame
pdb <- tools::CRAN_package_db()

maintainer_db <- subset(
  x = pdb,
  subset = !duplicated(Package) & Maintainer != "ORPHANED",
  select = c("Package", "Maintainer")
) |>
  transform(Maintainer = gsub(pattern = "<.*?>", replacement = "", x = Maintainer)) |> 
  transform(Maintainer = trimws(Maintainer, which = "both", whitespace = "[ \t\r\n]")) |> 
  transform(Maintainer = tolower(Maintainer))

length(unique(maintainer_db$Maintainer))

而根据 Python 官方网站数字 https://pypi.org/,Python 社区开发者超过 55 万人。

由此可见 RStudio 一系列动作,以及未来必定会加大在 Python 和其它语言的支持力度,以引入更大规模的市场。
突然想起来之前发的一个帖子 RStudio 对 Python 的支持程度走向何方,Python 社区的 IDE 开源和商业的有不少了,PyCharm 比较大众,RStudio 也许需要整个全新的开发模式才能撼动其地位。
相对于 VS Studio,VS Code 几乎就是全新的模式。还有一种情况,RStudio 保持现在的规模,在细分市场做好做美,SAS 一直就是,但是现在也需要融资了。

1 年 后

刚好过去 1 年了,我看了下,目前的开发者数量是 10049 人,一年净新增 49 人,增长乏力呀!2022 年 7 月 RStudio 大会上 JJ 宣告要破圈去 Python 社区了,做了很多破圈的工作,公司连名字都改了,我之前的预言对上了 😄

    而 Python 社区开发者当前是 65 万,净新增 10 万人。

    你比较这两个语言的开发者人数主要是想比较什么呢?还有别的指标嘛?大概就是有没有撒可以分析组成成分的指标?我看网络上一些对程序语言的排行,有一不知咋估计出来的类似流行度或者市场份额的指标,大概是 python 占16%,R 占 1.25%,这样看前者大约是后者的13倍。而单看开发者人数,前者是后者的五六十倍。这两个指标的差别,约略可以不靠谱地说明 R 社区一万个开发者就可以保障 R 包开发质量和数量,而 Python 社区新增的十万开发者有一定比例是凑着热度来的。

    R 开发者人数新增少是不是也跟之前有个帖子提到的社区管理者的极权问题有关呢,就是维护 R 包这件事本身被制定了相当多的要求,劝退了不少人。

      yuanfan 你比较这两个语言的开发者人数主要是想比较什么呢?

      二者的规模,Python 社区比 R 社区大的,究竟大到什么程度,有具体数字量化才更有感觉,再看增长前景。

        Cloud2016
        COS 论坛本来的名字是统计之都,统计学、数据科学等词语和工具本身是不沾边的,只不过现在论坛里多数人都在讨论 R(ps 因为回答问题的主力都算是 R 更厉害),所以逐渐变成 R 的主场。对于你这位小闪电来说,理应是不排斥讨论 Python的吧。

        Cloud2016
        先申明一下,以下是在吐一个有点瞎的槽。

        由于统计学的起源是跟数据有关的,所以后续不断发展和完善的统计学思维还是依赖于数据的,那么一旦数据造假或者数据不完善或者数据质量差到极点,再或者没有收集到数据,那么就不分析了么?还是说由于统计学思维是跟数据绑定的,所以也间接跟事物的确定性绑定了么?

        或者说,如果由于对事物的认知也依赖于数据,在样本量较少的情况下,就不去认知了么?

        好像我刚刚吐的槽才更像是来砸场子的……

        Cloud2016

        反正已经吐了很瞎的槽了,再问个问题。

        二者的规模,Python 社区比 R 社区大的,究竟大到什么程度,有具体数字量化才更有感觉,再看增长前景。

        是想在了解二者规模差异的基础上,再看增长前景,还是基于分析增长前景的目的来看下二者开发者人数这个指标,好了解下规模?

        Julia 用户默默按下了 ctrl + w,然后默念:人数又能说明什么,有本事比速度啊

          yuanfan R 开发者人数新增少是不是也跟之前有个帖子提到的社区管理者的极权问题有关呢,就是维护 R 包这件事本身被制定了相当多的要求,劝退了不少人。

          这个可能是个重要原因。我估计 PyPi 的审查力度可能不及 CRAN 的百分之一(我在 NPM 和 Chocolatey 都有一丁点发布包的经验,那里几乎根本就没有一个活人来管,想发包?愿发尽发!)。CRAN 每年都会有不少包被下架。用这里的数据会稍微准确一丁点:https://github.com/cran (下架的包还会保留在这里)或者在 Github 全网搜索 R 包,这样能覆盖到那些不愿、不能或不敢发 CRAN 的包。

          或者干脆搜 Github 上 R 相关项目的数量:

          https://github.com/search?q=language%3AR&type=Repositories&ref=advsearch&l=R
          https://github.com/search?q=language%3APython&type=Repositories&ref=advsearch&l=Python

          Python 大约 230 万,R 26 万。

          用户比例也差不多(200 万对 20 万):

          https://github.com/search?q=language%3AR&type=Users&ref=advsearch&l=R
          https://github.com/search?q=language%3APython&type=Users&ref=advsearch&l=Python

          当然这几个数字都不能确切说明什么问题,简单的数字都是任人打扮的小姑娘,要找到一个相对公平的比较还是挺难的(CRAN 与 PyPi 对比、Github 上的对比,都有各种可能的代表性不足)。

            yihui GitHub上的这个数字可以算是各自在这个平台的影响力。除了 Github 我们知道还有很多平台,比如kaggle stackoverflow 百度指数 谷歌趋势等等,从不同角度,这些平台侧重点不同,也可以看影响力,搜集尽可能多的现有平台上的影响力,可以看出两门语言在各大平台(渠道)的影响力,就相对全面了。