一个爬网页的练习:看看 R 邮件列表中最热门的讨论是什么
- 已编辑
- 你是说把他仨分成三个彼此独立的站点吗?那倒是容易,而且也快。
- 调整年限后断开连接的情况我还没遇见。一般情况下,用户几分钟没活动时就会自动断开,是为了节省 shinyapps.io 的机时。
- 确实慢,因为加载时要从 https://stat.ethz.ch/ 上读取最新的数据。等哪位把 trivis 弄好吧。此外,authors 统计数据载入得最慢,用处似乎不大,玩两天就删掉得了。
- 已编辑
Jiena 不客气。都是在你们的基础上完成的。这个 shiny 工具我们共同署名好不好?@tctcab @Cloud2016 @yihui
回头我打成个包,便于本地使用。
- 已编辑
r-devel 和 r-help 的历史数据是预先抓好的,只鲜榨最近一个月的数据。cos 目前没法鲜榨,原因是 shinyapps.io 好像不支持 jsonlite 包——这一点我没有找到依据,反正故障现象就是只要用这个包,那么布署到服务器端就出错,虽然本地运行完全没问题。
初次切换 tab 时顿一下,并不是在重新抓取数据。可能是在渲染表格和图片吧,毕竟数据有几十万行。第二次切换就不顿了。把 COS 两万八千条文章全列在一张页面上只需几秒。
我觉得目前速度还可以忍吧。随进度条玩一玩唐诗,经常出现惊艳的随机组合,我有时候甚至希望载入得更慢一点。
不过,既然用户那么在乎速度,我另做了个轻便版,只载入预下载的历史数据,载入时会快一点,并且以 COS 为首页:
travis 自动抓取数据的项目做好了,将 cosx r-help r-dev 的帖子每天更新一次,rchive 这个洛阳铲在线读取:
挖个坑:
《古统》一书的数据实例被我挪走了两个到别的章节,我想添加两个新的实例来补位。看到 MSG-book issues 提到过把这个洛阳铲写进书里,又看到这里邀请给主站投稿,那么来吧!三件事合成一件事来办!写一篇,收进书里,同时给主站投稿。
有人来填这个坑吗?
- 已编辑
这个工具掉链子有一年多了,故障没人提,估计没什么人用,我就懒得修理。最近,由于《现代统计图形(印刷版)》里提到了这个工具(我自己挖的坑,不怪别人),我一咬牙把问题修复了一下,再咬牙做成了个 R 包。
安装
remotes::install_github("pzhaonet/rchive")
运行
两种方式运行。
喜欢敲代码的,在 R 语言环境下运行代码:
rchive::rchive()
喜欢点鼠标的,使用 RStudio 的插件:RStudio - Addins - Rchive
注意事项
初次运行后需要干瞪眼大约 10 秒钟,啥都别点,等待数据从 GitHub 载入。如果你连不上 GitHub 我就没辙了。
GitHub 上的数据是用 Travis 每天自动更新的。所以,如果你今天点击了“Update”按钮,那明天之前就不用点了,点了也没用。