liu3zhen 辛苦了!我看您回帖时间已经是半夜 12 点多(而且还是周末),不知是否能代表生物领域科研人员的生活常态。
非常佩服您这种作为基础研究人员一肩担起万古愁的意志。我曾在不同场合表达过,平均而言,我个人对从事自然科学工作者的佩服程度比社会科学工作者高许多倍(这是我的偏见)。可能多数自然科学工作者都是默默无闻的,但你们的研究才是社会进步最坚实的基础。
回到技术问题上来。我大概可以理解我的 bookdown 对你们有什么用处,也很高兴你们在用它。我这大半年来在做另一个项目,叫 blogdown,它更适合管理零碎不成系统的 R Markdown 文件。bookdown 更好的应用场合是一个主题明确的项目,比如书籍(每一章对应一个 Rmd 文件);而 blogdown 就比较随意了,它是针对基于 R Markdown 建设网站而设计的,用户可以写一写比较随意的 Rmd 文档,比如哪天想到一个分析,就新开一个 Rmd 文件写上两段。在自然科学领域我听说有实验室记事本(Lab notebook)的工作方式,大概是用日志记录当天做了些什么实验有什么结果和发现。我觉得你们也可以尝试一下 blogdown,它可能更适合你们的日常工作。等一个项目相对比较成熟、到了做总结的阶段之后,可以再用 bookdown 来汇总过去做过的关键性分析报告,编成一本书或项目报告。
我作为一个 R 用户,听到别的社区以及客户对 R 的一个成见是 R 无法处理大数据。RStudio 这两年做了非常多的大数据相关项目,例如 sparklyr / dbplyr 等。我对处理大型数据这方面不是很在行,只有一点微薄的数据库基础,所以我想了解一下,既然你们的数据都是那么大数量级,我怀疑你们肯定不会直接第一步就上 R 去处理,那么您可否谈谈从原始数据到 R 能处理的数据这个过程大致是有些怎样的处理。方便的话,您可以给个例子,比如原始数据什么量级,中间经过怎样的处理,最后到达 R 里面是什么量级,计算需要怎样的硬件环境,耗时通常在什么量级(小时、天、月?),等等。
还有一个纯外行问题:我突然想起来最近奥马哈的日本甲壳虫泛滥,这货在美国没有天敌,所以很难杀。我们的好多树叶和花草都被这货给吃光了。您的研究方向是植物如何抵抗病原菌,不知道有没有涉及到如何让植物抵抗这种外来生物的入侵的研究。我不想在菜园子里打药,实在拿它们没办法,我种的樱桃树都被它们完全吃秃了。