• 新鲜事R语言
  • 诚邀广大R语言、数据可视化爱好者和我们一起搬迁升级谢益辉著作《现代统计图形》

诚邀广大R语言、数据可视化爱好者和我们一起搬迁升级谢益辉著作《现代统计图形》!

    我得作个背景说明。这本书稿我是 2007 年开始写的,到 2011 年彻底掉了链子再也没装回去。那个年代的 R 和现在的 R 基本上是两种不同的语言,而且我花大精力写这本书稿的时候(2007 至 2009)ggplot2 也还在襁褓中,所以这本书主要是在介绍基础 R 图形,而我也经常戏称为《古代统计图形》。读这本书需要一点免疫力,防止沉迷于基础图形那费劲的点线纸笔式的画图方式(一旦知道这种方式之后就容易用这种思维画图,它很灵活但也很琐碎);可以从书稿中看出我当年甚至连篮球场都用点线画出来了,可见沉迷多深。不过有些基础图形的想法还是很有意思的,比如向日葵图:

    par(mar = c(4, 4, 2, .2))
    dat = iris[, 1:2]
    smoothScatter(dat, main = 'Starry Night')
    sunflowerplot(dat, pch = 20, col = 7, seg.col = 7, size = .1, add = TRUE)

    还有脸谱图。还有思想太前卫、超过时代太多以至于至今没流行起来的 GGobi(我读博士期间本该接下这口锅、但最终叛逃开发 knitr 去了)。

      yihui 读这本书需要一点免疫力,防止沉迷于基础图形那费劲的点线纸笔式的画图方式(一旦知道这种方式之后就容易用这种思维画图,它很灵活但也很琐碎);可以从书稿中看出我当年甚至连篮球场都用点线画出来了,可见沉迷多深。

      我觉得关于这一点可以考虑补充和更新计划,主要引入目前比较成熟的 ggplot2 生态和 rgl 生态以及 plotly 为代表的交互图生态(相比较于那年头,现在的叫成熟)

        那个年代的 R 和现在的 R 基本上是两种不同的语言……

        这本书我读起来很受用。可能是因为好古文。

        而且,我没有觉得基础作图很繁琐或过时,它足够应付我们这个学术领域。要说点线纸笔的方式,当初学 R 不就是冲这个来的吗,不然就留在 OriginLab 里了。自从 ggplot2 的某个shiny 插件横空出世之后,我越来越觉得像是在操作 Excel ……

          Cloud2016
          看了 yihui 书稿的一部分,我觉得这书的价值在于去掉具体代码(甚至去掉 R)后剩下的那些信息,比如统计图形如何构成,如何使用统计图形表达统计思想,以及图形审美,即统计图形之“道”。至于用哪个系统画图,则是具体“术”上的选择了,各人完全可以自行决定。我觉得更新 ggplot 的代码使其能运行就够了,似乎不必引入别的元素,因为这毕竟不是一本菜谱式的作图指南,特别不是 ggplot 的作图指南。

          dapengde 我有个想法,可以把 yihui 这本书里用 baseR 做的图用 ggplot 实现一遍,放在 TNT 挑战书里。一来《统计图形》里各种图正好作为挑战的题目;二来也方便一些哥哥(各个---Jonie更新)(就是哥哥,即 ggplot,不用更新-dapengde)作图的发烧友对比和参考,让《统计图形》可吸引更多的读者。

            Liechi 好主意。TNT 一书目前很单薄,要是这么一整,很快就厚了。你要是有时间有兴趣,先 PR 过来几个试试。

              Liechi 你应该还没看到图库和附录几个章节,这几个章节还在推进中,我刚把数据一章推上去了

                Cloud2016 我看的是之前放出来的那个 pdf 版本,你们新推的这个也在看,不过之前的建议是根据 pdf 版本的内容而来。

                作图系统很重要,只是讲如何作图的书,特别是讲 ggplot 的专门书籍都不少了,且质量很好,如 Hadley 自己写那本和 Winston Chang 那本。所以我觉得没有必要在《统计图形》里着墨太多,造成信息冗余,在《统计图形》第五章 ggplot 跟 grid 和 lattice 作为不同作图系统平权介绍就挺好。第四章图库讲了很多不同的图,但我觉得就算不看具体代码,就看书中对各类统计图形的介绍和如何用不同的图来表达信息也让人受益的。第六章数据里对如何用图形来传达每个数据集里包含的信息也有很多分析,而不只是说“我们现在来做一个箱线图来看看游戏玩家的得分分布。” 第七章分享了作图时需要考虑的原则,这也是我所谓的“道”的部分。第一章统计图形历史介绍和第三章对图形元素的单独介绍也是少见于市面上的其他作图“工具书”,但却有传播价值的。这些是我觉得重要且是本书特色的地方。

                这是我对《图形统计》的印象,或许跟你或者 yihui 自己的定位不一样,仅仅作为参考。

                  Liechi 我草拟了个“古统新编三步走”的方案:<https://github.com/XiangyunHuang/MSG-Book/issues/14#issuecomment-522218876>

                  其中第二版也就是流行版,可以经删减做出个“洁本”或“干本”:删掉所有术,只论道。最简单的方法就是在 knitr 设置里设成 echo=F,再看看出来的书稿通不通,不通再改。

                  当然,还可以把 base R 代码全换成 tidyverse;还可以往干本里注水,比如把 R 全换成 python,matlab,excel……

                  就当成芭比娃娃,换衣服玩。

                    dapengde
                    可能会比较困难,yihui 的稿子里有一些讨论里引用了代码,所以 echo = F 的话,可能有碍于流畅阅读。不过,要是有这么本“坐而论道”的书,我肯定是愿意看的。

                    我虽然先前说看重本书去掉代码甚至去掉 R 后的那部分内容,但是我的意思并不是说这书里 R 和代码不重要。套用一句话,统计图形在世间是需要躯体的。这躯体就是 R,而代码是其血肉。换成其他的血肉之躯,如 excel,python 等也可以,不过可能不如 R 这么风姿峻拔。

                    把统计图形的思想用别的躯体表达挺有意思,不过这是个大工程了,属于你说的“开放型,原则上永远不完稿”那种。

                      dapengde 对 PDF 暂不放出,而且编译也不会通过,主要是第五章有很多动图没加入,这些动态图在网页里有最好的显示效果

                      可不可以把traditional device, grid device, ggplot2, plotly, 以及一些 地图类的或其它尽可能多的包都放进去,弄一个大百科全书?