Cloud2016

表 1 不难看出美国 60 年来的人口结构变化。

我最近在思考一个问题,到底什么时候更适合用图形展示数据,而什么时候更适合用表格展示数据。这里并没有“不难看出”。

区域经济方面,改革开放 40 多年,最显著的变化就是城市化,大量人口进城,以互联网技术为基础,围绕吃穿住行、教育发展和休闲娱乐,餐饮外卖行业,新零售行业,房地产行业,出行行业,教育培训行业,以及休闲娱乐行业,互联网横向在各行各业渗透,纵向从一二线城市到三四五线城市下沉。大数据、互联网、人工智能等新技术极大地推动智慧城市规划和建设。「以经济建设为中心,一百年不动摇」必将在下一个四十年为城市发展持续注入动力。这就是当今中国社会最大的因,因果推断技术本质是从因推断果,而不是相反。围绕此核心分析总体概况,从时间(趋势)、空间(地域)两个维度,拆解分析人群、行业变化,相信可以据此理解已经发生的、正在发生的和将要发生的一系列事情,而衡量中国城市化进程最直接的结果指标就是中国城镇化率。

我认真读了一遍,文章题目为《专题地图及其应用》,但更偏向于专题地图的展示应用,分析应用基本都点到即止了。仅我个人读完的感觉,很多地方言辞写的很绝对,比如相信可以xx。我不懂因果推断技术,不知道这项技术的本质应该是从因推断果,但是做数据分析的时候往往是由果(数据表象)来寻找可能的因。这就是当今中国社会什么最大的因呢?中国经济发展起来除了人口红利和很多新兴行业发展带来的红利,也受到了全球化带来的贸易方面的红利,以前中国对美国是有很大的贸易顺差的。探讨经济会是一个复杂许多倍的主题……

前面有一个词“国家经营状态”很奇怪。

而且文章中讨论的方方面面太多了,小结那里竟然还探讨了一下 tidyverse 和 base R 还有 data.table 之间的恩怨情仇,到底是要写一篇大而全,还是仅针对专题地图的小而美呢?

写文章的时候心底里是不是该有一份敬畏心呢,这样才不会被搜集到的越来越多的资料、越来越多的思路和想法裹挟。

最后,建议尽量寻求来源权威可靠的第一手材料,对手头现有的材料有追根溯源和交叉验证的热情。数据操作的过程应满足可重复性的基本要求,以便检查分析过程和结论。度量指标需要围绕专题分析的目标,并结合实际背景选择合适的维度拆解。借助统计工具分析隐藏数据中的深层规律,科学定量地刻画,并将规律用领域语言表达,最后,结合软件工具选用恰当的图形准确呈现,直观定性地表达降低沟通成本,快速形成决策建议,乃至落地推广。

关于寻求来源权威可靠的第一手资料这点,我前段时间正好读到一个这方面的故事。在顾诚的《南明史》序言中,作者记述了他写《李岩质疑》时的过程。在延安整风期间,郭沫若写了一篇《甲申三百年祭》,是关于一位叫李岩的人的史论文章。但作者在广泛查阅了当时任职官员的文集、相关记载、档案和地方志(仅地方志就查了一千篇以上),做了一番相当彻底的资料普查后,并未找到一条可以证明李岩存在的史料。作者发现在明末清初有许多流传广泛的小说中有一些虚构的李岩故事情节,后来清初史家编纂有关“流寇”的书籍时依然真伪莫辨,误采入书,最典型的是康熙年间成书的《明季北略》。而郭沫若在写《甲申三百年祭》时引用最多的正是《明季北略》。

一共三个问题,我按照顺序依次回答:

  1. 就这个表格来说,因为各年各年段的人口已被标准化,标准化的口径每隔十年或几十年可能有所调整,笔者未深究,但总体趋势应不受此调整的影响,这使得各个年龄段的人口数是可以直接对比的,因此,表格横着看就可以了,除了二战刚结束的特殊时期,人口数没有明显的变化,即人口结构没有明显变化。没有放图也是这个原因,后面需要直接用到表格中的数字,因此放表格也是合适的,再放图略显累赘。

    结合来自联合国的背景材料亚太地区人口老龄化联合国老龄化议题,此处,咱也以60岁以上的人算做「老年人」,美国老年人口比例从 1940 年的 10% 左右增加到 2000 年的 15% 左右,60 年时间才增加 5% 左右,真希望中国也能这样。
    过去40年,中国凭借「人口结构红利」快速发展,未来国内人口流动、国际人口迁移(移民)是一种缓解劳动力不足的办法,但这是有国内外条件的,美国通过一战、二战、冷战、海湾战争等等夺取的胜利果实肯定不会轻易被人摘走。《Neyman》 书中言道,耐曼(1894-1981)一生经历过一战、二战、冷战,出生在俄国,长期旅居波兰、英国,最后在美国伯克利,也几乎将世界的统计中心从英国迁移到美国,书中,耐曼坦言从英国离开,除了个人发展的因素外(继续在伦敦大学学院当不了教授,因为只有两个教授名额,已有 R. A. Fisher 和 E. S. Person,教授职位是终身的),美国的开放和包容,对移民的政策让他这个到处漂泊的人有一种归属感,是更大的原因。

个人声明:我无意为美国说好话,书中看到的也未必全为真,希望大家有自己独立的思考和判断,书里过去的美国不代表现在的美国,更不代表未来的美国,文中所言谨代表作者本人此时此刻的观点。

P.S. 此处补充上美国人口年龄结构变化图片,60年才变了这么一点,真的谈不上年龄结构性变化。

  1. 关于题目《专题地图及其应用》,我的考虑是包含专题地图的制作过程,这包含相应的数据搜集、处理、制图、应用等方面,并没有像很多网上资料那样随意抓个数据,调个包,画个图完事,那种材料网上一抓一大把。从数据挖掘出来的结论、规律,符合一系列事件发生的规律,数据是伴生的,因为有那些事件发生,所以有这些数据,有这些数据的结论,数据是帮助我们理解客观世界的,发现客观世界的规律。至于说因果推断技术,由结果推原因,几乎不可能。了解任何一个业务/领域,从时间、空间、人群、行业拆分去分析,这是从某个产品课听来的,是个指导思想,类似九阴真经的总纲,有点务虚,既然是展望就虚一点啰!就专题地图,也是为了看出空间上的变化,比如沿海和内陆,经济发达地区和不发达地区,东西差异,南北差异等等。还可再细分下钻,从州、县、镇越来越精细,进一步发现和刻画差异的程度,横向对比,纵向深挖,供需不平衡的机会点。

    最后,解释一下为什么最核心的是中国城镇化率,人口问题是根本问题,人口的结构性变化(比如年龄结构、性别结构、城乡结构等)影响国势,日本统计局的专题地图上都标识「国势」二字,统计学早期被认为是国势之学,干的是国情调查,就数据分析而言,鱼鳞图应是较早的专题地图,某部剧里面提到汉朝就有了,笔者没考证过,但我国古代确实有鱼鳞图册。另外,国家改革开放是促进人口流动的,促进城市化进程的,衡量的结果指标就是中国城镇化率。

前面有一个词“国家经营状态”很奇怪。

把「国家」一词替换成「公司」就可以理解了,国家统计年鉴和上市公司财报,这一句话关键在金字塔式的指标体系,这在国家和公司之间是可类比的,指标构建的复杂性也是有一定程度上的类比性的。

  1. 关于你这个故事,我没啥可评论的,我不懂历史考证。公司大了后,数据治理常常花费很大的精力,很多人是螺丝钉,上游的上游还有上游,数据收集和探查确实挺重要又挺难的。

    我不是专业人士,仅仅根据自己的阅读体验谈一下自己的看法:

    感觉博主有喜欢把自己了解的东西一股脑的灌输给大家的倾向,求全的倾向主导了这篇文章,如果这篇文章的主旨在于专题地图,那么大可不必展开介绍数据或者作图后体现的结果,或者是数据处理的展开,这是相关专业人士可能感兴趣的内容。作为紧扣主题的内容,讲清楚几个专题怎么作图就行了。喜欢数据解析的可以自己深挖。
    关于tidy,base以及data.table的讨论确实过长,我觉得都可以再开一个短篇了。其实您想表达的观点无非是不需要拘泥于工具,另外要考虑生产环境的重复性和稳定性的问题。但能看出来您对净土拥趸批评 base的不满与不解,但这与主题无关,也是可以几句话带过的,而且这么写容易引起论战或者部分人心里不舒服,从而导致对整个文章的观感下降。换句话说您的部分措辞带有强烈的感情倾向,我觉得这应该是一篇指南性质的文章应该避免的。
    这些仅仅是个人感受,可能是我没读懂的误解。这个文章对于个人学习很有帮助,内容详实,参考资料全面,但内容太多的话,读起来可能对新手有点累,反而是浪费作者的一腔热情,也可以分为几篇来写可能效果更好。

      Cloud2016

      关于题目《专题地图及其应用》,我的考虑是包含专题地图的制作过程,这包含相应的数据搜集、处理、制图、应用等方面,并没有像很多网上资料那样随意抓个数据,调个包,画个图完事,那种材料网上一抓一大把。

      哦,我说怎么明明有个清晰的主题,却一点也没有收着写。看样子,你不仅是要展示冰山,还顺带展示了冰山之下。

      从数据挖掘出来的结论、规律,符合一系列事件发生的规律,数据是伴生的,因为有那些事件发生,所以有这些数据,有这些数据的结论,数据是帮助我们理解客观世界的,发现客观世界的规律。

      同意,不过不仅仅只是发现规律。

      至于说因果推断技术,由结果推原因,几乎不可能。

      好样的,这次你写的是“几乎”,没像上次那样以非黑即白的角度去下个定论说“定西流量,要么正常,要么不正常”。我是真不了解因果推断技术,之前看过几篇主站丁鹏老师写的相关文章,但是后面好几篇都没读懂。如果抛开“因果循环”不谈,在数据分析领域里仅假设因与果是相互独立的,我认为在现实世界里,其实人们建立指标体系往往就是为了监测和评估那个果,随后才会去分析具体原因,公司里做的数据分析往往不像是推断,更像是诊断。

      鱼鳞图应是较早的专题地图,某部剧里面提到汉朝就有了

      撒电视剧?我去围观一下。

      最后,解释一下为什么最核心的是中国城镇化率,人口问题是根本问题,人口的结构性变化(比如年龄结构、性别结构、城乡结构等)影响国势……

      额,造成“人口问题是根本问题”的原因很复杂,这里我先不叨叨了。

      把「国家」一词替换成「公司」就可以理解了

      明白。但是国家和公司哪里好这样类比啊,公司是经营发展,国家是治理发展。基于你的观念是认为写出搭建指标体系的前前后后的过程,以不变应万变;而我的观念是,有些分析不能直接迁移应用到别的场景上,这里我也不多叨叨了。

      关于那个故事,我只是联想到并写出来,倒是没有往公司数据治理方面去想。不过要是往这方面想的话,也正好有个槽点,就是比如建模过程中想到有个特征可能会很有用,然后各种原因导致不得不弃用,也是无奈得很。

        lovebluesky 关于tidy,base以及data.table的讨论确实过长,我觉得都可以再开一个短篇了。其实您想表达的观点无非是不需要拘泥于工具,另外要考虑生产环境的重复性和稳定性的问题。但能看出来您对净土拥趸批评 base的不满与不解,但这与主题无关,也是可以几句话带过的,而且这么写容易引起论战或者部分人心里不舒服,从而导致对整个文章的观感下降。换句话说您的部分措辞带有强烈的感情倾向,我觉得这应该是一篇指南性质的文章应该避免的。

        我当初写这一部分的时候仔细推敲过,为了避免不必要的论战,只是陈述事实,并以 reshape() 变形操作为例详加介绍,若你也能以事实反驳,非常欢迎,建立在就事论事基础上的讨论都欢迎。

        lovebluesky 感觉博主有喜欢把自己了解的东西一股脑的灌输给大家的倾向,求全的倾向主导了这篇文章,如果这篇文章的主旨在于专题地图,那么大可不必展开介绍数据或者作图后体现的结果,或者是数据处理的展开,这是相关专业人士可能感兴趣的内容。作为紧扣主题的内容,讲清楚几个专题怎么作图就行了。喜欢数据解析的可以自己深挖。

        事实上,这不是一篇给新手的实操文章,对新手的价值可能仅仅在于整个空间数据可视化工作流的概览,且以专题地图为例,没有弄简单数据,而是尽力去找真实的数据,尽量贴近真实场景的需求。绘图技术方面,其实本文谈了很多关键的比较难的细节,比较了几个主流的 R 绘图工具,但是画完图还没完,图是帮助传递数据中的信息的,关于图的说明、数据的解读其实做的不太好,不了解美国的一些情况,拿中国的数据解读起来一来可能敏感,二来数据收集不好弄,解读的逻辑链条很难 solid。绘图之前整个探索分析最基础的技术是数据操作,空间数据尤其重在此,数据变形操作和坐标投影只是比较典型而基础的,因此拿来讲。

        lovebluesky 作为紧扣主题的内容,讲清楚几个专题怎么作图就行了。

        术语「专题地图」的含义在开头做了介绍,中文确实很难翻译 Choropleth map,为什么很难呢?据我了解,似乎候选的中文名词太多了,也有可能是我没有搞清楚它们的细微差异,而在文中全部以「专题地图」冠之了,在不少地方,也看到叫「统计地图」的。

        本文就讲了两个例子,一个是癌症死亡率,显然人口相关,如果把它看作衍生指标,按照统计年鉴的指标体系,它显然是属于人口专题的,当然,年鉴里不一定有这么细的指标。「专题地图/统计地图/地区分布图」可以看作是一种特定的图形,所以,你看,我本意不是要多介绍几个年鉴里人口、土地、消费、生产等专题,而是就某一个为例,详加介绍,总结经验,以便读者迁移到其他专题或需要的场景,反复介绍多个专题反而累赘。

        yuanfan 但是国家和公司哪里好这样类比啊,公司是经营发展,国家是治理发展。

        从两次的评论来看,你有把小问题上升到大问题,小范围扩展到大范围的倾向。按照「道」、「术」、「法」、「器」,本文肯定主要还在「器」的层面,「法」略有一点。指标不仅是为了监控,更重要的是为了过程和指导,往往是先有业务问题,围绕此问题建立一套指标体系,优化业务策略,优化调整过程中会发现需要不断调整指标定义和口径以更好地指导业务的进一步发展。就数据指标体系而言,甚至就一个数据指标而言,定义一个指标的业务口径就涉及方方面面的协作,计算口径就需要考虑方方面面的实际问题,监控指标需要前前后后的流程建设和工具建设。

        然后再说公司和国家的类比,经济学有宏观、中观、微观之分,文学作品常常写某个家族、某个人,然后映射整个国家、社会环境,这是一样的道理,公司自然是微观,从战略战术到策略方法,指标体系建设自然涉及方方面面,配套的制度、流程机制、工具,当然最核心的还是串联其中的人/团队/组织的建设。但本文无意去说那些超出「数据」、「技术」方面的东西。美国的 ACS 调查涉及 300 多万的家庭,这么庞大的调查,其组织保障需要何等的人力、物力、财力支撑。这都是我不想去谈的,因为我能力非常有限,我只是知道他们应该是可以类比的。

        从两次的评论来看,你有把小问题上升到大问题,小范围扩展到大范围的倾向。

        都不是湘云你觉得、你认为,而是直接下一个论断。这是你的文章你做主,带有你强烈的个人风格无可厚非。前面那位 lovebluesky 写出了我本来犹豫了没写出来的,若以求全的心态写长文,容易模糊掉主次。 我算是新手,也就是说我并不是这篇文章的目标受众,那么我也没什么可说的了。

          lovebluesky 换句话说您的部分措辞带有强烈的感情倾向,我觉得这应该是一篇指南性质的文章应该避免的。

          谢谢,这一部分很有说服力,我接受,已删掉最后部分个人总结。

          lovebluesky 读起来可能对新手有点累,反而是浪费作者的一腔热情,也可以分为几篇来写可能效果更好。

          短期没有时间来写了,我个人博客其他几篇有更简单的例子。

          yuanfan 讨论就是讨论,别带情绪,更不要因为自己觉得有道理别人没有同意就委屈,每个人都有自己的看法,接受或者不接受都由执笔人根据自己的需要来定。毕竟这是个人博客,换句话说个人博客可以带有强烈的个人风格。如果是要在第三方平台发布的内容,自然可以根据平台的需要来修改。我觉得你可能是过于投入了没有分清楚这篇文章目前所处的平台。

            lovebluesky

            别带情绪,更不要因为自己觉得有道理别人没有同意就委屈

            我没有觉得委屈……请不要这样揣度别人。或者我以后发言应该像TC君那样末尾都加点语气助词,或者长长的一串哈,才能避免被这样揣度么。

            我对湘云的文章确实没有什么可以说的了。不过我在此贴写下第一个评论时,当时看的文章链接是湘云给主站投稿的预览文章链接。

              O(∩_∩)O哈哈好一个忍不住也

              Cloud2016 我觉得个人博客可以忍住不用改的。四平八稳的东西放在公家的地方,而在自己的窝里跑跑火车应该是可以的吧,不然个性都磨没了就少了很多乐趣。

                yihui 促使我同步修改个人博客的原因是我准备在自己的博客上再写一篇介绍背后的故事,还有不少相关材料我都会纳入进来,从给统计之都的 PR 稿,到现在,半个月过去了,当时有一股子对净土的不满想发泄一下,不过现在已经没了这股子气。个性依然在,且等下一个机会再发泄一下。

                Cloud2016 文章接下来主要打磨一些文字,力求四平八稳,数据指标的含义需要再深挖一下,讲清楚实际含义,让人看到后能和自己身边的收入水平、所处城镇死亡率一下能对应上。

                  Cloud2016 终于改完了,在应用部分添加了不少空间分析和解读内容,不谈超出本文的空间模型。