• 综合已解决
  • 探索数据时发现某个指标的变动趋势超出常理,后续应如何继续分析?

补充女性人口占比相关的图,如下

楼主也想知道没退休可以工作的男女人口比例到底能差多少,回头俺再翻翻这个世界不平等数据库。

yuanfan 我觉得你可能发现了很有意思的现象,但是没有深入了解成因就下结论,给表情的话,太感性了,这种数据新闻一般刺激不到我,可能是职业病。

    yuanfan 刚查了后台数据,主站今年流量里估计出的男女比大概在3:7。

    此外,这个主题跟中药转基因是一个级别的,国内主流视野里讨论性别不平等的不是太少,而是太吵。这个数据不论是放到 reddit 还是知乎豆瓣微博上不出一个小时马上就能吵起来,各路神兵带着价值观因果律大杀器就能把任何一个打算和稀泥的给冲了,史称拳师蝈蝻之乱。

    敢在那上面接这类话题的,被扣的帽子都可以开连锁折扣店了,直接可封圣斗士外带赏黄金圣衣一套(这句就能被冲成精日)。或者可尝试在爆栈上发布 Python 或 Php 是不是最好的编程语言,很快就会收获各路亲切问候了,还可免费体验顺着网线来冲你的服务:在A地表达观点,在几乎所有其他网站账号都被找到并给予亲切的祖源学私信调查(此处绝无个人实际经验背书)。

    回到数据,前面几位朋友的建议更多是从数据是否可靠的角度出发的,数据可靠了愤怒才有道理,如果上来就愤怒,很难谈出什么道理。社会是需要进步的,只是过程比较慢,30-40%当然不合理,但当前世界还存在着10%水平的封建余孽选手。40%的选手争取10%达到完全公平是进步,10%争取到30%达到部分公平同样是进步,至于说40%退步到了30%,可以做个坐标轴平移,看看现在表现良好的现代国家在发展到当前国内经济水平时薪酬性别差异是个啥水平,后续如果成功完成产业转型,这个比例肯定也会往上走的,不用担心。

      yuanfan 这个宏观指标咋统计出来的,楼主给不了,只能说出处是WID.world。我叨叨这么半天,不就是在说跟我个人的直观感受不一样么。

      也许是我没说清楚,网站上是有给出相关数据说明的,做数据对比,就要清楚对比的基础,首先确定是可对比的,有时候一些网站给出惊人的数据现象,其实是因为一些原因,导致不同国家指标统计的口径不一样,或者该指标衡量不了该国家的实际情况,导致看似奇怪的数据现象,比如俄罗斯的贫富差距,视频中第 14 分钟的位置。

      yuanfan 其实还是可以给出来的,比方说这就是楼主使用的数据来源的原文,在数据集的说明里有。既然找到了我就贴出来,也方便大家感兴趣的可以去看,后续好讨论。

      原文能看到的几点:

      1. 这个女性收入占比并不完全是统计出来的,而是根据合同工比例,自由职业比例等统计结果用回归模型推算出来的。
      2. 中国的原始数据实际上只有2002和2013两个点。其它年份的数据都是根据上一条的线性模型插值出来的。这可能也解释了为什么楼主图上的中国曲线是如此的光滑,不像其它国家还能看出是点线图。(同理图上其它一些很光滑的结果,可能也是因为大部分都是线性插值的结果)
      3. 作者将全球分析分为了9个大区,中国应该是唯一一个以单独国家作为一个大区的。

      以下是(我)夹带私货的部分:

      1. 中国的数据只有两个点,实际上就分别在35%上下2个百分点位置,而且时间位置也在整个研究区间中部,以此就直接线性模型插值还是有不小的概率并不能完全反映真实情况的。比方说实际结果如果恰好就是35%周边的一个波动,那肯定和这个插值的结果相去甚远。所以我个人认为用这个数据来谈中国的“趋势”,肯定是有失偏颇的。不过作者还是就拿着这个插值的结果,还感慨实在是难以和中国“妇女能顶半边天”的政策宣传对应上呢。论文作者将这一“下降的趋势”,归因于其它文献里提到的国企规模缩水和一孩政策开放这两个原因。
      2. 另外,如果中国的水平确实是已经在一个范围内稳定波动的话,那其实和下一条提到的“前东方集团”的特点基本一致。作者图1里可以看到这一类别的国家基本都已经是在一个较高的水平(虽然不是绝对平等)来回波动了。
      3. 我是从这篇文章里学到了“前东方集团”(俄罗斯,古巴等有communist regime的国家?)这个词……作者上来第一幅图就是西欧国家稳步上升而前东方集团止步不前甚至倒退。后面也多次对比这两个分类,我也不知道是不是我想得太多了。不过话说回来,从作者的图1上来说西欧国家稳步上升之后也才刚刚进入前东方集团所在的区间。
      4. 即使是以作者插值的数据来说,中国的平等程度依然是整个亚洲领先的,甚至在之后的大区对比图里也是在全球前列的。作者自己也感慨把中国放进亚洲区会把亚洲区的水平直接拉上去。

      以下继续夹带私货:

      1. 论坛其实活跃度并不高,不少用户都是来发个帖子问个问题再就没影了,回头的熟客就那么多,所以这种性别平等话题在这里也不能掀起太多风浪。
      2. 日常见过太多数据没问题(没造假)但是解读就(有意无意)走偏了的情况。尤其是在论坛里这种熟客们估计都是分析数据为生的人,更不容易只因为一幅图就调动情绪愤怒啊啥的。反而会开始考虑验证数据、寻找根源,检验结论的正确性。尤其是这种严肃的话题,下结论之前更是要小心求证的。

        首先还是要鼓励楼主这么关注数据现象和探究差异的态度。下面扯一点闲篇。

        《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》第三章 主要目标 第一节 2035年远景目标 有这么一段话:

        人均国内生产总值达到中等发达国家水平,中等收入群体显著扩大,基本公共服务实现均等化,城乡区域发展差距和居民生活水平差距显著缩小。平安中国建设达到更高水平,基本实现国防和军队现代化。人民生活更加美好,人的全面发展、全体人民共同富裕取得更为明显的实质性进展。

        里面就有十分丰富的内容值得用数据去解读,比如什么叫人均国内生产总值,什么叫达到中等发达国家水平?中国的人均国内生产总值的计算方式是否和国际一样,如果不一样,差距是否足够小,以至于中国和其它国家可对比。什么叫中等发达国家水平?假设现在 2022 年,国际上这个水平是 5W 美金,到2035年,这个水平还是 5W 美金吗?那可不一定,大家都在变化发展,所以「中等发达国家水平」的概念肯定不是一个数字,至少是一个世界各国按照某个指标的排序,那么问题来,现在中国处于什么位置,距离「中等发达国家水平」的位置有多远?

        类似的,什么叫中等收入群体显著扩大?在中国,什么叫中等收入?什么叫中等收入群体?当前什么状态?「显著扩大」又是什么意思?假设当前这个群体站 30%,2035 年达到 35% 能叫「显著扩大」吗?还是说提升两个点,即 32% 就已经是很显著了呢?

        诸如此类,等等。

        我只是打酱油路过说一句,我觉得楼主用两幅图提了一个相当好的问题啊,不管谁看了图都会起疑心吧,这正响应了 Tukey 祖师爷的那句话

        The greatest value of a picture is when it forces us to notice what we never expected to see.

        然后楼上应该是解开了这个谜团了吧:

        fenguoerbian 中国的原始数据实际上只有2002和2013两个点

        我觉得这是一次完美的小探案。

        至于情绪啥的,我觉得也是可以理解的。不管论坛总体性别比例如何,本帖下的性别比例还是相当失调的,我都有点犹豫要不要回帖(又增加了一位糙汉)。

          yihui 我赞同Tukey大人的观点,但我不赞同通过图形传递歪曲、错误的信息,用川普的话说 fake news! 楼主引用的就是 fake news!

          从我个人角度看,“一个人对某件事产生了愤怒的情绪”和“一个人沉浸在愤怒的情绪中封闭自己,拒绝与外界沟通,进而疯狂怒怼别人”是两件事。不可否认的是我在看到一楼的图时,确实愤怒了几秒钟,但以上发帖和回帖中我写下的文字都是在心境平和的状态下写的。

          另,我最初看到三水大人写说到底份额只是从不到40%降到30%多的时候,也产生了愤怒的情绪,当时在心中腹诽“这是什么钢铁直男才说得出口的冷漠混账话啊”。不过好歹也看三水大人的博客看了两年了,也还是能够明白三水大人真得只是在理智客观地分析数据而已。好像也正是因为有过情绪波动,后面看到三水大人写到比例会升回来、不用担心之类的,我内心颇为感动,昨天晚上临睡前看到的时候很感动,现在再来看也还是很感动。

          Cloud2016
          在我看来,那不是很有意思的现象,而我也没有下结论。我这不是感觉数据表现超出我的认知,所以来论坛里发帖问了么。难道你是觉得我产生了愤怒情绪,便等同于我下了结论么。

          从我的角度看,我把世界财富与收入不平等数据库的数据画成图拿到论坛里发了个帖子并不是传播你认为的“fake news”,我都不觉得这些数据是新闻之类的。

            yuanfan 我觉得这个例子非常好地说明了,在发表任何数据观点和数据图形前,特别是涉及国家政治、经济的,需要先了解一下数据背景,特别是数据质量。竟然有拿两个数据点做内插、外推几十点的情况,此人刷新了我的认识。

            回到楼主的问题,遇到不合常理、不符合直觉、不符合经验的时候,首先需要检查数据问题,比如数据处理过程、数据收集过程、数据质量情况,而不是再找一些无法验证数据质量和分析链路的观点,要找事实而不是找观点。

              fenguoerbian
              漂亮的溯源和分析。

              这篇文章的数据分析起点是 1990 年,但作者没有提到设定这个起点的原因。一个显然的巧合是,1990 是苏东剧变的时间,大量前社会主义国家市场化和资本化。另一个显然的巧合是,虽然中国没有经历类似政体剧变,但在同时间实际经济政策也转向了市场和资本。作者反复强调前东方集团和中国在这个时间段女性收入占比下降,而西方主要国家稳步上升,但却似乎刻意避免提及以上明显的“巧合”,令人困惑。(虽然中国的数据点只有两个,但就看这两个的话,下降趋势和前东方集团国家一致)

              那市场化,资本化会导致女性收入占比下降吗?该作者另有一篇文章分析了德国两百年来的女性薪水跟男性的对比。德国是典型的资本主义国家,数据显示,二十世纪后,女性收入占比基本呈上升趋势。所以看来资本主义不必然影响妇女收入占比。(这里没有找到作者如何处理东德的信息)

              如果我们认为社会生产力是在不断进步的,那么结合这两篇文章的数据,可以合理推测以女性收入占比为指标的男女平等是随着社会生产力的提高而提升的;同等生产力水平下,社会主义国家的男女平等水平更高。前东方集团国家和中国在 1990 年前该指标的高水平是由国家的意识形态和经济政策维持的;在 1990 年,政体或政策转向后,市场化和资本化反而降低了女性的收入占比。其实这也好理解,社会主义更注重公平而不是效率,而市场化资本化是以效率为王的,一些不利于女性的考量,比如生育,对家庭的付出等,开始负面影响女性的收入。

              这篇文章的作者引用了教员妇女能顶半边天的话,然后分析说虽然口号这么讲,但现在我国妇女的收入占比没有真正体现平等。这个结论灵巧地避开了关于生产力水平和近三十年经济政策转型的讨论,只是一味表示西方国家同时期男女平等稳步上升,而不提实际上社会主义国家这方面的优点。这么柔软的身段,令人印象颇深。甚至有点像汤师爷,是个装糊涂的高手。

              真正值得关注的是中东王爷们和日韩的数据。这些国家在收入如此之高的情况下,男女平等依然如此堪忧。其中原因更值得探讨。

              生产力决定生产关系。如果这类研究不触及要害,只是拿几个指标讲故事,那除了挑动情绪或者成为一些人打拳的依据,没什么价值。

                Cloud2016
                我同意,不过我觉得找事实和看看别人的观点也不冲突。就比如,我在探索这个数据库的数据时,没有选择自己一口气死磕到底(宏观经济指标方面的知识真得知之甚少),而是偷懒把发现的问题丢到论坛里来问问大家的意见好像也是可以的。

                  yuanfan

                  唉,话说统计之都的坛友是不是九成都是男性啊。竟然没有一个人跟我一样,最开始看到这个下降趋势的时候第一反应是愤怒几秒钟么?虽然说生气也没撒用,可是我觉得好像已经很久没在(国内)主流视野里见过有人讨论性别不平等的问题了。

                  另,我最初看到三水大人写说到底份额只是从不到40%降到30%多的时候,也产生了愤怒的情绪,当时在心中腹诽“这是什么钢铁直男才说得出口的冷漠混账话啊”

                  那么你到底想要分析数据,溯源知果

                  还是只是想找人来迎合“中国女性收入下降那么多男女多么的不平等我不开心”的情绪?

                  还是说你只想打拳?

                    tctcab 好啦好啦,我们不要把这个帖子朝这个方向引啦。维基百科有一条指南我觉得挺好,即不要随便推测别人的意图,尤其是不要假定恶意:https://en.wikipedia.org/wiki/Wikipedia:Assume_good_faith 如果不清楚别人的意图,那么不妨不要问、直接假定善意。楼主只是看到一个奇怪的现象,拿来问问大家更专业的意见,而上面基本上也解释了疑惑。接下来如果钢铁直男直女们还有什么想讨论的,不妨讨论一下那篇“万恶之源”的论文,是它坑了这里的所有人。

                    既然这个楼都歪成这样了,那么继续歪下去也无妨。

                    tctcab
                    我可以回答你的问题,不过你先告诉我“打拳”是什么意思?你如何界定这个词语所涵盖的范围?

                    Liechi
                    列弛,你也提到了“打拳”这个词,我也想知道你对这个词语的定义是什么?

                      yuanfan

                      写了一大堆想了想还是删了吧,放弃了。

                      我蛮夷也。我就是说冷漠混帐话的钢铁直男

                        好吧,我本来想着这个讨论可以成为一个“无意擦枪走火、但仍然可以和平收尾”的范例,现在看来收尾仍须努力。我表个态吧,我个人非常反对使用“打拳”这个词,它听起来非常难听。以我的经验,在辩论中一旦使用抽象的标签,这辩论就不容易有实质进展,因为标签实在是太能调动人的情绪了,一般人都扛不住被贴上带贬义的标签。我自己深受其害,被贴标签是很痛苦的事情,但即便这样,我还是无意制造出一个“净土宗”的标签,要不是 @flujoo 一语点醒梦中人,我也不会意识到它流露出的恶意。

                        tctcab 女权啊,想想为什么会有不止一个人在说打拳

                        关于“不止一个人”,我觉得没必要提。在敏感话题下,不妨直接谈自己的观点,不用说“看,不止我一个人这样认为”。有理不在声高,也不在人数。何况这里参与讨论的所有人里,只有楼主一位女性;如果人数有用,那么我想只要再请几位女性来,那么是不是可以反转过来说“你们糙汉们想想为什么不止一个人说我根本没有打拳”。所以单论有某个想法的人数是没有意义的。

                        其次,恕我直言,我觉得怀疑楼主打拳的人还真的只有一个人。一共三个人提到拳:yufree 提了,但不是针对楼主,只是想说这个话题很容易走火;再就是 Liechi 提了,但同样不是针对楼主。

                        第三,我想请男同胞们设身处地体会一下楼主一人应对一群男性的压力,而且很巧合地全都是头上带闪电和扳手的……我本人算是温和地支持女权(“温和”的意思是我通常只会暗中支持,不会参与明面上的斗争),因为我们男性确实是享受了不公平的性别优越待遇,在性别问题上应该多给女性一些体谅。她们是长期的受害者,就算说出一些听起来不那么悦耳的话,我觉得都是正常的情绪发泄,是可以接受的。何况楼主也并没有说什么难听的话,唯一说的可能会引起男性不适的只是“第一反应是愤怒几秒钟”,可是我们完全没必要揪住这句话不放啊,因为人都有权有第一反应,也有权愤怒几秒钟,只是“第一反应”和“几秒钟”而已(后面楼主也说了都是平和心态在看待和讨论),如果这都能被归结为“打拳”,我觉得男同胞们有点太不大度和敏感了,或是关于性别战的水帖看太多了,形成了“性别问题的讨论或辩论都是垃圾”的刻板印象。

                        tctcab 【将复杂多因素问题,主要为社会问题简单非理性归因到“性别”这一单一因素】的行为。

                        我素来强烈反对将多因素问题归因于单因素,但楼主最初提问的时候并没有这样归因。楼主只是看到一个奇怪的现象,来问问大伙儿的意见,是一道开放题,并没有下什么结论,我们可能反应过度了。

                        本帖参与讨论的所有糙汉们以及楼主都是我非常信任的人,所以我不希望你们发生误解,我也相信这个帖子的结局绝对不会像普通的性别战那样收场,一定可以结出和解之印。

                        tctcab 写了一大堆想了想还是删了吧,放弃了。

                        你不用放弃的,我觉得还是应该把话说清楚。我相信楼主讨论的诚意。

                        tctcab 我蛮夷也。我就是说冷漠混帐话的钢铁直男

                        我很理解你为什么会这样说(我有时候也会这样说自己),但我以人格担保楼主绝对不会这样看你。也请你不要给自己贴标签。

                        好了,我暂时说完我想说的了,接下来大约十五小时内我不会上网,在我不在的时间里,衷心希望这事能好好收场,争取把这个帖子做成性别问题讨论里的积极案例(确实是消极的太多了,可能已经让大家失去了信心)。

                          tctcab

                          那么如果我本来发言的这句话:

                          唉,话说统计之都的坛友是不是九成都是男性啊。竟然没有一个人跟我一样,最开始看到这个下降趋势的时候第一反应是愤怒几秒钟么?虽然说生气也没撒用,可是我觉得好像已经很久没在(国内)主流视野里见过有人讨论性别不平等的问题了。

                          换成别的指标,比如猪肉涨价,如下:

                          唉,话说统计之都的坛友是不是九成都是男性啊。竟然没有一个人跟我一样,最开始看到猪肉涨价的时候第一反应是愤怒几秒钟么?虽然说生气也没撒用,可是我觉得好像已经很久没在(国内)主流视野里见过有人讨论猪肉涨价的问题了。

                          你也还是会质疑我是在“打拳”嘛?

                          或者如果我说,我以为在论坛里是我这个人类和其他人类在讨论问题,只是大家性别不一样,刚好我是女性,并且我曾经为这个内容愤怒过几秒钟,我很好奇是否因为我是女性而更加容易对这个内容感到愤怒,而男性便更加不容易对这个内容感到愤怒呢,因此我作出以上发言,你也还是会质疑我是在“打拳”嘛?

                          或者我没有那样描述,而是换成这样描述:

                          喂,小伙伴们,我发现我为这个事情愤怒了几秒钟诶,我很好奇男同胞们是不是不会像我这样容易对这件事情而情绪化。俺当然知道生气也没撒用啦,不过我好像很久没有在主流视野里见大家讨论这个问题了诶。

                          你也还是会质疑我是在“打拳”嘛?这里我说很久没见主流视野里讨论这个问题,也并不是想大家在论坛上讨论这个问题,只是我写着写着顺道写出了这样的感慨。

                          想想为什么会有不止一个人在说打拳

                          这里你的意思是否等同于不止一个人在说我是“打拳”?即便我已经解释过我确实曾经愤怒过,但我以上发帖回帖均是在心境平和的状态下写的,你也依然认为只要为这件事“愤怒过”的女性就等于是在“打拳”?也依然认为我有过愤怒的情绪,便等同于我所有行为都是非理性的、都是在“打拳”?

                          这几年我倒确确实实看过不少女性意识觉醒的文章,不过我自己从未对“女权”或者“女拳”有过定义,因此在这个帖子下我也从未认为自己是在“打拳”,因为我脑子并没有产生过这样的念头。

                          其实最初我都没想过要靠论坛上的人的帮助来对这份数据溯源因果什么的,我只是发现了一份不合乎我的认知的数据,先丢到论坛上看看再说,说不定能帮我拓宽思路。

                          而且我对统计之都论坛是有些情感的,在此之前我一直都觉得这里氛围很好,我对tc君的印象也很好,我总觉得大家都很善良所以不会恶意揣度我的,我在描述我的想法时也没有任何防备心理,有过愤怒就是有过愤怒,有过感动就是有过感动,自然也没想到别人看到会有别的想法之类的。这次歪楼了以后我也跟着大家的思路走了,一直在试图解释。直到tc君质疑我是在“打拳”,我终于后知后觉地发现原来大家都在质疑我是在“打拳”了。我的答案说完了。

                          也许之后我会开始思考“女权”、“女拳”、“打拳”等等更加本质的东西,哪天真得心怀恶意跑到哪里去打拳也说不定。