• 综合已解决
  • 探索数据时发现某个指标的变动趋势超出常理,后续应如何继续分析?

楼主最近在探索世界不平等数据库,刚好看到20岁以上人群里,税前国民收入指标下,中国女性所占份额自1991-2019年之间的变化趋势是逐渐降低的。根据楼主不知道从哪得来的印象,随着女性地位提升,女性的收入也应逐渐提升,所以这个下降的趋势超出了我的认知。于是又翻了一些发达国家如美国、日本等国的数据,如下:

本楼主又想也许发展中国家都跟中国一样,于是又翻了俄罗斯、印度等国家的数据,如下:

本来还翻了翻北朝鲜的数据,但是北朝鲜没有女性的税前国民收入这个指标,只好作罢。

这里我不懂为撒只有中国的女性收入份额是下降的?按照我的理解,随着女性地位提升,男女同工不同酬的问题应该会得到缓解,国家整体上的家庭主妇的比例应该会减少,这样的话女性整体收入份额应该会上升才对啊……后续我也没想到可以怎么去分析原因,看小伙伴们有没有撒好的想法?

    "随着女性地位提升,男女同工不同酬的问题应该会得到缓解" 这个只发生在非体力劳动里,劳动密集型产业男女还远做不到同工同酬,过去三十年中国崛起的是制造业而不是服务业,只是白领行业同工同酬更符合认知而他们掌握更多话语权会形成这种认识。

    不过说到底份额是从不到40%降到30%多,其余增长国家也就是到40%这个水平,你把y轴换成0-100,感觉就像误差了。

    这个图最大疑问其实是为啥91年中国女性收入占比如此之高,甚至超过了发达国家。我猜是过去三十年解放的是农村剩余劳动力,之前恐怕女性国民收入更多反映的是农村收入,91年那会11亿人口搞不好有8亿农民,农村收入则按联产承包平均到人头所以更平等些。这里最好列上绝对收入,绝对收入应该是增长的。农民工进城后从事行业大都是计件或计时工资,男女生理差异明显,但总还是好过种地的平均收。现在14亿人口农民占比不到四成,也就是不到6亿,而所有制造业从业人口大概就2亿,猜猜主要是哪来的?这有篇论文可以参考。

    至于说发达国家,首先没有中国的农民工进城背景,农业很早就完成了工业化生产,全社会行业转向办公室,自然要同工同酬。而印度伊朗这种属于底子太差,稍微有点工业化就有起色,其余发展中国家则没有中国的人口红利。说到底,中国在过去三十年崛起真的是天时地利人和一个都不能缺的。

      如果这是一个特定的发展阶段导致的现象,那么在对比其它国家的时候也应该尽量找到相同的发展阶段,而不是大家都比较同样地时间段。另外,基于楼主的“印象”,收入的提升,其实也不一定就代表着收入份额的提升(当然我不确信楼主原先的份额指的是什么,姑且就认为是女性收入占人口总收入的比例);同样,收入份额提升也不意味着收入的提升。

        【女性收入提升】跟【女性税前国民收入份额】占比下降并没有直接关系。

        我能想到一个简单的解释就是女性退休时间更早,所以理论上劳动力中男女比例天然就是男多女少,收入占比自然就少了 🙂

        楼主似乎没有给出相关指标的定义,比如分子分母,以及计算方式,数据怎么获得的,不了解数据背景的话,大家猜测很难猜出来。就「税前国民收入指标」来说,分年龄段、分性别是咋统计出来的,跟我们直观感受是不是一样呢?

          yufree

          不过说到底份额是从不到40%降到30%多,其余增长国家也就是到40%这个水平,你把y轴换成0-100,感觉就像误差了。

          三水大人的这些观点是说得通的。不过,本来算的就是女性的税前国民收入占总体的份额,一般来说到50%就是男女很平等的情况了,你说把y轴换成0-100略草率啊喂。你是觉得降到30%多还算好的么?这里随便一个1%乘以一个以亿为单位的基数,得到的都会是一个很大的数值啊。

          第一张图里的国家,正好数据都在0.2-0.4之间,我就把y轴放大了,目的是为了看看各国数据的变动趋势。可是只有中国在降还是很诡异啊。虽说劳动密集型产业很多都是体力劳动,可是体力劳动是不是也并不完全等于力气劳动,不还有很多电子厂、制衣厂都是优先招女工么。看起来最终结果是中国女性收入份额一直在下降,但我想应该是部分女性所处行业环境里男女薪酬差异仍然在扩大,另外一部分差异在缩小,共同作用导致最终结果仍然是差异扩大。

          按个人来看绝对收入确实是增长的。不过我看的这个数据库里单独关于女性的指标,大多数国家只有税前国民收入份额和人口数这两项。

          fenguoerbian
          我明白你的意思,因为随着经济发展,女性收入在提升,男性收入也在提升,倘若女性收入增长速度低于男性收入增长速度,那么最终还是会导致女性收入份额下降的。但我看的这个数据库里跟女性收入份额相关的数据仅有1991-2019年的,我个人暂时想不到有哪个国家会有和中国相同的发展阶段。

          这里在同一时间段内把所有国家都放到一起比,我认为也是可以比的,因为主要比较的就是性别不平等带来的收入差距按年的变动趋势,比出来的结果仅仅是各国的这种差异都在什么水平,除了中国,其他国家的这种差异都在缩小。

          tctcab
          话说tc君觉得目前的性别研究垃圾的地方是哪里呢?

          女性退休时间早这点……勉强可以解释女性收入占比低于50%,但是解释不了为撒这个指标呈现下降趋势。

          Cloud2016
          这个宏观指标咋统计出来的,楼主给不了,只能说出处是WID.world。我叨叨这么半天,不就是在说跟我个人的直观感受不一样么。

          唉,话说统计之都的坛友是不是九成都是男性啊。竟然没有一个人跟我一样,最开始看到这个下降趋势的时候第一反应是愤怒几秒钟么?虽然说生气也没撒用,可是我觉得好像已经很久没在(国内)主流视野里见过有人讨论性别不平等的问题了。

            补充女性人口占比相关的图,如下

            楼主也想知道没退休可以工作的男女人口比例到底能差多少,回头俺再翻翻这个世界不平等数据库。

            yuanfan 我觉得你可能发现了很有意思的现象,但是没有深入了解成因就下结论,给表情的话,太感性了,这种数据新闻一般刺激不到我,可能是职业病。

              yuanfan 刚查了后台数据,主站今年流量里估计出的男女比大概在3:7。

              此外,这个主题跟中药转基因是一个级别的,国内主流视野里讨论性别不平等的不是太少,而是太吵。这个数据不论是放到 reddit 还是知乎豆瓣微博上不出一个小时马上就能吵起来,各路神兵带着价值观因果律大杀器就能把任何一个打算和稀泥的给冲了,史称拳师蝈蝻之乱。

              敢在那上面接这类话题的,被扣的帽子都可以开连锁折扣店了,直接可封圣斗士外带赏黄金圣衣一套(这句就能被冲成精日)。或者可尝试在爆栈上发布 Python 或 Php 是不是最好的编程语言,很快就会收获各路亲切问候了,还可免费体验顺着网线来冲你的服务:在A地表达观点,在几乎所有其他网站账号都被找到并给予亲切的祖源学私信调查(此处绝无个人实际经验背书)。

              回到数据,前面几位朋友的建议更多是从数据是否可靠的角度出发的,数据可靠了愤怒才有道理,如果上来就愤怒,很难谈出什么道理。社会是需要进步的,只是过程比较慢,30-40%当然不合理,但当前世界还存在着10%水平的封建余孽选手。40%的选手争取10%达到完全公平是进步,10%争取到30%达到部分公平同样是进步,至于说40%退步到了30%,可以做个坐标轴平移,看看现在表现良好的现代国家在发展到当前国内经济水平时薪酬性别差异是个啥水平,后续如果成功完成产业转型,这个比例肯定也会往上走的,不用担心。

                yuanfan 这个宏观指标咋统计出来的,楼主给不了,只能说出处是WID.world。我叨叨这么半天,不就是在说跟我个人的直观感受不一样么。

                也许是我没说清楚,网站上是有给出相关数据说明的,做数据对比,就要清楚对比的基础,首先确定是可对比的,有时候一些网站给出惊人的数据现象,其实是因为一些原因,导致不同国家指标统计的口径不一样,或者该指标衡量不了该国家的实际情况,导致看似奇怪的数据现象,比如俄罗斯的贫富差距,视频中第 14 分钟的位置。

                yuanfan 其实还是可以给出来的,比方说这就是楼主使用的数据来源的原文,在数据集的说明里有。既然找到了我就贴出来,也方便大家感兴趣的可以去看,后续好讨论。

                原文能看到的几点:

                1. 这个女性收入占比并不完全是统计出来的,而是根据合同工比例,自由职业比例等统计结果用回归模型推算出来的。
                2. 中国的原始数据实际上只有2002和2013两个点。其它年份的数据都是根据上一条的线性模型插值出来的。这可能也解释了为什么楼主图上的中国曲线是如此的光滑,不像其它国家还能看出是点线图。(同理图上其它一些很光滑的结果,可能也是因为大部分都是线性插值的结果)
                3. 作者将全球分析分为了9个大区,中国应该是唯一一个以单独国家作为一个大区的。

                以下是(我)夹带私货的部分:

                1. 中国的数据只有两个点,实际上就分别在35%上下2个百分点位置,而且时间位置也在整个研究区间中部,以此就直接线性模型插值还是有不小的概率并不能完全反映真实情况的。比方说实际结果如果恰好就是35%周边的一个波动,那肯定和这个插值的结果相去甚远。所以我个人认为用这个数据来谈中国的“趋势”,肯定是有失偏颇的。不过作者还是就拿着这个插值的结果,还感慨实在是难以和中国“妇女能顶半边天”的政策宣传对应上呢。论文作者将这一“下降的趋势”,归因于其它文献里提到的国企规模缩水和一孩政策开放这两个原因。
                2. 另外,如果中国的水平确实是已经在一个范围内稳定波动的话,那其实和下一条提到的“前东方集团”的特点基本一致。作者图1里可以看到这一类别的国家基本都已经是在一个较高的水平(虽然不是绝对平等)来回波动了。
                3. 我是从这篇文章里学到了“前东方集团”(俄罗斯,古巴等有communist regime的国家?)这个词……作者上来第一幅图就是西欧国家稳步上升而前东方集团止步不前甚至倒退。后面也多次对比这两个分类,我也不知道是不是我想得太多了。不过话说回来,从作者的图1上来说西欧国家稳步上升之后也才刚刚进入前东方集团所在的区间。
                4. 即使是以作者插值的数据来说,中国的平等程度依然是整个亚洲领先的,甚至在之后的大区对比图里也是在全球前列的。作者自己也感慨把中国放进亚洲区会把亚洲区的水平直接拉上去。

                以下继续夹带私货:

                1. 论坛其实活跃度并不高,不少用户都是来发个帖子问个问题再就没影了,回头的熟客就那么多,所以这种性别平等话题在这里也不能掀起太多风浪。
                2. 日常见过太多数据没问题(没造假)但是解读就(有意无意)走偏了的情况。尤其是在论坛里这种熟客们估计都是分析数据为生的人,更不容易只因为一幅图就调动情绪愤怒啊啥的。反而会开始考虑验证数据、寻找根源,检验结论的正确性。尤其是这种严肃的话题,下结论之前更是要小心求证的。

                  首先还是要鼓励楼主这么关注数据现象和探究差异的态度。下面扯一点闲篇。

                  《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》第三章 主要目标 第一节 2035年远景目标 有这么一段话:

                  人均国内生产总值达到中等发达国家水平,中等收入群体显著扩大,基本公共服务实现均等化,城乡区域发展差距和居民生活水平差距显著缩小。平安中国建设达到更高水平,基本实现国防和军队现代化。人民生活更加美好,人的全面发展、全体人民共同富裕取得更为明显的实质性进展。

                  里面就有十分丰富的内容值得用数据去解读,比如什么叫人均国内生产总值,什么叫达到中等发达国家水平?中国的人均国内生产总值的计算方式是否和国际一样,如果不一样,差距是否足够小,以至于中国和其它国家可对比。什么叫中等发达国家水平?假设现在 2022 年,国际上这个水平是 5W 美金,到2035年,这个水平还是 5W 美金吗?那可不一定,大家都在变化发展,所以「中等发达国家水平」的概念肯定不是一个数字,至少是一个世界各国按照某个指标的排序,那么问题来,现在中国处于什么位置,距离「中等发达国家水平」的位置有多远?

                  类似的,什么叫中等收入群体显著扩大?在中国,什么叫中等收入?什么叫中等收入群体?当前什么状态?「显著扩大」又是什么意思?假设当前这个群体站 30%,2035 年达到 35% 能叫「显著扩大」吗?还是说提升两个点,即 32% 就已经是很显著了呢?

                  诸如此类,等等。

                  我只是打酱油路过说一句,我觉得楼主用两幅图提了一个相当好的问题啊,不管谁看了图都会起疑心吧,这正响应了 Tukey 祖师爷的那句话

                  The greatest value of a picture is when it forces us to notice what we never expected to see.

                  然后楼上应该是解开了这个谜团了吧:

                  fenguoerbian 中国的原始数据实际上只有2002和2013两个点

                  我觉得这是一次完美的小探案。

                  至于情绪啥的,我觉得也是可以理解的。不管论坛总体性别比例如何,本帖下的性别比例还是相当失调的,我都有点犹豫要不要回帖(又增加了一位糙汉)。

                    yihui 我赞同Tukey大人的观点,但我不赞同通过图形传递歪曲、错误的信息,用川普的话说 fake news! 楼主引用的就是 fake news!

                    从我个人角度看,“一个人对某件事产生了愤怒的情绪”和“一个人沉浸在愤怒的情绪中封闭自己,拒绝与外界沟通,进而疯狂怒怼别人”是两件事。不可否认的是我在看到一楼的图时,确实愤怒了几秒钟,但以上发帖和回帖中我写下的文字都是在心境平和的状态下写的。

                    另,我最初看到三水大人写说到底份额只是从不到40%降到30%多的时候,也产生了愤怒的情绪,当时在心中腹诽“这是什么钢铁直男才说得出口的冷漠混账话啊”。不过好歹也看三水大人的博客看了两年了,也还是能够明白三水大人真得只是在理智客观地分析数据而已。好像也正是因为有过情绪波动,后面看到三水大人写到比例会升回来、不用担心之类的,我内心颇为感动,昨天晚上临睡前看到的时候很感动,现在再来看也还是很感动。

                    Cloud2016
                    在我看来,那不是很有意思的现象,而我也没有下结论。我这不是感觉数据表现超出我的认知,所以来论坛里发帖问了么。难道你是觉得我产生了愤怒情绪,便等同于我下了结论么。

                    从我的角度看,我把世界财富与收入不平等数据库的数据画成图拿到论坛里发了个帖子并不是传播你认为的“fake news”,我都不觉得这些数据是新闻之类的。