• 综合灌水
  • 分享一个讲社交困境(信息茧房)的纪录片

昨天听播客提到一个据说去年大热的纪录片,翻遍国内各大视频网站,最终竟然在A站找到了带中英双语字幕的:
监视资本主义:智能陷阱 The Social Dilemma

B站也找到一个解说版本:
你我都是商品!一个没人能逃脱的「智能陷阱」!

虽然在B站推荐页,每个视频框框右下角有个符号点了以后可以给反馈,但我觉得用处不大,因为很多时候看到不感兴趣的视频更多是滑过去了,根本想不起来去反馈。

现在打开淘宝想买一件东西,不管我加上多少种不同风格的关键词,最终搜出来的都是算法认为我最大概率会买的,而不是我想搜寻的本意。原来淘宝里的商品框框右下角也有反馈按钮了,哪天抽时间把推荐给我的全部反馈为不满意看看会怎样。

    yuanfan 在我浏览器里躺了一年的上百个标签页中,有一个正是 https://en.wikipedia.org/wiki/The_Social_Dilemma 我估计这部纪录片我不需要看,因为我猜里面的观念我一定会全部认同,要是看了会更加极化我对社交媒体的深恶痛绝。如果我真正理解这部片子的意思,那么我应该做的是搜寻社交媒体积极意义的案例或论证,尽管这是完全违背我的信念的——我深信它的消极面远大于积极面。

      yihui
      里面的观点我也认同,不过有几个讨论社交网络对现实产生巨大影响的点,我觉得有点扯犊子。
      一是将每年社交媒体的一个数据趋势和年轻女孩自杀率的趋势放在一起对比,试图引导观众相信社交媒体是自杀率上升的最主要影响因素。但我印象中自杀率上升的问题很早就有了,不过我也没找数据细看,因为纪录片里好像也没详细给出计算口径和数据来源。
      二是美国红蓝两派极化的问题,纪录片中是说以前中立的人比较多,而社交媒体出现后,种种原因导致两派极化问题加深。这个问题我不熟,不过我最近看了一个博主写的几篇博客讲情绪化
      大取代 我也觉得各类社交网络上人们戾气重只是表面现象,社会分裂一定有更深刻的原因。
      三是整部纪录片输出观点占多数,但实际上没有特别严谨的数据论证(这里面的因果关系也不好论证清楚),而且片中举例子的那个家庭是个特例,纪录片的制作方去掉了现实中许多影响因素(比如生存压力、学业压力等),单独把社交认可、人们无法克制地对手机上瘾等拿出来讨论。


      我不是很认同社交媒体的消极面远大于积极面,主要是我个人受到的消极影响小。我现在手机上有微信,刚看了下只有142位联系人,平时基本没人来烦我。早几年把微博卸载了,抖音下下来刷了几次卸载了,小红书、今日头条没接触过,知乎还留着但也只是每周看完了更新的海贼王漫画再上去看别人的深度解析。


      我想了想造成我们对此有分歧的点可能在于我们处于不同的社会阶层。在我目力所及的地方,人们仍然主要为生存苦、为求而不得苦。

        yuanfan 一是将每年社交媒体的一个数据趋势和年轻女孩自杀率的趋势放在一起对比,试图引导观众相信社交媒体是自杀率上升的最主要影响因素。

        嗯,这幅图是我看完这片子后最大的疑点(所以我还是看了),昨天晚上还在脑子里想这事儿。这种引诱式论证是我不太喜欢的。砍人可以,立正站直了再抡刀,不要扭扭捏捏地在背后捅人,或诈唬人。地球人都知道,相关不等于因果,但不是每个地球人都能在这个片子的催眠语境下还能保持清醒。

        yuanfan 社交媒体出现后,种种原因导致两派极化问题加深

        据脸书自己的员工说,因为扎克伯格的最高目标就是增长用户,所以一切能促进增长用户的手段他们都用;他们的员工用数据确认过,要保留和持续增长用户,那么他们的内容推荐模型就会极化用户的观念。他们明知如此,领导层仍然不愿意放弃增长用户的目标。

        再举个我昨天在推特上刚看到的一个令我震惊的例子:https://twitter.com/tslumley/status/1387131226780180480 你在墙内看不到,不过大意是这样:Leo Breiman 有篇著名的论文,叫《Statistical Modeling: The Two Cultures》,摘要如下:

        There are two cultures in the use of statistical modeling to reach conclusions from data. One assumes that the data are generated by a given stochastic data model. The other uses algorithmic models and treats the data mechanism as unknown. The statistical community has been committed to the almost exclusive use of data models. This commitment has led to irrelevant theory, questionable conclusions, and has kept statisticians from working on a large range of interesting current problems. Algorithmic modeling, both in theory and practice, has developed rapidly in fields outside statistics. It can be used both on large complex data sets and as a more accurate and informative alternative to data modeling on smaller data sets. If our goal as a field is to use data to solve problems, then we need to move away from exclusive dependence on data models and adopt a more diverse set of tools.

        而前两天有人写了一篇论文《Breiman's two cultures: You don't have to choose sides》来回应它:

        Breiman's classic paper casts data analysis as a choice between two cultures: data modelers and algorithmic modelers. Stated broadly, data modelers use simple, interpretable models with well-understood theoretical properties to analyze data. Algorithmic modelers prioritize predictive accuracy and use more flexible function approximations to analyze data. This dichotomy overlooks a third set of models − mechanistic models derived from scientific theories (e.g., ODE/SDE simulators). Mechanistic models encode application-specific scientific knowledge about the data. And while these categories represent extreme points in model space, modern computational and algorithmic tools enable us to interpolate between these points, producing flexible, interpretable, and scientifically-informed hybrids that can enjoy accurate and robust predictions, and resolve issues with data analysis that Breiman describes, such as the Rashomon effect and Occam's dilemma. Challenges still remain in finding an appropriate point in model space, with many choices on how to compose model components and the degree to which each component informs inferences.

        这摘要的第一句就吓到我了。我想了半天不能理解这三个作者怎么会认为 Breiman 认为数据分析必须在两大派别中选择一派。是我的英语阅读理解出问题了吗?Breiman 明明是在呼吁传统统计学家应该不要只停留在解释型模型里,而应该多关注一下预测型模型,这是无比智慧的建议。怎么到了这几个作者口中一转述,就变成了“Breiman 认为数据分析者必须选边站队”了?换句话说,两边怎么一下子就变成对立姿态了?论文中还明目张胆用了 dichotomy 一词。

        当然,这个例子与社交媒体可能没什么直接关系,我想说的是社交媒体似乎对这种对立的思维有很大的推波助澜的作用。再比如在净土宗和哥哥作图时代之前,我没有感受到 R 社区有什么党派之争,lattice 和基础 R 作图系统之间相处非常融洽,data.table 也没与基础 R 里的 *apply() 家族打过仗,更没有人站出来说 for 循环和 setwd() 该扔进垃圾堆烧掉、升级换代为 purrrhere。而现在则三天两头在推特上打个不可开交,用基础 R 的人三天两头要被净土宗人士嘲讽,如:

        Screen Shot 2021-04-28 at 10 08 15 AM

        Screen Shot 2021-04-28 at 10 08 46 AM

        这到底是要闹哪样?

        那个片子里提到了点赞按钮的初衷是让人们感受爱。如果我在社交媒体创立之初听到这句话,可能真会被感动一下。而现在呢,点赞按钮让谁感受到爱了?它成了一个将人群隔离开的工具——社交媒体上每一个赞,就是我对我所属党派所投下的坚定的一票,然后向敌对方展示:看,我党有这么受欢迎(高达八千个赞),根本没有人站在你们那边。而那些本来犹豫不决的人们一看,乖乖哟,不得了嘞,看来大家都选择了某党,我这么弱鸡,最好还是随大流吧,免得被这么多人笑话或攻击。

        另外,我觉得对个人而言,爱是有很大的私密性的。点赞按钮用在社交媒体上,带来的不是纯粹的爱,还带来了一样本不该附带的东西,就是公开的数字。如果爱带着公开的数量,那带给人的情感就不再是爱了,而是虚荣。爱是不可以被公开量化的。

        yuanfan 我想了想造成我们对此有分歧的点可能在于我们处于不同的社会阶层。在我目力所及的地方,人们仍然主要为生存苦、为求而不得苦。

        是的,我的微信联系人有六百个,几乎不可能哪天没有新消息;我已经在玩命退群了,比如前几天给大数讲下厨,组织者拉了个微信群,拉我之前我就说了我讲完就会退,然后讲完我回了听众几条消息,就真退了。连统计之都的群我几年前就退了,后来还拉我进过一次小群,都是统计之都的核心组织者和好友,我观察了一天,觉得里面的消息依旧是浓浓的微信风,我不喜欢,所以我加进去之后一个字都还没说,大家排队欢迎我入群的掌声还没平息,我就默默退了。我的推特账号也一样,成天有新消息通知,需要我用意志力去克服这些新通知的引力,曾经成功过两年,去年因为 blogdown 一事闹得我又失去了安全感(有人指责我因为不看推特所以错失了用户的反馈),退回到了每天看几遍的习惯,一退又是半年多,现在终于又重新找回了一点安全感,再次逐渐回到每周看一次的轨道上。

        若是自己主动选择的瘾,我不怨任何人,比如我喜欢打羽毛球,而疫情来了一两年都不能再打,心痒得不行,我认。但若是系统和算法推荐或勾引我产生的瘾,我则深恶痛绝,因为它在深挖和利用人性的弱点,并由此营利;尽管它从我身上不可能直接赚到一分钱,但我付出了昂贵的注意力,而且我也成了成千上万的韭菜训练集中的一员,浏览行为都被记录下来,然后被模型和算法宰割。社交媒体呈现出来的是已经经过模型和算法确认过的,大概率能让你的眼光移不开的内容,就比如极端新闻。极端新闻在社交媒体出现之前有没有?有,也多的是。区别在哪儿呢?在于社交媒体时代的极端新闻往往极富争议性,仿佛所有人都可以来当裁判或法官,而且裁定结果也往往是非常极端的,比如谁谁必须得死,现在(!)立刻(!)马上(!)就要把他拉出去枪毙八十回。我觉得这种争议性话题的呈现,是经过了模型选择的,模型主人在背后希望看热闹的人能打起来,因为只有打起来的人才不会退场,长时间不退场才能让一部分人看广告。若是一则没有争议的话题,大家最多是像过去一样,心里默默悲哀或愤怒几天,也就过去了。这就像我以前说《非诚勿扰》根本不是相亲节目,节目制作方的目的根本不是让台上的嘉宾相亲,而是让他们表演,从而让观众可以持续谈论这个节目。相比起社交媒体的手段,这完全是小巫见大巫。

        所以可能确实是你的生活圈子比我小一些,没有这么多纷扰。我要是说我有时候会有点羡慕你这样的生活,可能会被人揍(得了便宜还卖乖)。罢了罢了,牢骚发完,在这问题上脑子还是一桶浆糊,继续干活儿去了。

          墙内确实不能看推特,不过墙内根据这两篇论文名字搜还是可以搜出来的。
          第一篇《Statistical Modeling: The Two Cultures》,我找到的是翻译版,结束语里有一句概括了一下,约等于“不管黑猫白猫,能抓到老鼠就是好猫“:

          最佳的解决方案可以是算法模型,也可以是数据模型,也可以是它们的组合,成为科学家的诀窍是对使用各种各样的工具持开放态度。

          我多查了一下,这篇是2001年发的,作者正是随机森林的发明者。

          第二篇《Breiman's two cultures: You don't have to choose sides》,全篇在对比data models, algorithmic models, mechanistic models,然后突出第三种。文中把多元回归类的各种线性模型、时序数据类的各种时序模型归为数据模型,就是可解释性强的;把随机森林、神经网络、深度学习模型归到算法模型,难以解释的;然后提出有第三种机械模型。
          我小人之心揣测一下,这三位作者的本意是想说,嗨,伙计们,你们不用再纠结选数据模型还是算法模型了,现在有新的选择了,精度又高又是可解释滴。但文章标题确实有踩别人当垫脚石的意图。不过说实话,那个机械模型是撒我没看明白。隐约记得前两年刮过一阵工业4.0的风,不造机械模型跟仿真模拟有没关系。我觉得他们说不管数据模型还是算法模型都是基于相关关系,但机械模型能弄出来因果,这点我想象不出来。

          话说他们斗图用的那两张图片我也常见到,我觉得还蛮有趣的。

          yihui 而前两天有人写了一篇论文《Breiman's two cultures: You don't have to choose sides》来回应它:

          Breiman 文章的结语:

          To make my position clear, I am not against data models per se. In some situations they are the most appropriate way to solve the problem. But the emphasis needs to be on the problem and on the data...The best solution could be an algorithmic model, or maybe a data model, or maybe a combination. But the trick to being a scientist is to be open to using a wide variety of tools.

          Miller et al. 回应了个寂寞;)

          yihui 比如在净土宗和哥哥作图时代之前,我没有感受到 R 社区有什么党派之争,lattice 和基础 R 作图系统之间相处非常融洽,data.table 也没与基础 R 里的 *apply() 家族打过仗,更没有人站出来说 for 循环和 setwd() 该扔进垃圾堆烧掉、升级换代为 purrr 和 here。

          现在怕倒是需要有人写一篇文章: The two cultures of R programming: You don't have to choose sides

          yihui 是的,我的微信联系人有六百个,几乎不可能哪天没有新消息

          两位数联系人的微信号主向你表达同情。不过我估计回国后大概率会破防,所以格外珍惜现在这个两位数的时光。

          yihui 若是自己主动选择的瘾,我不怨任何人,比如我喜欢打羽毛球,而疫情来了一两年都不能再打

          既然不能打球了,不如就着这空出来的时间把 Two cultures of R programming 这篇文章写了吧。以你的江湖地位,写出来应该能起到一定拨乱反正的效果。而且还有附加效应,比如新闻头条"震惊,RStudio 两大佬内讧";比如刺激新歌创作,"心不再拼命躲,不去害怕结果;R 的下个路口,哈神谢神,你跟谁走"(《转角遇到 R》);没准儿还能辐射到博彩业,为此多开几个盘口。

          yihui 罢了罢了,牢骚发完,在这问题上脑子还是一桶浆糊,继续干活儿去了。

          恰当行使"罢权"挺好,好些事情不"罢了"又能怎么样呢?就像最近的"鸡蛋反生事件",一时间人人都对作者口诛笔伐,似乎大家都很高尚,连年初正大光明地宣布院士教授们的几十篇可疑论文"系图片误用,并无造假"的中科院都好意思腆着脸出来"呵"了。两相对比,我倒觉得这个毫不掩饰地搞玄学的职业培训学校的老师在人品上不一定比披着科学外衣混水摸鱼的科学院某些人低劣;何况别人还认错道歉了。这个事情让我想起聊斋的《犬奸》里蒲先生的话:

          呜呼!天地之大,真无所不有矣。然人面而兽交者,独一妇也乎哉?  

          "真是斯人不管,“如苍生何”",除了"罢了",还是"罢了"。   

          有意思的是,Netflix 本身就是用数据和算法做内容决策的先驱,现在反而被算法反噬了:

          https://page.om.qq.com/page/ODuzWt7p3mCOGQGQSptj6EDQ0

          毫不夸张的说,我觉得 Netflix 制作的原创内容大部分都是垃圾,而且这种情况已经持续很长时间了。现在能看一下的也就是 Hulu 和 HBO Max。

          5 天 后

          yihui 缺少个拍砖的按钮,所以除了点赞外,不喜欢的那群人则处于沉默状态。虽然也可以发表评论表明不喜欢,可是一来评论不是匿名的,二来评论花费的时间成本远高于拍砖。最终造成的错觉就是:看啊,大家都点赞了,一篇繁荣的景象。

            chuxinyuan 是的,这种设计上就不对等的事情是挺烦人:https://yihui.org/cn/2015/10/two-sides/

            不过呢,要是有了拍砖按钮的话,我估计社交媒体可能会极化得更严重。以前的极化只是存在于人们的感觉中,如果喜欢和讨厌同时被按钮量化了,那恐怕更是要加深两派的隔阂了。唉。