yuanfan 一是将每年社交媒体的一个数据趋势和年轻女孩自杀率的趋势放在一起对比,试图引导观众相信社交媒体是自杀率上升的最主要影响因素。
嗯,这幅图是我看完这片子后最大的疑点(所以我还是看了),昨天晚上还在脑子里想这事儿。这种引诱式论证是我不太喜欢的。砍人可以,立正站直了再抡刀,不要扭扭捏捏地在背后捅人,或诈唬人。地球人都知道,相关不等于因果,但不是每个地球人都能在这个片子的催眠语境下还能保持清醒。
yuanfan 社交媒体出现后,种种原因导致两派极化问题加深
据脸书自己的员工说,因为扎克伯格的最高目标就是增长用户,所以一切能促进增长用户的手段他们都用;他们的员工用数据确认过,要保留和持续增长用户,那么他们的内容推荐模型就会极化用户的观念。他们明知如此,领导层仍然不愿意放弃增长用户的目标。
再举个我昨天在推特上刚看到的一个令我震惊的例子:https://twitter.com/tslumley/status/1387131226780180480 你在墙内看不到,不过大意是这样:Leo Breiman 有篇著名的论文,叫《Statistical Modeling: The Two Cultures》,摘要如下:
There are two cultures in the use of statistical modeling to reach conclusions from data. One assumes that the data are generated by a given stochastic data model. The other uses algorithmic models and treats the data mechanism as unknown. The statistical community has been committed to the almost exclusive use of data models. This commitment has led to irrelevant theory, questionable conclusions, and has kept statisticians from working on a large range of interesting current problems. Algorithmic modeling, both in theory and practice, has developed rapidly in fields outside statistics. It can be used both on large complex data sets and as a more accurate and informative alternative to data modeling on smaller data sets. If our goal as a field is to use data to solve problems, then we need to move away from exclusive dependence on data models and adopt a more diverse set of tools.
而前两天有人写了一篇论文《Breiman's two cultures: You don't have to choose sides》来回应它:
Breiman's classic paper casts data analysis as a choice between two cultures: data modelers and algorithmic modelers. Stated broadly, data modelers use simple, interpretable models with well-understood theoretical properties to analyze data. Algorithmic modelers prioritize predictive accuracy and use more flexible function approximations to analyze data. This dichotomy overlooks a third set of models − mechanistic models derived from scientific theories (e.g., ODE/SDE simulators). Mechanistic models encode application-specific scientific knowledge about the data. And while these categories represent extreme points in model space, modern computational and algorithmic tools enable us to interpolate between these points, producing flexible, interpretable, and scientifically-informed hybrids that can enjoy accurate and robust predictions, and resolve issues with data analysis that Breiman describes, such as the Rashomon effect and Occam's dilemma. Challenges still remain in finding an appropriate point in model space, with many choices on how to compose model components and the degree to which each component informs inferences.
这摘要的第一句就吓到我了。我想了半天不能理解这三个作者怎么会认为 Breiman 认为数据分析必须在两大派别中选择一派。是我的英语阅读理解出问题了吗?Breiman 明明是在呼吁传统统计学家应该不要只停留在解释型模型里,而应该多关注一下预测型模型,这是无比智慧的建议。怎么到了这几个作者口中一转述,就变成了“Breiman 认为数据分析者必须选边站队”了?换句话说,两边怎么一下子就变成对立姿态了?论文中还明目张胆用了 dichotomy 一词。
当然,这个例子与社交媒体可能没什么直接关系,我想说的是社交媒体似乎对这种对立的思维有很大的推波助澜的作用。再比如在净土宗和哥哥作图时代之前,我没有感受到 R 社区有什么党派之争,lattice 和基础 R 作图系统之间相处非常融洽,data.table 也没与基础 R 里的 *apply()
家族打过仗,更没有人站出来说 for
循环和 setwd()
该扔进垃圾堆烧掉、升级换代为 purrr
和 here
。而现在则三天两头在推特上打个不可开交,用基础 R 的人三天两头要被净土宗人士嘲讽,如:
这到底是要闹哪样?
那个片子里提到了点赞按钮的初衷是让人们感受爱。如果我在社交媒体创立之初听到这句话,可能真会被感动一下。而现在呢,点赞按钮让谁感受到爱了?它成了一个将人群隔离开的工具——社交媒体上每一个赞,就是我对我所属党派所投下的坚定的一票,然后向敌对方展示:看,我党有这么受欢迎(高达八千个赞),根本没有人站在你们那边。而那些本来犹豫不决的人们一看,乖乖哟,不得了嘞,看来大家都选择了某党,我这么弱鸡,最好还是随大流吧,免得被这么多人笑话或攻击。
另外,我觉得对个人而言,爱是有很大的私密性的。点赞按钮用在社交媒体上,带来的不是纯粹的爱,还带来了一样本不该附带的东西,就是公开的数字。如果爱带着公开的数量,那带给人的情感就不再是爱了,而是虚荣。爱是不可以被公开量化的。
yuanfan 我想了想造成我们对此有分歧的点可能在于我们处于不同的社会阶层。在我目力所及的地方,人们仍然主要为生存苦、为求而不得苦。
是的,我的微信联系人有六百个,几乎不可能哪天没有新消息;我已经在玩命退群了,比如前几天给大数讲下厨,组织者拉了个微信群,拉我之前我就说了我讲完就会退,然后讲完我回了听众几条消息,就真退了。连统计之都的群我几年前就退了,后来还拉我进过一次小群,都是统计之都的核心组织者和好友,我观察了一天,觉得里面的消息依旧是浓浓的微信风,我不喜欢,所以我加进去之后一个字都还没说,大家排队欢迎我入群的掌声还没平息,我就默默退了。我的推特账号也一样,成天有新消息通知,需要我用意志力去克服这些新通知的引力,曾经成功过两年,去年因为 blogdown 一事闹得我又失去了安全感(有人指责我因为不看推特所以错失了用户的反馈),退回到了每天看几遍的习惯,一退又是半年多,现在终于又重新找回了一点安全感,再次逐渐回到每周看一次的轨道上。
若是自己主动选择的瘾,我不怨任何人,比如我喜欢打羽毛球,而疫情来了一两年都不能再打,心痒得不行,我认。但若是系统和算法推荐或勾引我产生的瘾,我则深恶痛绝,因为它在深挖和利用人性的弱点,并由此营利;尽管它从我身上不可能直接赚到一分钱,但我付出了昂贵的注意力,而且我也成了成千上万的韭菜训练集中的一员,浏览行为都被记录下来,然后被模型和算法宰割。社交媒体呈现出来的是已经经过模型和算法确认过的,大概率能让你的眼光移不开的内容,就比如极端新闻。极端新闻在社交媒体出现之前有没有?有,也多的是。区别在哪儿呢?在于社交媒体时代的极端新闻往往极富争议性,仿佛所有人都可以来当裁判或法官,而且裁定结果也往往是非常极端的,比如谁谁必须得死,现在(!)立刻(!)马上(!)就要把他拉出去枪毙八十回。我觉得这种争议性话题的呈现,是经过了模型选择的,模型主人在背后希望看热闹的人能打起来,因为只有打起来的人才不会退场,长时间不退场才能让一部分人看广告。若是一则没有争议的话题,大家最多是像过去一样,心里默默悲哀或愤怒几天,也就过去了。这就像我以前说《非诚勿扰》根本不是相亲节目,节目制作方的目的根本不是让台上的嘉宾相亲,而是让他们表演,从而让观众可以持续谈论这个节目。相比起社交媒体的手段,这完全是小巫见大巫。
所以可能确实是你的生活圈子比我小一些,没有这么多纷扰。我要是说我有时候会有点羡慕你这样的生活,可能会被人揍(得了便宜还卖乖)。罢了罢了,牢骚发完,在这问题上脑子还是一桶浆糊,继续干活儿去了。