编者按:本文翻译自 2018 年 10 月 15 日至 10 月 17 日在弗吉尼亚州举行的 “十字路口的统计: 数据科学时代的挑战和机遇” 研讨会报告。该报告由 Xuming He 组织并由指导委员会(成员为 James Berger, Xuming He, David Madigan, Susan Murphy, Bin Yu 和 Jon Wellner)审核,由吴喜之老师翻译,已得到译者授权。本翻译工作首发于统计之都网站和微信公众号上。
报告正文由 “统计和数据科学的作用 / 价值”、“科学和社会应用中的挑战”、“基础研究”、“专业文化与社区责任”、“博士教育” 五部分组成,计划分三期推出。第二期内容为第二部分 “科学和社会应用中的挑战” 和第三部分“基础研究”。
我们首先讨论由科学、工业和社会中的复杂领域问题引起的数据挑战,然后讨论需要基础统计研究来应对大数据挑战的许多新兴应用。所谓 “应用”,不仅仅意味着要使用现有的方法来解决问题,更重要的是,我们的目标是运用统计理论和原理来开发新的及在实际中有用的方法。
- 科学和社会应用中的挑战
2.1 数据挑战
新兴的数据问题将推动数据挑战。数据科学和 IT 市场的生态系统正在迅速进化,从而创造了具有可能无法预料的创新的新跨度。Netflix 建立了电视内容推荐系统,然后对其进行反向工程,以创造新的流派来吸引观众。同样,YouTube 也为小众表演者创造了新的机会来发现他们的艺术并将其商品化––比如业余乐队的一个音乐家表演吸引了万分之一的美国人,YouTube 和其他载体便可以将他们的音乐卖给三万个客户,并且他们可以辞去日常工作。我们脚下的大地正在变化,我们必须比前几代统计学家变得更加敏捷和富有企业家精神,以实现统计学的转变。国家科学院的报告 “海量数据分析的前沿” 讨论了大数据带来的许多挑战。
复杂的领域问题伴随着不同的数据形式: 数字、图像 / 视频、语音和文本、以及这些形式的集成。统计的转变是由大胆的实践和跨学科研究驱动的,这些学科在计算和理论的支持下来解决此类数据问题。相关的理论和计算是始终需要的,但与过去相比,在很大程度上,有价值的学术成就将建立在在实践和跨学科研究的基础上。
具体来说,在新时代,我们看到以下数据挑战:
数据的复杂方式多种多样: 数量、速度、多样性、有效性,如果包括对抗性训练,甚至用 V 代表 Vendetta(仇杀队)
在许多情况下,可用数据并不是总体的有代表性的样本
通常,观察到的数据是许多不同数据生成机制的叠加
一些特定的解决方案可以推广,而某些则不能。我们可以在类似问题上借用其强项及获得启发,但是每种分析都必须适合于实际情况,以实现最大的收益
欧盟的 “通用数据保护条例” 对分析施加了紧迫性,因为人们可能会反复随意地选择加入或退出研究,并且分析人员可能需要不断进行昂贵的重新计算
“通用数据保护条例” 还要求透明性和可解释性。如果某人被拒绝贷款,那么分析师必须能够解释原因——他们需要再稳定工作两年,或者他们每年需要多赚 5000 美元。定义可解释性的含义是当前的研究
可重复性: 数据的清洁程序和处理需要成为可重复性管道的一部分。我们需要制定一套通用标准
公平性: 负责任的数据分析必须解决公平性问题。当数据涉及人群的时候,抽样或测量中的偏差会导致歧视。我们必须教育所有人在数据分析中关于确保公平性的需要;参见,例如,Dwork et al(2012)
相应的文化和人类结构需要与这些数据挑战保持一致:
基础设施: 需要考虑到与数据分析有关的 “费用”,包括组织大量数据和理解数据结构。这需要物理基础设施(数据库、在线存储库、数据管理、GitHub 和共享软件) 以及具有适当知识 / 培训的数据“专家”
随着问题空间变得越来越复杂 (例如,基因组学或社交网络中的因果推理),需要多学科团队,甚至需要确定一个可处理的问题
数据挑战通常是依赖于领域的; 不同的领域 (从物理科学到社会科学) 需要具有不同技能 / 专业知识的统计学家和数据科学家。重新构想的统计教育计划需要用这样的技能来训练我们的学生
统计本身产生于科学家需要量化地使用测量、观察和实验以更好地理解科学现象的需要。天文学、赌博和遗传学等初始应用领域推动了统计理论、概念和方法的开发和使用。自 Breiman(2001) 以来,我们在将机器学习作为统计的一部分方面取得了进展。在数据科学时代,新兴应用非常丰富。在接下来的几个小节中,我们讨论了选定的几个,并不做出列表是详尽无遗的任何暗示。
2.2 精准健康 / 医学
精确的健康 / 医学研究需要对多模式、多尺度、多视角、异质和相依赖数据进行集成和推断; 预测和不确定性量化以解决临床医学最大问题; 将根据疗效数据 (即临床试验数据) 获得的结果外推至有效性数据和个别患者的治疗。
由于生物医学研究技术的进步以及捕获和存储大量数据的整体能力的提高,生命科学,医学科学以及公共卫生领域的研究已经发生了重大转变。这些变化将科学生产力的瓶颈从数据生成和收集转移到了数据管理、分析和解释。生物医学和生命科学中数据的爆炸式增长可以用来构建更精确,更准确的疾病分类以进一步发展精确的健康 / 医学概念,从而有可能彻底改变诊断,治疗和临床决策的制定,以导致进行更个性化的治疗并改善患者预后。例如,降低基因组测序的成本会增加可用的遗传数据,这些数据可用于了解许多疾病的根本原因。此外,电子健康记录可用性的提高提供了对临床数据的访问,而各种移动设备提供了生活方式和其他类型的数据,可用于促进疾病的更准确诊断和治疗。
因此,精密医学是一种新兴的疾病治疗和预防方法,它可以解决个体差异并整合一系列个性化数据,包括基因组、表观遗传、环境、生活方式和病史数据。它着重于将个体分为对疾病的易感性和可能的治疗反应不同的亚群。