今天我们请到了芝加哥大学公共政策学院的博士、一起作业的数据科学家冯俊晨 @junchen 做我们的嘉宾。我先介绍一下背景。这次访谈有一个特别之处:俊晨在 2015 年冬天专门从芝加哥飞到奥马哈采访了我(采访稿见此),本着礼尚往来的精神,我这次反过来采访一下他。没有专程飞过去采访,在诚意上是老衲输了,还望冯施主见谅。

俊晨的个人主页在 http://junchenfeng.com;LinkedIn 页面在 https://www.linkedin.com/in/junchenfeng/ 。有这两个链接,各位客官应该可以大致了解他的背景信息。

下面我假装把话筒交给俊晨,先问博士君子日三省吾身的问题:你博士论文写完了没有?你博士什么时候毕业?你找到工作了吗?

(按照惯例,随时欢迎本论坛的会员加入采访)

junchen 别介,这样别人不就看出来你是我找来的托儿了吗。

毕业了好。恭喜冯博士,贺喜冯博士。我简单翻了一下你的论文 PDF 预览,一眼瞥见 Introduction 部分的小节是以 0 开始编号的,0.1,0.2,……不禁有点羡慕你们芝大,至少在卡论文格式上比我们 Ames 村办大学松一些。而且我看你也没用什么特殊的样式排版,应该只是 LaTeX 里简单的 book 类吧,真省心。我抄一段摘要如下:

The future of education is human expertise and artificial intelligence working in conjunction, a revolution that will change the education as we know it. The Intelligent Tutoring System is a key component of this future. A quantitative measurement of efficacies of practice to heterogeneous learners is the cornerstone of building an effective intelligent tutoring system that is able to generate practice recommendations adaptive to individual learner’s progress. This thesis proposes a framework for defining and estimating the practice efficacy, which can
be applied to a wide variety of learning processes.

所以你就是想造个机器人陪读?是类似“哪里不会点哪里 so easy”那种吗?

哪里不会点哪里

    yihui 更改标题为「访谈芝加哥大学博士、一起作业数据科学家冯俊晨

    我也来提个问,冯博士找工作的时候是快刀斩乱麻立马敲定还是纠结纠结再纠结?都经过了怎么个过程?

      上次见Junchen还是在光华餐厅,恭喜毕业,禁不住老泪纵横
      想提问 当时是怎么选择去学界还是去业界 为何选择加入17作业 你怎么看待现在互联网教育

        yihui 这个话题得再写一个thesis才能说明白。我们就从步步高点读机出发,说说智能家教(intelligent tutor)以及为什么数据(未来)在其中能够扮演重要的角色。

        首先,步步高点读机具有一定的教学能力,这就已经比国内大多数从题库脱胎换骨而来的“智能学习”服务要高明很多了。虽然我没有自己用过步步高点读机,但是从广告视频来看,它的基础教学内容还是不错的。这样就把真的家教从一些重复的、机械的教学过程中解放出来。此外,它的教学干预是实时的,哪里不会马上问,而不需要等到第二天老师讲卷子。及时反馈是有效练习的一个重要设计元素。

        但是步步高点读机在以下两方面做的很不足:
        (1)诊断的自动化
        “哪里不懂点哪里”,说到底还是需要学生自己汇报错误。从学生的做题答案,做题过程乃至学习过程中应该可以诊断学生的不足。

        (2)教学的个性化
        步步高点读机的教学内容是标准化的,这就有两个问题。
        (a)同一个问题可能有不同的疑难分支(长方形面积算错了,是不理解面积公式还是不理解乘法?),不同疑难分支应该有不同的教学干预
        (b)同一个疑难分支可能需要不同的教学干预强度。比如,不理解面积公式,是不是不理解长方形?教学生一次面积不理解,是不是需要重复第二次?

        以上都是一个人类老师在真实教学场景中会做的。这两点在很大程度是机械化的,是固定动作;因此未来很有可能这些任务都会被算法替代。事实上,美国已经有一家NGO成功实现了对于小学数学老师的部分替代reasoning mind

        诊断怎么做,教学干预怎么给,以至于教学内容怎么生产,广义的data science有很多可以做的地方。当然,现在受制于学习媒介和交互模式的限制,数据科学在教育领域目前还处于PR价值大于商业价值的阶段。

          xuening 哈哈,雪姨你都“老泪”我岂不是古董了。
          不走学术两个原因:
          (1)实在不擅长写paper。
          (2)老板罩不住,圈子混不开。

          特别实在的原因

          junchen 啧啧,不愧是已经沦为博士的人,说起话来既认真又有条理,我就喜欢这种说话列一二三的方式。你说的去除人力重复、自动诊断和个性教学,简直都太重要了,这些应该会大大提交教学效率,而且我觉得将来还有更重要的意义是能让教育资源更公平地分配,比如你们的系统要是做好了,将来也许都不需要往山区输送支教的志愿者了,直接一批电脑拖去,小朋友们就可以用最高效的方式自学了(当然肯定需要一定的人力监督)。想想还蛮激动人心的。

          PR 价值是啥意思?跟码农说 PR 要小心,他们脑子里只有 Github Pull Request。

          我看到贵司的介绍中有一句“科技中有温度,数据里有梦想”,感觉是个文案高手,起码有点煽动我。我联想到你博客里有一篇《如诗的政治宣传》(是我觉得最有意思的一篇),你们公共政策学院是不是会重点学习广告学?我感觉公共政策像是文科(要是说错了莫打),你本人似乎非常偏向于做定量研究,这是现在的普遍趋势还是更多是你个人的兴趣?

          还有,你好像漏了 Ihavenothing 的问题。

            Ihavenothing 我的就业历史(以及求学历史)是比较奇怪的。在选择“教育+数据”这个方向上,我已经没有什么纠结了;但是不代表我之前没有纠结过。

            我从北大毕业后,错误地把学术研究和“中国式”横向项目组打工等同起来,因此对于学术非常心灰意冷。我到了Harris Master of Public Policy项目之后,决意不读博士,硕士毕业就工作。当时我想做的方向是养老金。非常幸运地,Harris给我指派了一个亦师亦友的mentor。在这个mentor的带领下,我做了相当前沿的fin tech(主要是passive porfolio management和human capital pricing)以及一些HFT的工作。但是后来我意识到养老金这个问题吧,是个死局,不论是中国和美国都没啥解药了。我本人对于赚钱的热情并不是那么高涨(当然fin tech做的也没牛逼到可以躺着赚钱),还是想从事一些对于人类有意义的工作。

            于是2013年在我mentor的鼓励下,我开始在教育领域创业。当时有两件大事深深刺激了我。第一,Netflix prize刚刚发布,协同推荐似乎可以解决一切问题。第二,khan academy开始规模化扩张,互联网教育似乎可以解决一切问题。当时我的想法是,Khan Academy + Netflix不就完了么?第一,这条路从逻辑上走不通。第二,教育的市场推广是个水很深的行业,不是一个能站着赚钱的事儿。

            于是在2014年末,我加入了17作业网,担任数据科学家。教育数据现在还是一个非常冷僻的旁门左道,但是未来将是一个数据量媲美电商/HFT的大产业。所以接下来10-15年我准备在这条路上走到黑。

              yihui 我相信教育技术最后会拉高教育的最低水平,但是它对于教育最高水平的提高速度会更快;所以最后可能的结果可能向改革开放一样,min提高了,range也提高了。当然我个人的志向更多的是提高min(个人主页的title figure是我14年去哈佛骗钱的时候写的一个ppt,mitigate education inequality with technology and data)。

              yihui这种逻辑有个致命的盲点(这也是我第一次创业失败的主要原因),那就是大部分孩子缺乏自主学习所需要的grit(韧性)。不是说他们学K-12的东西学不会,他们学其他东西也不一定能学会。给他们更好的资源也不一定能用起来。因为我和yihui浸淫在“自我实现人”环绕的环境中时间太长了,已经忘记了这个世界上大部分人在非智能力(non-cognitive skill)上的修为真是不行。

              所以未来我更看好的教育数据应用领域是对于非智能力的培养和测评,因为这需要用到行为流,很有意思。举个例子,如果你把王者荣耀当做一个培养团队协作能力的教学方案,你也可以套用我上面的教学框架。通过玩家的游戏行为判断其团队协作的不足之处,告诉他们怎么改进,并根据他们的改进行为进行下一次迭代。想想这里面涉及的数据模型和工程挑战,就会让人睡不着觉。

              这并不是我的疯狂想法。隐形测评(stealth assessment)在美国是教育技术研究的前沿领域之一。Florida State U的Valerie Shute等一直致力于把学习和游戏结合起来。他们之前探索过怎么用Valve的Portal 2来做评估解决问题的能力。ETS在这方面投入也很多(例如这个),未来玩个游戏就出TOFEL或者GRE或者SAT成绩不是不可能。

              更广义地讲,把研究的重心从学习结果转移到学习过程,把交互模式从纸笔时代的单向输入转移到平板时代的双向互动,这是大势所趋。只不过国内的ed tech还没有开始好好思考这对于教育技术和教育业态将产生怎么样的革命性变化。

              于是就说到PR(aka 吹牛逼)。国内大部分教育技术公司(可能除了流利说之外)都停留在题库套个IRT就吹自适应的时代。且不说这样做的实际效果非常差,而且它浪费大量本来可以用来冒更有意思风险的VC资本。流利说在教育技术上的理解的确比大部分公司更好一些,但是他们没有公布任何详细的技术文档,从他们的PR稿透露的技术细节,我也不认为他们成功解决intelligent tutor的教学设计难题。AI老师我猜更多是噱头。

              教育不赚快钱,大部分时候也不赚大钱。Khan当时考虑是否要把Khan Academy注册成一个公司或者一个NGO,他的一个朋友跟他说,你所敬仰的教育机构,哪一家是for profit organization?Khan于是决定做NGO,这样才能淡泊行远。我觉得这不是一个有美国特色的问题。很难指望VC模式下的Ed tech公司真的能做一点功在当代,利在千秋的长远工作。毕竟投资人想退出,员工想退出,箭在弦上,不得不发。

                yihui 补充回答一下yihui最后一个问题。

                虽然我现在标榜自己是个码农,但是我的本科背景是标准的liberal arts。我高中为了考北大,投机地选择了文科。我本科主专业是公共政策(我们也学习相当多的政治学和经济学),二专业被田中老狗蛊惑去学了历史系的世界史方向。到了大三,有幸学习了CCER(现在北大国发院)的朱家祥教授的计量经济学,相见恨晚。于是大三下开始转攻计量经济学和统计学。

                由于这个原因,我对于历史和政治,特别是讲故事,还是比较关心的(NPR死忠)。然而跟cos里真正能吟诗作画的文士比,我最多也只能算个“循吏”。嘿嘿

                  junchen COS也是在非盈利教育闲庭散步了11年了,你COS的教育输出有什么理解?优缺点以及建议?

                    junchen 这位少侠果然骨骼惊奇。一指头就把我的想法戳了个大洞,我当时还特意给装上了防火墙(括号“需要一定的人力监督”)。你说的非智力因素的确也有相当大的决定性作用,即使哪里不会点哪里,首先也得走到“哪里不会”这一步。

                    “行为流”听起来很吸引我,虽然我感觉如何去量化行为听起来好像有点棘手。我很少打游戏,也不太懂王者农药里的协作什么的。这东西更多是定量记录一些指标,还是有活人在一旁观看游戏去定性评估?

                    我最喜欢看的一个人的状态就是因为什么挑战睡不着觉(我最巅峰的状态只是睡觉时迷迷糊糊还在想一个问题)。看来上次前年在奥马哈咱们一顿饭的工夫还是扯得不够,你这脑子里非常有料。

                    说到把学习和游戏结合起来,你给的文献我由于时间关系没仔细看,但立刻让我想起《娱乐至死》里面第二部分第 10 章《教学是一种娱乐活动》,我是倾向于认同作者的观点的,即:这是个糟糕的主意。我觉得游戏和娱乐已经大幅修改了我们的大脑了,再让它们来祸害教育的话,即使表面上有智力提高的迹象,但实际上是饮鸩止渴。人会变得为了寻求(虚拟)奖励而去做一件事。就像社交媒体虽然表面加速了人与人之间的连接,但实际上也改造了现实中人与人的交往方式(路上遇到个朋友,感觉不过如此;而微信图标上弹出一个红色的数字,就会让人焦躁难耐要去戳开)。实际上这也回到你最前面说的智力能力和非智力能力问题了,我觉得提高教育效率的同时应该注意维护心理、情商的发育。可能是我杞人忧天。

                    我双手赞同把研究重心从学习结果转向学习过程的做法,教育的最终产物如果只是卷面分数的话,我觉得是很可悲的。我也很佩服你说的“教育不赚块钱”的理念。风险投资与创业公司之间的矛盾,我在敝厂也略有感触:RStudio 诚心热爱开源事业,所以一直抵抗并将长期抵抗风投,这个挺难得也挺难的。看对面那家同样捣鼓 R 的,捣鼓了几年就抱大腿去了。

                    junchen 投机考北大就能考上,那也是蛮厉害的。我要是投机选文科,估计现在从蓝翔毕业好些年在什么地方光着膀子开挖掘机。同样跟你相反,我在讲故事方面弱到爆,让我看一个故事复述出来比登天还难(我还记得我本科有个同学看了《活着》给我从头到尾复述了一遍故事情节,当时我就震惊了,至今印象深刻)。你是被计量经济学吸引到定量分析领域的,那你现在能不能回头扯一扯自己在计量方面的心路历程?(我在搬板凳等你吐槽,你懂的)

                      cloud_wei 这事儿你得问懂运营的同学,但既然太云问了,不能不答。

                      (1)cos的教育输出缺乏一个高频的流量入口。我不知道中文的R问答的大本营是不是还在人大经济学论坛。这是一个典型的高频流量入口。

                      (2)非盈利不等于没有营收。cos现在完全没有营收,靠业余志愿服务就只能大家闲来无事扯扯淡。当然钱不一定需要VC,PE来投。你找个土老板捐个几千万也不是不行。但是问题是,这钱拿来干啥?于是就又回到第一条。

                      yihui 我个人不觉得学习会是一个快乐的事情,也不觉得学习是个游戏。学习是个承认自己傻逼并且克服自己傻逼状态的过程。不论是承认还是克服,都很痛苦。

                      这里需要辨明的概念是短期反馈和长期激励。练习的反馈的确是要越短越好,但是驱使学生坚持练习的一定是长期激励。长期激励很难靠游戏化来维护,不论数值体系做的如何牛逼。游戏化可能的贡献在于把学习从一个个体行为变成一个群体行为,依靠人际关系来维护长期激励。这又是另一个大话题,咱不表。

                      noncognitive skill的贡献现在还处于比较初级的阶段,但是有很强的证据表明它和cognitive skill一样重要。所以现在教育部搞得啥子核心素养,大方向的确是对的,但是具体落实下来做什么,怎么做,就不忍直视。我们事实上不太知道grit这玩意怎么培养。现在大致的观察是,爸妈grit,娃也grit。这里面多少是基因,多少是熏陶,现在还有很多争论。

                        yihui 我大三时初接触计量,最大的震撼是通过抽样在群体层面上验证因果关系实在是太厉害了。这与历史学以及政治学主要依靠案例研究(aka讲故事)来做因果有很大区别。老朱是做时序计量的,所以当时讲到Granger causality时我简直想献出自己的膝盖。到了芝加哥大学,我又系统学习了在截面数据里怎么做因果检验的一系列技术(我的恩师Robert Ralonde是通过随机控制实验进行因果检验的新浪潮的始作俑者之一)。所以到了研二的时候,学成了一个toolbox,大有屠龙之技已成的慷慨之志。

                        就在那个时候(2011),我开始接触machine learning。在统计系和计算机系蹭课时我遇到了一个困难:我无法给非计量经济学背景的人讲明白啥叫工具变量(instrucmental variable)。这促使我反思,计量里面的这些技术,到底是屠龙宝刀,还是杀鸡牛刀。这个反思让我意识到一个非常可怕的问题,那就是整个计量经济学事实上是建立在对于一个看不见的变量(aka epsilon)的结构假定上的。大家吵来吵去,颇似当年基督经学里一个指头上能站四个天使还是五个天使的辩论。所以计量经济学(即使不考虑所有regression torture的技巧)也是一个比讲故事的学科,只不过这个故事是用数学符号和程序代码写成的,而历史学和政治学是靠自然语言写成的。

                        当然学计量经济学也不是没有收获。计量在抽象建模上还是很有两把刷子的(与machine learning相比)。不是所有问题都可以通过调库和调参解决的。All models are wrong, but some are useful.

                        碰巧这个时候,我恩师的身体从不佳变成了病危,他也没空管我了。在我mentor的影响下,我开始努力用数据去描述和解决现实问题,而不纠结于这事儿是不是在计量上离经叛道。然后我就选择了教育数据这个领域。

                          yuanyuan 赞,我回头关注一下神牛gogo。
                          流利说和猿辅导在deep learning上都很有建树。流利说将之用在语言识别上,猿辅导将之用在画面识别上。这两个应用场景是非常明确的。

                          但是我关心和好奇的是,他们是怎么把这些技术用在教学推荐上的。流利说的AI老师是怎么实现教学逻辑的(我印象中有个PR稿上说他们用的是genetic algorithm,但是具体怎么用我想不明白),它的实际教学效果怎么样。在这方面,大家都语焉不详。有些内部的小道消息,我也不方便说。我能说的是,他们PR吹得有点过。

                          说到这个问题,我想吐槽一下国内做教育数据挖掘的环境。许多公司不愿意交流。但是大家面临的问题非常类似,目前的解决方案也非常类似。有些坑,我们已经付过了智商税,别人就不用再付一遍了。有些轮子,别人造出来了,我们就不用再造了。多交流,多沟通,有自信大家交换思想后自己迭代地还是比对手快,这才是一个良性的产业集聚外溢。

                          当然,不沟通不交流也是toVC toPE的商业模式的恶果之一。说到底,他们的首要任务是为股东赚钱,而不是为人类留下教育遗产。无可厚非但是也非常可惜。

                            junchen 是的,PR是太过了,之前挺喜欢的一家公司,都有点反感了。你吐槽的不愿意交流的事情,我也深有体会,之前R会我曾经连续邀请过猿辅导的数据团队负责人,然后连续被拒。

                            AI教学逻辑我觉得更像是噱头,看样子还是想走工具+服务的商业化路线,最后的服务感觉很难用AI来落地。倒是它最早的发音评测系统,当年让我眼前一亮,我看流利说的工程师提及的技术细节也多是这个评测系统相关的。