今天我们有幸请到了堪萨斯州立大学植物病理学系的刘三震老师 @liu3zhen 为大家分享他的留学和工作经历。欢迎大家在下面踊跃盖楼提问,刘老师会尽量找机会答复大家。我自己先问为敬。此前先交待一下背景信息。

刘老师和我都是爱荷华州立大学(ISU)毕业生(他生物,我统计),但正式碰面则是毕业几年后的事了。今年 3 月初我受邀去刘老师任职的系访问两天,顺便了解了一下他的工作。我的生物知识有限,当时说到的一些细节问题我也记不清了。我现在还有印象的一是他提到他们有些图形的绘制用现有软件非常慢,甚至要花十几天时间,我感觉可能有很大改进空间,在统计模型方法方面也一样,可能需要跟更专业的人士合作;二是我当时看见他办公室地上有个树莓派(Raspberry Pi)盒子,于是很好奇问他用这个做什么,后来了解到他们用树莓派对受病毒侵害的植物每隔一段时间拍照一次,最后拼接成了一个视频,可以看到植物枯萎的过程。刘老师的实验室主页在:http://plantgenomics.ksu.edu 感兴趣的朋友可以去那里看到更多信息。下面我开始提问。

请您先简单介绍一下自己,并尽量以门外汉能懂的语言介绍一下您的实验室吧。

大家好,很高兴在统计之都和大家交流,感谢益辉提供的机会。我是2004年到美国爱荷华州立大学(ISU)留学,学习植物遗传。开始两年做了不少传统的生物遗传实验,后来接触了大量的生物数据,开始学习编程(Perl和R)和统计,慢慢地进入了生物信息领域。2010年博士毕业之后留校做博士后,延续博士期间的生物信息工作。在这之前,我毕业于厦门大学生物系,厦大毕业之后在上海博星生物芯片公司工作三年多,然后申请出国留学。2013年,我开始在堪萨斯州立大学植物病理系任教并有了自己的实验室。目前我的实验室有两个主要研究方向。第一,了解植物(例如玉米和小麦)抵抗病原菌的分子机制。说到分子机制,可以理解成是什么基因通过何种途径达到抗病效果。第二,试图解析植物组织培养和再生能力的分子机制。这些研究都是为培育“强化版”作物提供支持。在我们的研究中,数据是核心,大量的生物数据对我们的分析能力提出更高的要求,这就是为什么我们(生物行业)和计算、统计有了更多的交叉,也是为什么我们希望和益辉和更多的统计之都的同学有更多的交流。

    哈哈,欢迎刘老师,这么好的帖子居然没有开个直播,太低调了。?

      liu3zhen 我听很多学生物的同学吐槽说当年高考报志愿都被一句话给蒙了:“21世纪是生物的世纪”,然后稀里糊涂入了生物的坑,觉得很苦很累又很难出成果,不知您对此作何感想?生物是您发自内心的兴趣吗?

      您工作三年之后才申请出国,这种案例似乎并不太常见,一般人好像都是念完本科或者研究生就直接申请出国。选择工作的人似乎倾向于不再去做学术研究,您是如何想到还想出国深造的?(若出于个人原因,可不必回答)

      在您的研究领域,数据大致都长什么样?规模在怎样的数量级?可否列举一些具体的常用分析工具?以及列举一两个科研过程中常见的困难和挑战?(可以是软件方面,也可以是人力资源方面)

      Ihavenothing 这就是文字直播。我并没有专门准备问题,想到哪儿问到哪儿,大家都可以加入采访队伍。

      益辉,问题不少。首先,我想说当年选择生物确实受媒体的影响,高考报志愿觉得这个是未来的方向。大学期间忙忙碌碌地学习,觉得生物挺不错的,为了充实自己,还选择了计算机作为辅修专业。记的大学毕业时,同班同学大多还是喜欢所学的生物专业。学生物面临的困惑是就业选择机会不多。生物研究,特别是基础研究,大多和现实生活相隔遥远,所以,从事生物研究得承受某种孤独感,还有益辉所说的“苦和累”。不是体力上的苦和累,而是时间的大量投入和回报的不匹配。我自己也曾困惑迷茫过,但对我来说,放弃可能更难。目前,各类生物科技迅速发展,潜在的机会(科研发现和创业)还是不少,大数据时代提供了新的机会 。还有,科研工作需要创新,从发现和解决问题中得到乐趣,这是我的激情所在。

      工作三年再出国,这种例子是不多,最大原因还是觉得当时技术工业化有些太早,行业需要扎实的学术积累,所以就下定决心出国留学。可能是因为耽误了几年时间,出国之后就更有紧迫感,觉得不能再浪费时间了。工作后再留学,付出往往更多,这种方式我也不推荐。

      生物数据各种各样,我接触最多的是基因组测序数据,一个人的基因组有大约30亿个字母的DNA密码,波士顿BROAD研究所每10分钟测定一个基因组,一天产生17Tb的数据,这还仅仅是一个研究所的数据。数据主要是以文本文件格式存储,各个物种数据格式都是标准化的。基因组测序的是基因组的短片段,如何把短片段组装成较完整的长序列是个挑战。不同基因组相互比较,这就需要DNA快速比对算法。基因组信息还需要和疾病、各种表型特征建立关联,合适的统计方法非常重要。传统的生物学注重从假说(Hypothesis)入手,设计实验去验证假说。现在大量数据的涌现,很多时候需要统计和可视化方法来挖掘数据,编程工具(例如R)就显得很重要。数据挖掘就好比做实验,一个接一个的分析,就有了项目管理的必要,还有如何保证结果的可重复性(reproducibility)。益辉和其他RStudio的产品给了我们一些思路。例如,我试着用益辉的Bookdown来管理项目并更名为Projdown(后来觉得这名字有点怪怪的),目前正在继续试验。可以说,计算和统计是现代生物行业不可或缺的工具,反过来,生物数据的分析需求也推动了相关领域的发展。

        liu3zhen 辛苦了!我看您回帖时间已经是半夜 12 点多(而且还是周末),不知是否能代表生物领域科研人员的生活常态。

        非常佩服您这种作为基础研究人员一肩担起万古愁的意志。我曾在不同场合表达过,平均而言,我个人对从事自然科学工作者的佩服程度比社会科学工作者高许多倍(这是我的偏见)。可能多数自然科学工作者都是默默无闻的,但你们的研究才是社会进步最坚实的基础。

        回到技术问题上来。我大概可以理解我的 bookdown 对你们有什么用处,也很高兴你们在用它。我这大半年来在做另一个项目,叫 blogdown,它更适合管理零碎不成系统的 R Markdown 文件。bookdown 更好的应用场合是一个主题明确的项目,比如书籍(每一章对应一个 Rmd 文件);而 blogdown 就比较随意了,它是针对基于 R Markdown 建设网站而设计的,用户可以写一写比较随意的 Rmd 文档,比如哪天想到一个分析,就新开一个 Rmd 文件写上两段。在自然科学领域我听说有实验室记事本(Lab notebook)的工作方式,大概是用日志记录当天做了些什么实验有什么结果和发现。我觉得你们也可以尝试一下 blogdown,它可能更适合你们的日常工作。等一个项目相对比较成熟、到了做总结的阶段之后,可以再用 bookdown 来汇总过去做过的关键性分析报告,编成一本书或项目报告。

        我作为一个 R 用户,听到别的社区以及客户对 R 的一个成见是 R 无法处理大数据。RStudio 这两年做了非常多的大数据相关项目,例如 sparklyr / dbplyr 等。我对处理大型数据这方面不是很在行,只有一点微薄的数据库基础,所以我想了解一下,既然你们的数据都是那么大数量级,我怀疑你们肯定不会直接第一步就上 R 去处理,那么您可否谈谈从原始数据到 R 能处理的数据这个过程大致是有些怎样的处理。方便的话,您可以给个例子,比如原始数据什么量级,中间经过怎样的处理,最后到达 R 里面是什么量级,计算需要怎样的硬件环境,耗时通常在什么量级(小时、天、月?),等等。

        还有一个纯外行问题:我突然想起来最近奥马哈的日本甲壳虫泛滥,这货在美国没有天敌,所以很难杀。我们的好多树叶和花草都被这货给吃光了。您的研究方向是植物如何抵抗病原菌,不知道有没有涉及到如何让植物抵抗这种外来生物的入侵的研究。我不想在菜园子里打药,实在拿它们没办法,我种的樱桃树都被它们完全吃秃了。

          我想请教一下刘老师,你们实验室的基因组测序数据的处理流程是怎样的,直接用R处理会不会有点又慢又不方便?因为我是做疾病的遗传基础研究的,主要方法也是高通量测序,实验室一般用R处理最后得到的变异数据,特别是统计和作图分析。谢谢!

            哇,看到这篇访谈真的是收益良多啊。作为一个统计系的学生,我也有很多问题想请教刘老师。

            1,我们统计在选方向的时候什么样的方向更符合您这样的实践者的要求呢?
            2,有什么推荐我们统计系学生修习的日常软件么,当然除了R以外。
            3, 目前大数据的软件这么多,方法也多的眼花缭乱,如何才能理出一个头绪在毕业后成为一个在业界或者学届立足的人呢?

              yihui,谢谢夸奖,我只是热衷于用我非常有限的知识解决一些问题。你说的奥马哈日本甲壳虫问题,应该是可以找到非农药的解决方案, 你可以提出挑战,设立资金资助(这个很重要),我想一定会有好的科研建议书供你选择。这也是当代科研的一种模式,例如,现在农业需要提高作物的抗热、抗旱、抗虫和抗病等能力,这就提出了研究问题。各个科研课题组会根据自己的专业特长提出问题的解决方案,如果课题得到资助,一般会花3-5年努力实现所提出的目标。不扯很远了,回到技术讨论。我喜欢Bookdown里的Rmd文档以01-,02-设置,文件结构很清晰。我们最近安装了本地版的GitHub (Gogs, https://gogs.io),希望Bookdown能方便地和Gogs衔接。今后我们会尝试Blogdown,管理一些零碎信息。

              yihui zcm2403 你们俩是对的,我们是不可能一开始就用R来处理数据。举个例子吧,有些日本甲壳虫对农药有了抗药性,假设虫子有2万条基因,我们分别测定抗药和非抗药虫子接受农药处理时的所有基因的活跃度,我们目的是找到不同活跃度的基因。当然,实验设计少不了生物重复,如果我们有3个重复,这样就有6个样本。我们可能会得到30G (5G x 6)的数据,这些数据是大量零散的基因片段。我们首先分别把它们定位到各个基因上,这个过程需要高效的DNA比对软件,显然,R并不是编写这些软件最好的语言。每条基因上定位基因片段的多少代表基因的活跃程度,在数据上,我们用一大表格(20,000x6)代表2万条基因在6个样本中的活跃程度。这时R就派上用场了,统计分析和后续作图我们都是用R来完成的。这是个简单的实验设计,大多测序实验数据量更大,设计更为复杂。

                Lizncu 我不是学统计的,回答仅供参考。对于统计学习,扎实的理论基础和编程技能是今后发展的基础,我并不觉得需要刻意学习某些软件(如果不是特别需要),有可能,多学点Unix/Linux倒挺好的。还有,有机会多做些研究或实践课题,理论理解和技能在实践中会不断提高。观点可能过于片面,但是我的真实体会。

                  liu3zhen blogdown 采用的文件命名方式默认是以日期命名,而不是 01-、02- 这样的序号,所以我说它比较适合实验室日志。bookdown 并没有跟 Github 紧密捆绑,所以 Gogs 应该也没什么问题。当然,如果遇到问题,随时欢迎向我反馈:https://github.com/rstudio/bookdown/issues

                  为了我的一棵樱桃树的虫害问题,我目前还拿不出一个亿来立项……不过谢谢您分享这个流程,万一哪天我用得上呢。

                  上面 @Lizncu 的第一个问题让我联想到一个有点类似的问题(不好意思,问题像开花弹一样):根据您招收实验室人才的经历,您最看重他们什么样的能力或特点?我的意思是他们加入您的实验室之前就应该具备的能力。怎样的能力在加入实验室之后容易人工培养出来,怎样的能力最好是先天具备?比如生物领域知识、软件开发、统计知识、做事认真的态度之类的。

                  内容超丰富,访谈很精彩。如果 可以的话,整理下,可以发到主版或者微信公众号了。。。

                    causu 那是自然。这就是我们要发死力把论坛再做起来的原因之一,如果做得好,它可以给主站提供取之不尽用之不竭的稿源。抄送 @xuening

                    yihui咱这是在比赛谁睡得晚。招聘学生和博士后,确实需要考虑多个因素:个人兴趣、生物知识、实验能力、计算能力、创新能力、个性和个人投入时间的意愿等等。具备良好的基础知识和技能肯定好,但不是一定需要。特别是生物领域,个人的专业训练很大程度上取决于所处的环境(如实验室),基础和技能的好坏有时并不能客观反应能力高低。如果实验室提供合适的学习环境,一个人的努力和好学可以很快弥补技能上的不足。但其它一些方面的素养却较难在短时间内培养,例如思维习惯和钻研精神,这些可能是平时点点滴滴积累出来的。优秀人才有很多通性,但优秀人才也各有各的不同,我个人认为,导师和学生或博士后的匹配度也很重要。是否有一定的共同兴趣,能否顺畅沟通,是否能互相促动,增强各自(包括导师)的创造力。如果匹配度是一个参数,它应该是一动态的参数,有时需要双方共同努力使之不断提高。论坛里的同学,如果今后选择导师,也可适当考虑匹配度的问题。 总结一下,我觉得技能很重要,但一个人的勤奋和谦虚好学也同样重要。

                      liu3zhen 在晚睡比赛中,我还很少输。谢谢您分享您的人才观,我觉得说得很好。常有人问我出国留学选择学校和导师的经验,其实我唯一的经验就是找一个合适自己的导师(也就是您说的匹配度),毕竟是会在一起合作五年的人(生物专业应该会更长)。我个人根本不在乎学校排名。

                      那我再继续下一个话题了。您可否谈谈您发表过的比较满意或自豪的一个成果或者一篇论文?它解决了怎样的问题,您是如何发现或想到解决方案的?

                      yihui 好吧,我就介绍一些我的研究经历。我在ISU的导师是Patrick Schnable,他多年来积累了许多突变玉米,我们想探明什么基因改变导致突变。弄清楚每个基因都需要花好几年的时间,过程包括基因定位和克隆。我接手课题后,尝试了一些传统方法,但课题进展缓慢。在缓慢的进程中, 我积累了一些经验,这对之后的改进和创新都有帮助。我发表过几篇基因克隆的文章,其中两篇就介绍了基因定位和克隆的新方法。现在也看到不少人用我们的方法,自己还是有些自豪。要问为什么会有这些创新,我想首先应归功于好的课题需求,这一点我是很幸运的。还有就是失败的经历,失败让你想得更多更深入。有了课题需求,又积累了失败的经验,那么,如何才能想到解决方案(这也是益辉的问题)?这个很难回答,但我发现我们过去几个创新点有个共同点,它们几乎都是从交叉课题和不同领域中得到的灵感。所以我觉得对自己课题的投入和多接触不同类型的课题对创新会有一定的帮助。总之,需求、困境和失败是创新的动力,不同知识点的碰撞是创新的涌泉。

                        liu3zhen 我重申一下,您可以自由选择回帖以及自由中止,我知道您很忙,也不想占用您太多时间。

                        可否给一下您提到的那两篇文章的文献条目?你们生物的论文标题我通常十个单词就有七个不认识(基本上只认识冠词、连词和标点符号),我连蒙带猜一下是不是下面这两篇?

                        • Liu, S, CR Dietrich, PS Schnable, 2009 DLA-based strategies for cloning insertion mutants: cloning the gl4 locus of maize using Mu transposon tagged alleles. Genetics, 183: 1215-1225.

                        • Liu, S, CT Yeh, HM Tang, DS Nettleton, PS Schnable, 2012 Gene mapping via bulked segregant RNA-Seq (BSR-Seq) PLoS ONE, 7: e36406.

                        关于您说的从别的领域和交叉课题得到灵感,我作为一个码农也颇有共鸣。虽然我主要做 R 包开发,但我的大部分想法都不是对着 R 自身苦思冥想得来的,有时候我会看看别的社区做了什么以及怎么做的,有时候我也会从用户的反馈中得到灵感(比如我上次去您那里访问时,你们提的问题都很好)。那种完完全全的创新对我们大多数人来说应该都不太可能产出在我们脑子里,借鉴式和迁移式的创新的实际可操作性要强得多,毕竟惊世骇俗的天才还是数量有限。

                        再谈生物的话我已经快撑不下去了,我换个生活方面的话题。作为生物领域的教师和科研工作者,您觉得工作和生活之间的平衡好处理吗?工作会不会太多占用自己的生活和休闲时间?以前我在 Ames(注:ISU 所在地)的时候,总是听说你们实验室有个人每年都要飞去夏威夷种一段时间玉米,不知道您的实验室是否每年也要出去种地。我感觉做生物实验好像很锁人,我的意思是实验开始之后人就不能彻底离开了,隔段时间得去看看,不然辛苦养的细菌死掉了又要重来。

                        liu3zhen 哦,说到 Unix/Linux 知识,我突然想起来一件往事。那是 2010 年的时候,我在我们统计系做了一个报告,讲如何方便地结合 LyX 和 R 与 Sweave 动态生成可重复的报告(那时候 knitr 还没诞生)。你们 Schnable 实验室有个叫应开的师兄不知怎么也过来听我的报告。当时我报告里提到了一个问题,就是当 LyX 调用 R 出错的时候,我不知道如何查看具体的错误消息。我的报告结束后,他过来跟我说可以通过特殊的命令行语法把错误消息重定向到文件中,例如 2>&1。我之前完全不知道命令行里面这些重定向的知识,他点拨了我一下,我发现非常有用。一定程度上,这也是开启我的 Linux 大门的小钥匙之一。

                        只是一个小插曲。

                        另外我发现你们 Schnable 实验室网站有一个我很喜欢的地方,就是在学生列表里,每个中国学生的拼音名字后面会跟着中文名。我在美国通常都很想知道别的中国人的汉语名字(个人习惯),但一般都找不到。刚刚我又重新看了一眼这个网站,突然看到一个我记忆中的名字,武海燕。不知您跟她在 ISU 是否有几年的交集。我结识她还是 2006 年在这个论坛上,当时我还在国内刚念完本科,后来等我去 ISU 的时候,她应该是已经毕业走了,所以我也没真正见过她。不过过了这么些年,她的论坛 ID 还在呢 @haiyanwu,这么一想我们的论坛技术人员也蛮厉害的(变相夸奖 @Ihavenothing @yanlinlin82)。

                        又是一个小插曲。

                          yihui 恭喜恭喜,找对文献了。在学术界,不仅生物领域,科研人员在时间上确实投入很大,工作占用了许多晚上和周末的时间(至少我认识的许多朋友是这样的),但大多数人还是花相当多的时间和家人在一起。我有一女儿和儿子,我太太花大量的时间照顾他们(家庭支持非常重要),我是除了工作外就尽量陪他们。时间矛盾肯定有,有时周末加班,看到窗外天气那么好,会有愧疚感。有时也得努力寻找解决的方法,例如,家人一块儿去运动。现在小孩慢慢大了,我想以后可以一块儿自习,这是我的“梦想”。

                            yihui 好记性,开和海燕都是好同学。开在东部一研究所,继续从事生物信息工作。海燕在中国罗氏公司。想象中,海燕在当年应该是统计之都的活跃分子。