liu3zhen 我听很多学生物的同学吐槽说当年高考报志愿都被一句话给蒙了:“21世纪是生物的世纪”,然后稀里糊涂入了生物的坑,觉得很苦很累又很难出成果,不知您对此作何感想?生物是您发自内心的兴趣吗?

您工作三年之后才申请出国,这种案例似乎并不太常见,一般人好像都是念完本科或者研究生就直接申请出国。选择工作的人似乎倾向于不再去做学术研究,您是如何想到还想出国深造的?(若出于个人原因,可不必回答)

在您的研究领域,数据大致都长什么样?规模在怎样的数量级?可否列举一些具体的常用分析工具?以及列举一两个科研过程中常见的困难和挑战?(可以是软件方面,也可以是人力资源方面)

Ihavenothing 这就是文字直播。我并没有专门准备问题,想到哪儿问到哪儿,大家都可以加入采访队伍。

益辉,问题不少。首先,我想说当年选择生物确实受媒体的影响,高考报志愿觉得这个是未来的方向。大学期间忙忙碌碌地学习,觉得生物挺不错的,为了充实自己,还选择了计算机作为辅修专业。记的大学毕业时,同班同学大多还是喜欢所学的生物专业。学生物面临的困惑是就业选择机会不多。生物研究,特别是基础研究,大多和现实生活相隔遥远,所以,从事生物研究得承受某种孤独感,还有益辉所说的“苦和累”。不是体力上的苦和累,而是时间的大量投入和回报的不匹配。我自己也曾困惑迷茫过,但对我来说,放弃可能更难。目前,各类生物科技迅速发展,潜在的机会(科研发现和创业)还是不少,大数据时代提供了新的机会 。还有,科研工作需要创新,从发现和解决问题中得到乐趣,这是我的激情所在。

工作三年再出国,这种例子是不多,最大原因还是觉得当时技术工业化有些太早,行业需要扎实的学术积累,所以就下定决心出国留学。可能是因为耽误了几年时间,出国之后就更有紧迫感,觉得不能再浪费时间了。工作后再留学,付出往往更多,这种方式我也不推荐。

生物数据各种各样,我接触最多的是基因组测序数据,一个人的基因组有大约30亿个字母的DNA密码,波士顿BROAD研究所每10分钟测定一个基因组,一天产生17Tb的数据,这还仅仅是一个研究所的数据。数据主要是以文本文件格式存储,各个物种数据格式都是标准化的。基因组测序的是基因组的短片段,如何把短片段组装成较完整的长序列是个挑战。不同基因组相互比较,这就需要DNA快速比对算法。基因组信息还需要和疾病、各种表型特征建立关联,合适的统计方法非常重要。传统的生物学注重从假说(Hypothesis)入手,设计实验去验证假说。现在大量数据的涌现,很多时候需要统计和可视化方法来挖掘数据,编程工具(例如R)就显得很重要。数据挖掘就好比做实验,一个接一个的分析,就有了项目管理的必要,还有如何保证结果的可重复性(reproducibility)。益辉和其他RStudio的产品给了我们一些思路。例如,我试着用益辉的Bookdown来管理项目并更名为Projdown(后来觉得这名字有点怪怪的),目前正在继续试验。可以说,计算和统计是现代生物行业不可或缺的工具,反过来,生物数据的分析需求也推动了相关领域的发展。

    liu3zhen 辛苦了!我看您回帖时间已经是半夜 12 点多(而且还是周末),不知是否能代表生物领域科研人员的生活常态。

    非常佩服您这种作为基础研究人员一肩担起万古愁的意志。我曾在不同场合表达过,平均而言,我个人对从事自然科学工作者的佩服程度比社会科学工作者高许多倍(这是我的偏见)。可能多数自然科学工作者都是默默无闻的,但你们的研究才是社会进步最坚实的基础。

    回到技术问题上来。我大概可以理解我的 bookdown 对你们有什么用处,也很高兴你们在用它。我这大半年来在做另一个项目,叫 blogdown,它更适合管理零碎不成系统的 R Markdown 文件。bookdown 更好的应用场合是一个主题明确的项目,比如书籍(每一章对应一个 Rmd 文件);而 blogdown 就比较随意了,它是针对基于 R Markdown 建设网站而设计的,用户可以写一写比较随意的 Rmd 文档,比如哪天想到一个分析,就新开一个 Rmd 文件写上两段。在自然科学领域我听说有实验室记事本(Lab notebook)的工作方式,大概是用日志记录当天做了些什么实验有什么结果和发现。我觉得你们也可以尝试一下 blogdown,它可能更适合你们的日常工作。等一个项目相对比较成熟、到了做总结的阶段之后,可以再用 bookdown 来汇总过去做过的关键性分析报告,编成一本书或项目报告。

    我作为一个 R 用户,听到别的社区以及客户对 R 的一个成见是 R 无法处理大数据。RStudio 这两年做了非常多的大数据相关项目,例如 sparklyr / dbplyr 等。我对处理大型数据这方面不是很在行,只有一点微薄的数据库基础,所以我想了解一下,既然你们的数据都是那么大数量级,我怀疑你们肯定不会直接第一步就上 R 去处理,那么您可否谈谈从原始数据到 R 能处理的数据这个过程大致是有些怎样的处理。方便的话,您可以给个例子,比如原始数据什么量级,中间经过怎样的处理,最后到达 R 里面是什么量级,计算需要怎样的硬件环境,耗时通常在什么量级(小时、天、月?),等等。

    还有一个纯外行问题:我突然想起来最近奥马哈的日本甲壳虫泛滥,这货在美国没有天敌,所以很难杀。我们的好多树叶和花草都被这货给吃光了。您的研究方向是植物如何抵抗病原菌,不知道有没有涉及到如何让植物抵抗这种外来生物的入侵的研究。我不想在菜园子里打药,实在拿它们没办法,我种的樱桃树都被它们完全吃秃了。

      我想请教一下刘老师,你们实验室的基因组测序数据的处理流程是怎样的,直接用R处理会不会有点又慢又不方便?因为我是做疾病的遗传基础研究的,主要方法也是高通量测序,实验室一般用R处理最后得到的变异数据,特别是统计和作图分析。谢谢!

        哇,看到这篇访谈真的是收益良多啊。作为一个统计系的学生,我也有很多问题想请教刘老师。

        1,我们统计在选方向的时候什么样的方向更符合您这样的实践者的要求呢?
        2,有什么推荐我们统计系学生修习的日常软件么,当然除了R以外。
        3, 目前大数据的软件这么多,方法也多的眼花缭乱,如何才能理出一个头绪在毕业后成为一个在业界或者学届立足的人呢?

          yihui,谢谢夸奖,我只是热衷于用我非常有限的知识解决一些问题。你说的奥马哈日本甲壳虫问题,应该是可以找到非农药的解决方案, 你可以提出挑战,设立资金资助(这个很重要),我想一定会有好的科研建议书供你选择。这也是当代科研的一种模式,例如,现在农业需要提高作物的抗热、抗旱、抗虫和抗病等能力,这就提出了研究问题。各个科研课题组会根据自己的专业特长提出问题的解决方案,如果课题得到资助,一般会花3-5年努力实现所提出的目标。不扯很远了,回到技术讨论。我喜欢Bookdown里的Rmd文档以01-,02-设置,文件结构很清晰。我们最近安装了本地版的GitHub (Gogs, https://gogs.io),希望Bookdown能方便地和Gogs衔接。今后我们会尝试Blogdown,管理一些零碎信息。

          yihui zcm2403 你们俩是对的,我们是不可能一开始就用R来处理数据。举个例子吧,有些日本甲壳虫对农药有了抗药性,假设虫子有2万条基因,我们分别测定抗药和非抗药虫子接受农药处理时的所有基因的活跃度,我们目的是找到不同活跃度的基因。当然,实验设计少不了生物重复,如果我们有3个重复,这样就有6个样本。我们可能会得到30G (5G x 6)的数据,这些数据是大量零散的基因片段。我们首先分别把它们定位到各个基因上,这个过程需要高效的DNA比对软件,显然,R并不是编写这些软件最好的语言。每条基因上定位基因片段的多少代表基因的活跃程度,在数据上,我们用一大表格(20,000x6)代表2万条基因在6个样本中的活跃程度。这时R就派上用场了,统计分析和后续作图我们都是用R来完成的。这是个简单的实验设计,大多测序实验数据量更大,设计更为复杂。

            Lizncu 我不是学统计的,回答仅供参考。对于统计学习,扎实的理论基础和编程技能是今后发展的基础,我并不觉得需要刻意学习某些软件(如果不是特别需要),有可能,多学点Unix/Linux倒挺好的。还有,有机会多做些研究或实践课题,理论理解和技能在实践中会不断提高。观点可能过于片面,但是我的真实体会。

              liu3zhen blogdown 采用的文件命名方式默认是以日期命名,而不是 01-、02- 这样的序号,所以我说它比较适合实验室日志。bookdown 并没有跟 Github 紧密捆绑,所以 Gogs 应该也没什么问题。当然,如果遇到问题,随时欢迎向我反馈:https://github.com/rstudio/bookdown/issues

              为了我的一棵樱桃树的虫害问题,我目前还拿不出一个亿来立项……不过谢谢您分享这个流程,万一哪天我用得上呢。

              上面 @Lizncu 的第一个问题让我联想到一个有点类似的问题(不好意思,问题像开花弹一样):根据您招收实验室人才的经历,您最看重他们什么样的能力或特点?我的意思是他们加入您的实验室之前就应该具备的能力。怎样的能力在加入实验室之后容易人工培养出来,怎样的能力最好是先天具备?比如生物领域知识、软件开发、统计知识、做事认真的态度之类的。

              内容超丰富,访谈很精彩。如果 可以的话,整理下,可以发到主版或者微信公众号了。。。

                causu 那是自然。这就是我们要发死力把论坛再做起来的原因之一,如果做得好,它可以给主站提供取之不尽用之不竭的稿源。抄送 @xuening

                yihui咱这是在比赛谁睡得晚。招聘学生和博士后,确实需要考虑多个因素:个人兴趣、生物知识、实验能力、计算能力、创新能力、个性和个人投入时间的意愿等等。具备良好的基础知识和技能肯定好,但不是一定需要。特别是生物领域,个人的专业训练很大程度上取决于所处的环境(如实验室),基础和技能的好坏有时并不能客观反应能力高低。如果实验室提供合适的学习环境,一个人的努力和好学可以很快弥补技能上的不足。但其它一些方面的素养却较难在短时间内培养,例如思维习惯和钻研精神,这些可能是平时点点滴滴积累出来的。优秀人才有很多通性,但优秀人才也各有各的不同,我个人认为,导师和学生或博士后的匹配度也很重要。是否有一定的共同兴趣,能否顺畅沟通,是否能互相促动,增强各自(包括导师)的创造力。如果匹配度是一个参数,它应该是一动态的参数,有时需要双方共同努力使之不断提高。论坛里的同学,如果今后选择导师,也可适当考虑匹配度的问题。 总结一下,我觉得技能很重要,但一个人的勤奋和谦虚好学也同样重要。

                  liu3zhen 在晚睡比赛中,我还很少输。谢谢您分享您的人才观,我觉得说得很好。常有人问我出国留学选择学校和导师的经验,其实我唯一的经验就是找一个合适自己的导师(也就是您说的匹配度),毕竟是会在一起合作五年的人(生物专业应该会更长)。我个人根本不在乎学校排名。

                  那我再继续下一个话题了。您可否谈谈您发表过的比较满意或自豪的一个成果或者一篇论文?它解决了怎样的问题,您是如何发现或想到解决方案的?

                  yihui 好吧,我就介绍一些我的研究经历。我在ISU的导师是Patrick Schnable,他多年来积累了许多突变玉米,我们想探明什么基因改变导致突变。弄清楚每个基因都需要花好几年的时间,过程包括基因定位和克隆。我接手课题后,尝试了一些传统方法,但课题进展缓慢。在缓慢的进程中, 我积累了一些经验,这对之后的改进和创新都有帮助。我发表过几篇基因克隆的文章,其中两篇就介绍了基因定位和克隆的新方法。现在也看到不少人用我们的方法,自己还是有些自豪。要问为什么会有这些创新,我想首先应归功于好的课题需求,这一点我是很幸运的。还有就是失败的经历,失败让你想得更多更深入。有了课题需求,又积累了失败的经验,那么,如何才能想到解决方案(这也是益辉的问题)?这个很难回答,但我发现我们过去几个创新点有个共同点,它们几乎都是从交叉课题和不同领域中得到的灵感。所以我觉得对自己课题的投入和多接触不同类型的课题对创新会有一定的帮助。总之,需求、困境和失败是创新的动力,不同知识点的碰撞是创新的涌泉。

                    liu3zhen 我重申一下,您可以自由选择回帖以及自由中止,我知道您很忙,也不想占用您太多时间。

                    可否给一下您提到的那两篇文章的文献条目?你们生物的论文标题我通常十个单词就有七个不认识(基本上只认识冠词、连词和标点符号),我连蒙带猜一下是不是下面这两篇?

                    • Liu, S, CR Dietrich, PS Schnable, 2009 DLA-based strategies for cloning insertion mutants: cloning the gl4 locus of maize using Mu transposon tagged alleles. Genetics, 183: 1215-1225.

                    • Liu, S, CT Yeh, HM Tang, DS Nettleton, PS Schnable, 2012 Gene mapping via bulked segregant RNA-Seq (BSR-Seq) PLoS ONE, 7: e36406.

                    关于您说的从别的领域和交叉课题得到灵感,我作为一个码农也颇有共鸣。虽然我主要做 R 包开发,但我的大部分想法都不是对着 R 自身苦思冥想得来的,有时候我会看看别的社区做了什么以及怎么做的,有时候我也会从用户的反馈中得到灵感(比如我上次去您那里访问时,你们提的问题都很好)。那种完完全全的创新对我们大多数人来说应该都不太可能产出在我们脑子里,借鉴式和迁移式的创新的实际可操作性要强得多,毕竟惊世骇俗的天才还是数量有限。

                    再谈生物的话我已经快撑不下去了,我换个生活方面的话题。作为生物领域的教师和科研工作者,您觉得工作和生活之间的平衡好处理吗?工作会不会太多占用自己的生活和休闲时间?以前我在 Ames(注:ISU 所在地)的时候,总是听说你们实验室有个人每年都要飞去夏威夷种一段时间玉米,不知道您的实验室是否每年也要出去种地。我感觉做生物实验好像很锁人,我的意思是实验开始之后人就不能彻底离开了,隔段时间得去看看,不然辛苦养的细菌死掉了又要重来。

                    liu3zhen 哦,说到 Unix/Linux 知识,我突然想起来一件往事。那是 2010 年的时候,我在我们统计系做了一个报告,讲如何方便地结合 LyX 和 R 与 Sweave 动态生成可重复的报告(那时候 knitr 还没诞生)。你们 Schnable 实验室有个叫应开的师兄不知怎么也过来听我的报告。当时我报告里提到了一个问题,就是当 LyX 调用 R 出错的时候,我不知道如何查看具体的错误消息。我的报告结束后,他过来跟我说可以通过特殊的命令行语法把错误消息重定向到文件中,例如 2>&1。我之前完全不知道命令行里面这些重定向的知识,他点拨了我一下,我发现非常有用。一定程度上,这也是开启我的 Linux 大门的小钥匙之一。

                    只是一个小插曲。

                    另外我发现你们 Schnable 实验室网站有一个我很喜欢的地方,就是在学生列表里,每个中国学生的拼音名字后面会跟着中文名。我在美国通常都很想知道别的中国人的汉语名字(个人习惯),但一般都找不到。刚刚我又重新看了一眼这个网站,突然看到一个我记忆中的名字,武海燕。不知您跟她在 ISU 是否有几年的交集。我结识她还是 2006 年在这个论坛上,当时我还在国内刚念完本科,后来等我去 ISU 的时候,她应该是已经毕业走了,所以我也没真正见过她。不过过了这么些年,她的论坛 ID 还在呢 @haiyanwu,这么一想我们的论坛技术人员也蛮厉害的(变相夸奖 @Ihavenothing @yanlinlin82)。

                    又是一个小插曲。

                      yihui 恭喜恭喜,找对文献了。在学术界,不仅生物领域,科研人员在时间上确实投入很大,工作占用了许多晚上和周末的时间(至少我认识的许多朋友是这样的),但大多数人还是花相当多的时间和家人在一起。我有一女儿和儿子,我太太花大量的时间照顾他们(家庭支持非常重要),我是除了工作外就尽量陪他们。时间矛盾肯定有,有时周末加班,看到窗外天气那么好,会有愧疚感。有时也得努力寻找解决的方法,例如,家人一块儿去运动。现在小孩慢慢大了,我想以后可以一块儿自习,这是我的“梦想”。

                        yihui 好记性,开和海燕都是好同学。开在东部一研究所,继续从事生物信息工作。海燕在中国罗氏公司。想象中,海燕在当年应该是统计之都的活跃分子。

                          liu3zhen 居然一口气蒙对了文献,这运气我今天应该去买两张彩票(其实也不算全蒙,我看了您的 Google Scholar 主页,根据您的提示选了一下可能匹配、您是第一作者、以及引用相对多的文章)。说到孩子,就您的经验,您感觉在美国出生的华裔小孩成长过程中有没有什么特殊的挑战?是否很难让他们接受中国文化甚至只是中文?

                          liu3zhen 我的记忆碎片比较多,偶尔会翻出很久以前的事情。海燕师姐在统计之都活跃的时代,我感觉国内生物信息才刚刚起步,我们这个论坛里谈论生物信息的基本上都是国外的留学生;当然那个时候我对生物信息啥都不懂,看他们说得天花乱坠我两眼懵圈,直到后来到了 ISU,上了 Dan Nettleton 老师的一门基因芯片课,才略有了解(现在也基本忘光了)。我现在记不太清我究竟是那时候在那门课上发现有些流行 R 包里的函数写得很糟糕,还是在另一门贝叶斯课上发现的,我感觉对 R 的计算效率了解透彻的人应该会对你们领域很有帮助(R 的运算效率很容易让人误解)。虽然我也不是计算方面的专家,但要是我将来什么时候能抽出两个星期时间,我很有兴趣去你们实验室蹲点,看看你们的具体计算,尤其是作图。我们公司的二号员工(Joe Cheng)前年花了几个星期看了一下 R 里面关于空间统计学和地理信息相关的包,他本来没有这方面的背景(他是 MBA 出身然后业余爱好编程),但他很快发现,有个流行的 R 包效率太低,他用 C++ 改写了一下,让它的速度变快了几百倍,他感到非常得意。我觉得这样的事情要是我也能办一两件,肯定同样会有巨大的满足感。哪怕办不到这样的事情,我觉得计算领域有一些好习惯如果能在实验室里贯彻(比如如何写 R 包、如何分析代码速度瓶颈等),也会大幅提高工作效率,不过您的实验室已经非常先进了,大家都用 GIT 和 R Markdown。

                          您是什么时候通过什么途径了解到统计之都的?

                          yihui小孩成长过程,挑战很多,我觉得多数和国内小孩遇到的问题一样。当然少不了一些特有的挑战,比如如何保持中文教育,比如小孩会不会因为处在非主流群体其心理受到影响。幸运的是我们学校有孔子学院,有针对中国小孩开设 的中文课程。每周一次学习效果有一些,至少可以维持中文教育状态。我们也给小孩看些中文节目,如“朗读者”和“中国好声音”。目前, 他们听和说没问题,但读写能力远远不够。我希望他们的中文能达到一定水平,如果他们有能力看金庸小说了,那就不愁了。对于处在非主流群体对小孩的心理影响,因为这方面的影响在日常学习生活中表现不明显,我们目前不知有何好办法,只能多和小孩沟通,具体问题具体解决。

                          yihui 你说的R包专业性问题,我想这在生物软件中是普遍存在的。我非常感谢你有兴趣帮助我们,我们会开始收集一些重要的问题或需求,如果有可能,到时集中解决。R是我们重要的分析工具,入门相对容易,平时也能零碎地积累些经验,但如何进一步提高,如何写专业的R包,还有像你说的,如何分析代码速度瓶颈等,我们太需要有人指导。@yihui 非常期待。

                          统计之都我是在念博士最后一年或是博士后时知道的,不记得怎么知道的,很有可能是同实验室的应开或季铁铭介绍的,还记得当时就用过LyX来写报告,应该是看了一些上面的文章开始尝试的。

                            liu3zhen 哈哈,原来您还期待他们能看金庸的武侠小说。其实我觉得挺好的;武侠是中华文化的一个非常重要而独特的元素,但它被引到国外的时候往往只剩下了打斗,精华部分都流失了,诸如英雄意、江湖气、天地心、生民命;简单说,就是有铁血而没有丹心。我小时候很喜欢看武侠小说,但那时候资源匮乏,非常难得能偶尔在别人谁家柜子里翻出一本没头没尾的破旧武侠小说来,所以至今我都不知道我那时候看的是些什么书。现在书籍资源过剩,而且我们陷入了一个视频世界,加上中文又不是他们的主要语言,我觉得让他们能被武侠小说吸引还是非常有挑战的。

                            我一个人力量有限,我这次采访您的动机之一也就是以您为代表,挖掘并展示一下你们非统计非计算机的科研人士的需求,让更多人了解你们,说不定将来什么时候会有其他人去您的实验室蹲点帮忙。计算机那边我不知道,统计专业这边一直有重理论轻计算的坏传统,当然这个随着所谓的大数据和数据科学概念爆发已经在改变,我觉得理论固然重要,怎样让理论落地也一样重要。发明或发现一个新的定理有它的价值,而“上山下乡”去一个实验室让他们的计算变得快捷,也一样有价值。在我看来,前者就像为天地立心,后者如同为生民立命。

                            往后要是有空,我也访谈一下应开和季铁铭。这次访谈我看就差不多了吧,占用了您不少时间。我最后留两个稍微轻松点的问题。其他人要是看了这个访谈还有问题,欢迎继续。

                            1. 您个人在工作之余有什么特别的兴趣爱好?

                            2. 您最希望在统计之都看到什么方面的文章和帖子?