yihui 好吧,我就介绍一些我的研究经历。我在ISU的导师是Patrick Schnable,他多年来积累了许多突变玉米,我们想探明什么基因改变导致突变。弄清楚每个基因都需要花好几年的时间,过程包括基因定位和克隆。我接手课题后,尝试了一些传统方法,但课题进展缓慢。在缓慢的进程中, 我积累了一些经验,这对之后的改进和创新都有帮助。我发表过几篇基因克隆的文章,其中两篇就介绍了基因定位和克隆的新方法。现在也看到不少人用我们的方法,自己还是有些自豪。要问为什么会有这些创新,我想首先应归功于好的课题需求,这一点我是很幸运的。还有就是失败的经历,失败让你想得更多更深入。有了课题需求,又积累了失败的经验,那么,如何才能想到解决方案(这也是益辉的问题)?这个很难回答,但我发现我们过去几个创新点有个共同点,它们几乎都是从交叉课题和不同领域中得到的灵感。所以我觉得对自己课题的投入和多接触不同类型的课题对创新会有一定的帮助。总之,需求、困境和失败是创新的动力,不同知识点的碰撞是创新的涌泉。

    liu3zhen 我重申一下,您可以自由选择回帖以及自由中止,我知道您很忙,也不想占用您太多时间。

    可否给一下您提到的那两篇文章的文献条目?你们生物的论文标题我通常十个单词就有七个不认识(基本上只认识冠词、连词和标点符号),我连蒙带猜一下是不是下面这两篇?

    • Liu, S, CR Dietrich, PS Schnable, 2009 DLA-based strategies for cloning insertion mutants: cloning the gl4 locus of maize using Mu transposon tagged alleles. Genetics, 183: 1215-1225.

    • Liu, S, CT Yeh, HM Tang, DS Nettleton, PS Schnable, 2012 Gene mapping via bulked segregant RNA-Seq (BSR-Seq) PLoS ONE, 7: e36406.

    关于您说的从别的领域和交叉课题得到灵感,我作为一个码农也颇有共鸣。虽然我主要做 R 包开发,但我的大部分想法都不是对着 R 自身苦思冥想得来的,有时候我会看看别的社区做了什么以及怎么做的,有时候我也会从用户的反馈中得到灵感(比如我上次去您那里访问时,你们提的问题都很好)。那种完完全全的创新对我们大多数人来说应该都不太可能产出在我们脑子里,借鉴式和迁移式的创新的实际可操作性要强得多,毕竟惊世骇俗的天才还是数量有限。

    再谈生物的话我已经快撑不下去了,我换个生活方面的话题。作为生物领域的教师和科研工作者,您觉得工作和生活之间的平衡好处理吗?工作会不会太多占用自己的生活和休闲时间?以前我在 Ames(注:ISU 所在地)的时候,总是听说你们实验室有个人每年都要飞去夏威夷种一段时间玉米,不知道您的实验室是否每年也要出去种地。我感觉做生物实验好像很锁人,我的意思是实验开始之后人就不能彻底离开了,隔段时间得去看看,不然辛苦养的细菌死掉了又要重来。

    liu3zhen 哦,说到 Unix/Linux 知识,我突然想起来一件往事。那是 2010 年的时候,我在我们统计系做了一个报告,讲如何方便地结合 LyX 和 R 与 Sweave 动态生成可重复的报告(那时候 knitr 还没诞生)。你们 Schnable 实验室有个叫应开的师兄不知怎么也过来听我的报告。当时我报告里提到了一个问题,就是当 LyX 调用 R 出错的时候,我不知道如何查看具体的错误消息。我的报告结束后,他过来跟我说可以通过特殊的命令行语法把错误消息重定向到文件中,例如 2>&1。我之前完全不知道命令行里面这些重定向的知识,他点拨了我一下,我发现非常有用。一定程度上,这也是开启我的 Linux 大门的小钥匙之一。

    只是一个小插曲。

    另外我发现你们 Schnable 实验室网站有一个我很喜欢的地方,就是在学生列表里,每个中国学生的拼音名字后面会跟着中文名。我在美国通常都很想知道别的中国人的汉语名字(个人习惯),但一般都找不到。刚刚我又重新看了一眼这个网站,突然看到一个我记忆中的名字,武海燕。不知您跟她在 ISU 是否有几年的交集。我结识她还是 2006 年在这个论坛上,当时我还在国内刚念完本科,后来等我去 ISU 的时候,她应该是已经毕业走了,所以我也没真正见过她。不过过了这么些年,她的论坛 ID 还在呢 @haiyanwu,这么一想我们的论坛技术人员也蛮厉害的(变相夸奖 @Ihavenothing @yanlinlin82)。

    又是一个小插曲。

      yihui 恭喜恭喜,找对文献了。在学术界,不仅生物领域,科研人员在时间上确实投入很大,工作占用了许多晚上和周末的时间(至少我认识的许多朋友是这样的),但大多数人还是花相当多的时间和家人在一起。我有一女儿和儿子,我太太花大量的时间照顾他们(家庭支持非常重要),我是除了工作外就尽量陪他们。时间矛盾肯定有,有时周末加班,看到窗外天气那么好,会有愧疚感。有时也得努力寻找解决的方法,例如,家人一块儿去运动。现在小孩慢慢大了,我想以后可以一块儿自习,这是我的“梦想”。

        yihui 好记性,开和海燕都是好同学。开在东部一研究所,继续从事生物信息工作。海燕在中国罗氏公司。想象中,海燕在当年应该是统计之都的活跃分子。

          liu3zhen 居然一口气蒙对了文献,这运气我今天应该去买两张彩票(其实也不算全蒙,我看了您的 Google Scholar 主页,根据您的提示选了一下可能匹配、您是第一作者、以及引用相对多的文章)。说到孩子,就您的经验,您感觉在美国出生的华裔小孩成长过程中有没有什么特殊的挑战?是否很难让他们接受中国文化甚至只是中文?

          liu3zhen 我的记忆碎片比较多,偶尔会翻出很久以前的事情。海燕师姐在统计之都活跃的时代,我感觉国内生物信息才刚刚起步,我们这个论坛里谈论生物信息的基本上都是国外的留学生;当然那个时候我对生物信息啥都不懂,看他们说得天花乱坠我两眼懵圈,直到后来到了 ISU,上了 Dan Nettleton 老师的一门基因芯片课,才略有了解(现在也基本忘光了)。我现在记不太清我究竟是那时候在那门课上发现有些流行 R 包里的函数写得很糟糕,还是在另一门贝叶斯课上发现的,我感觉对 R 的计算效率了解透彻的人应该会对你们领域很有帮助(R 的运算效率很容易让人误解)。虽然我也不是计算方面的专家,但要是我将来什么时候能抽出两个星期时间,我很有兴趣去你们实验室蹲点,看看你们的具体计算,尤其是作图。我们公司的二号员工(Joe Cheng)前年花了几个星期看了一下 R 里面关于空间统计学和地理信息相关的包,他本来没有这方面的背景(他是 MBA 出身然后业余爱好编程),但他很快发现,有个流行的 R 包效率太低,他用 C++ 改写了一下,让它的速度变快了几百倍,他感到非常得意。我觉得这样的事情要是我也能办一两件,肯定同样会有巨大的满足感。哪怕办不到这样的事情,我觉得计算领域有一些好习惯如果能在实验室里贯彻(比如如何写 R 包、如何分析代码速度瓶颈等),也会大幅提高工作效率,不过您的实验室已经非常先进了,大家都用 GIT 和 R Markdown。

          您是什么时候通过什么途径了解到统计之都的?

          yihui小孩成长过程,挑战很多,我觉得多数和国内小孩遇到的问题一样。当然少不了一些特有的挑战,比如如何保持中文教育,比如小孩会不会因为处在非主流群体其心理受到影响。幸运的是我们学校有孔子学院,有针对中国小孩开设 的中文课程。每周一次学习效果有一些,至少可以维持中文教育状态。我们也给小孩看些中文节目,如“朗读者”和“中国好声音”。目前, 他们听和说没问题,但读写能力远远不够。我希望他们的中文能达到一定水平,如果他们有能力看金庸小说了,那就不愁了。对于处在非主流群体对小孩的心理影响,因为这方面的影响在日常学习生活中表现不明显,我们目前不知有何好办法,只能多和小孩沟通,具体问题具体解决。

          yihui 你说的R包专业性问题,我想这在生物软件中是普遍存在的。我非常感谢你有兴趣帮助我们,我们会开始收集一些重要的问题或需求,如果有可能,到时集中解决。R是我们重要的分析工具,入门相对容易,平时也能零碎地积累些经验,但如何进一步提高,如何写专业的R包,还有像你说的,如何分析代码速度瓶颈等,我们太需要有人指导。@yihui 非常期待。

          统计之都我是在念博士最后一年或是博士后时知道的,不记得怎么知道的,很有可能是同实验室的应开或季铁铭介绍的,还记得当时就用过LyX来写报告,应该是看了一些上面的文章开始尝试的。

            liu3zhen 哈哈,原来您还期待他们能看金庸的武侠小说。其实我觉得挺好的;武侠是中华文化的一个非常重要而独特的元素,但它被引到国外的时候往往只剩下了打斗,精华部分都流失了,诸如英雄意、江湖气、天地心、生民命;简单说,就是有铁血而没有丹心。我小时候很喜欢看武侠小说,但那时候资源匮乏,非常难得能偶尔在别人谁家柜子里翻出一本没头没尾的破旧武侠小说来,所以至今我都不知道我那时候看的是些什么书。现在书籍资源过剩,而且我们陷入了一个视频世界,加上中文又不是他们的主要语言,我觉得让他们能被武侠小说吸引还是非常有挑战的。

            我一个人力量有限,我这次采访您的动机之一也就是以您为代表,挖掘并展示一下你们非统计非计算机的科研人士的需求,让更多人了解你们,说不定将来什么时候会有其他人去您的实验室蹲点帮忙。计算机那边我不知道,统计专业这边一直有重理论轻计算的坏传统,当然这个随着所谓的大数据和数据科学概念爆发已经在改变,我觉得理论固然重要,怎样让理论落地也一样重要。发明或发现一个新的定理有它的价值,而“上山下乡”去一个实验室让他们的计算变得快捷,也一样有价值。在我看来,前者就像为天地立心,后者如同为生民立命。

            往后要是有空,我也访谈一下应开和季铁铭。这次访谈我看就差不多了吧,占用了您不少时间。我最后留两个稍微轻松点的问题。其他人要是看了这个访谈还有问题,欢迎继续。

            1. 您个人在工作之余有什么特别的兴趣爱好?

            2. 您最希望在统计之都看到什么方面的文章和帖子?

            yihui 你也花了不少时间。还有,谢谢你的采访,提问题比回答有更多的挑战。回到个人兴趣的问题,我最大的乐趣是打打篮球,十分没有天赋,但非常享受。应该说随着年纪的增大,机会越来越少,所以珍惜每一次打球机会。

            很希望能多读些统计学在实践中应用的普及文章,例如应用贝叶斯方法帮助定位丢失的炸弹。有趣味性,还能加强理解一些统计概念。当然,技术讨论的文章也很好。

            不是体力上的苦和累,而是时间的大量投入和回报的不匹配

            在学术界,不仅生物领域,科研人员在时间上确实投入很大,工作占用了许多晚上和周末的时间

            现在小孩慢慢大了,我想以后可以一块儿自习,这是我的“梦想”。

            @liu3zhen

            非常有感触

              yihui

              不是体力上的苦和累,而是时间的大量投入和回报的不匹配

              在学术界,不仅生物领域,科研人员在时间上确实投入很大,工作占用了许多晚上和周末的时间

              去年导师问我一个问题:你每天工作几个小时。那个时候刚好夫人和小孩回老家了,忽然意识到我好像从醒来到睡觉之间基本都处在工作的状态。目前国内科研工作竞争压力大,其实身边的人都差不多。没有周末、没有节假日,因为在工作时间往往都应付许多琐碎的事务,而周末及节假日是难得的没有人打扰的时间,许多人都用来集中写文章、写申请书等等。

              回报我觉得分为两个方面,一个是学术上的。科研注定是一个高投入低产出的行业,因为它是一个慢慢积累、实现从无到有的创作。《大数据时代》上面曾经写到(大意):许多研究方向注定是会失败的(但是当时人们的认识还不足以了解到),以至于许多非常优秀的科学家最终还是默默无闻。

              另一个是生活上的。目前国内青年科学家的生活状态却不容乐观。前一阵子看过北京某研究所的青年跳槽到其他地区的高校,就是因为生活压力太大无法承受北京的高房价。他在业内应该非常优秀,所以才很轻松实现跳槽。最近流行晒工资,可以看出绝大部分青年科学家的收入是很单薄的。

              现在小孩慢慢大了,我想以后可以一块儿自习,这是我的“梦想”。

              目前我在国外访问,收入不足以支撑一家三口同时来,所以我们基本陷入了“爸爸丢失、妈妈焦虑、孩子抓狂”的中国式家庭。所以等今年的访问结束,后面我也不打算出来。科研无止境,能在国内陪孩子一起成长,也是件倍感欣慰的事情。我脑海中也经常浮现:周末的时候,我在电脑前看文献,小孩在身边写作业,哈哈~~

              我身边也有这样的例子。许多老师从40岁左右开始有重新拾取科研,那个时候家庭稳定、小孩已经长大、家人也不需要你陪了。但是,这种纯粹是兴趣驱动了,因为国内的许多名利已经和他们没有关系了。

              数据挖掘就好比做实验,一个接一个的分析

              这也是刘老师的语录,确实。现在的数据体量已经远远超过了肉眼,或者简单的折线图就能看出数据背后的本质来了。所以就需要借助各种手段来洞悉背后的科学规律。可是,生物与生态问题往往错综复杂,因此只有在给定各种条件下进行数据的各种分析。例如:不同的分类体系结果如何?不同的季节结果如何?不同的时间段结果如何?优势种结果如何?换一种数据转换方式结果是否会有影响?。。。。。。。

              哈哈,不知道理解的对不对@liu3zhen

                qingyi 谢谢共鸣,写得很真实。我经常和别人说,生活很不容易,如果不努力,那就更不容易了。看得出,你是努力地给自己和家庭创造更好的条件,祝好运。我想说说科学家的默默无闻,各行各业的人才,难道不都是默默无闻地工作,但那又有什么关系。现代社会注重自我营销,大多数人自我营销的真正目的不是为了出名,而是知名度已成为事业顺利发展的一种需要。所以只要在行业内有一定知名度,而不至于因缺少知名度而处于竞争劣势,已经足够了。

                数据挖掘是脑力活,也是体力活。就生物数据挖掘,首先得有点子(ideas)或假说,这需要较强的背景知识。像 @qingyi 所说的,因为大数据,答案不是一目了然,需要一些分析寻找答案,好的计算工具会简化这个过程。我还想强调一点,我们不能忽略数据收集前的课题设计,好的设计思路和合理的对照是能否成功挖掘数据的前提。

                2 个月 后

                yihui 赶十一长假,终于腾出时间第一次登录新站,惊艳的同时,发现被AT了,于是进来好好学习一番?