- 已编辑
益辉,问题不少。首先,我想说当年选择生物确实受媒体的影响,高考报志愿觉得这个是未来的方向。大学期间忙忙碌碌地学习,觉得生物挺不错的,为了充实自己,还选择了计算机作为辅修专业。记的大学毕业时,同班同学大多还是喜欢所学的生物专业。学生物面临的困惑是就业选择机会不多。生物研究,特别是基础研究,大多和现实生活相隔遥远,所以,从事生物研究得承受某种孤独感,还有益辉所说的“苦和累”。不是体力上的苦和累,而是时间的大量投入和回报的不匹配。我自己也曾困惑迷茫过,但对我来说,放弃可能更难。目前,各类生物科技迅速发展,潜在的机会(科研发现和创业)还是不少,大数据时代提供了新的机会 。还有,科研工作需要创新,从发现和解决问题中得到乐趣,这是我的激情所在。
工作三年再出国,这种例子是不多,最大原因还是觉得当时技术工业化有些太早,行业需要扎实的学术积累,所以就下定决心出国留学。可能是因为耽误了几年时间,出国之后就更有紧迫感,觉得不能再浪费时间了。工作后再留学,付出往往更多,这种方式我也不推荐。
生物数据各种各样,我接触最多的是基因组测序数据,一个人的基因组有大约30亿个字母的DNA密码,波士顿BROAD研究所每10分钟测定一个基因组,一天产生17Tb的数据,这还仅仅是一个研究所的数据。数据主要是以文本文件格式存储,各个物种数据格式都是标准化的。基因组测序的是基因组的短片段,如何把短片段组装成较完整的长序列是个挑战。不同基因组相互比较,这就需要DNA快速比对算法。基因组信息还需要和疾病、各种表型特征建立关联,合适的统计方法非常重要。传统的生物学注重从假说(Hypothesis)入手,设计实验去验证假说。现在大量数据的涌现,很多时候需要统计和可视化方法来挖掘数据,编程工具(例如R)就显得很重要。数据挖掘就好比做实验,一个接一个的分析,就有了项目管理的必要,还有如何保证结果的可重复性(reproducibility)。益辉和其他RStudio的产品给了我们一些思路。例如,我试着用益辉的Bookdown来管理项目并更名为Projdown(后来觉得这名字有点怪怪的),目前正在继续试验。可以说,计算和统计是现代生物行业不可或缺的工具,反过来,生物数据的分析需求也推动了相关领域的发展。