大家好 :-) 我想向大家请教一下数据科学家将来的发展前景,并想请大家对我将来的道路进行指点。
我今年32岁,现在在世卫组织做数据分析工作。2015年拿到医学博士,背景是病原生物学。毕业后在国家卫生健康委做了几年公卫,后来来到世卫组织工作,工作内容涉及One Health和国际卫生条例。
2023年开始喜欢数据科学,自学了R4DS、R in action等书,在Data camp上学了接近100节课,通过了上面的Data scientist认证。在工作中,尝试对各国的国际卫生条例方面的评估进行数据分析,逐渐上手,为各国成员国年度自评写了年度分析报告,在世卫大会上进行了发布,也用Shiny制作了对应的dashboard。
上个月在世卫的区域办公室拿到一个P3 fixed-term position,职责是Data analyst,方向应该是Universal Health Coverage,下个月过去。我现在也在继续学习更多数据科学知识,将来想成为Hadley、Max Khun、益辉老师这种资深的数据科学家。
我想请教大家的是,我这种想法是否成熟?在现有的职业轨道上能否实现?如果不能实现,那么我如何能兼顾职业发展和对数据科学的兴趣与热爱?
谢谢!

    tctcab 谢谢您,这次真不是 :-)
    我非常羡慕这些顶尖的数据科学家,将来想成为这种人,但总有一种感觉,如果继续在现在的方向上发展,将来会做很多行政和管理的工作,而这种类型的工作我并不太喜欢,我很可能无法达到这个目标,所以有些轻度迷茫

      Claireasstronaut

      《23岁就拿到医学博士在卫健委和世卫工作的我对职业发展有些轻度迷茫》


      正经说的话,

      1. Data analyst 跟楼主所谓的数据科学家感觉职能高度重合,不在意具体称呼的话其实已经达到目标了

      2. 楼主举例的三位都是活跃的工具包开发者, 如果向往的是这样的状态,不妨尝试在业余时间结合专业领域的知识和技能开发一些包,开源出去,也算造福大众提高修为了。

      3. 这么牛逼闪闪的履历,真的不是来凡尔赛的吗…

        Claireasstronaut 这次真不是 :-)

        比较好奇,哪次真是呢?

        你提到的三位榜样,牛是没有悬念的,但据我对词语狭隘的理解,觉得不算数据科学家。正如你平时不叫生产锅碗瓢盆的人厨子。当然,我毫不怀疑这三位如果愿意下厨的话,也能做出一桌好菜。

        说起来,你现在做的事情在我的理解里更像是“数据科学家”,有数据,有场景,需要分析技术,得出的结论或许还能反馈到实践中。

        tctcab

        要让牛人讲话,天不会塌下来 :)

          Claireasstronaut 很厉害的经历!

          我觉得你说的这三人只是恰好归类到 data scientist 这个头衔之下而已。他们厉害是因为他们创造工具,塑造了一个领域的形态。如果要走这条路,我觉得首先要找到一个有待开发的小领域,积极、系统地开发优质工具,然后写教材,成为这个领域的奠基人或第一人。

          如果只是考虑正常的职业发展,data scientist 相比于 analyst 更擅长理论、算法层面的东西。那应该多点机器学习、人工智能这方面的技能。当然,有的时候是很模糊的,我认识的一些 data scientist 换成 software developer,R developer,data analyst 也都说得过去。

            tctcab
            谢谢您。您说的第二点,的确是我所向往的状态。在我的年龄时,Hadley已经写出了ggplot2,益辉老师也举办过了中国的R会,做出了很多成绩。我的确很向往这种状态,但我目前的能力还很欠缺,只写出过几个方便自己用的函数,离写出一个包还差得远。我是希望能在世卫达到这种成就,但一些领导和同事们我说,在目前的职业轨道上,不太可能,所以我会有这一个问题,想问问这个领域的大家。

            Liechi
            在一些微信交友群里 :-) 我可能会想提升自己的B格,虽然也没啥用

            您说的对,我用词有误。我是想将来有一天成为这种专家,但不清楚在目前的轨道上是否能实现;还有就是如果有幸成为这种专家,会是一种什么样的经历体验。

            flujoo

            您说的对,我的确是想将来有一天能够塑造一个领域,获得一些成就感,但感觉难度很大。

            机器学习的话,我目前技能还不完善,只能用tidymodels做点事情,人工智能目前也是仅能使用,远远不能开发。但我比较确定的是,在世卫组织,除了开发GenAI这种领域,也用不到过于深入的技能,机器学习可能就到头了。

            我对R有些感情,因为在我职业生涯的低谷期,R帮我有够用的技术找到机会进行翻盘。当然我也知道这种感情其实没什么用。想要成为R developer,目前也在研读Advanced R,但这部分内容与数据科学差别较大,现在还只能用S3写一点泛型函数,离R developer差得远。

            你的领导和同事的观点是正确的,因为很明显,如果想在任何一个专业领域进行深入的研究,纯靠自学和培训班是会遇到天花板的。

            “数据科学”和“数据科学家”的概念有点含糊。需要首先明确定义你想要的方向,进而找到明确的学科专业学习,比如:

            • 如果对统计理论和方法学感兴趣,最好去读一个统计 PhD 或生统 PhD。虽然不能保证让你在未来成为专家,但至少可以让你了解整个领域的情况,有一块敲门砖,选择自己想参与的事情。
            • 如果想做 AI 这种比较侧重应用和实践的方向,我觉得倒不必读统计或计算机 PhD:如果不在意写大量的 Python,每天跟进新文章,在 Hugging Face 上做开源,是可以成为 AI scientist 或 AI engineer 的。

              nan.xiao
              谢谢您,我读过您翻译的R语言实战第1版,受益良多。

              我会好好想想接下来的发展路径,您说的这两点中,我可能对第一点的兴趣更大一些。我看一下有没有机会去搞一个统计领域的博士学位。我也比较想在将来写一些实用的包,能够在一定程度上帮上人。

              显然我只生产锅碗瓢盆但并不炒菜,我也母鸡我咋就戴上了厨师的帽子。

              不过呢,正好我觉得我在这条路上已经快走到了尽头,我非常有兴趣把我手里的剑传给能挥舞它的人。这位少侠既然对我的职业路径有兴趣,不妨和我聊一聊,看我到底是会把你劝退还是让你接班。当然,最终你肯定不会成为我或其他人,你会是独特的你,最多参考一些别人的内功心法、在某些方向上能进展更快一点,最终还是会练成自己的独门功夫。

                7 天 后

                感觉在传统制造业,国内还处于数据分析是资深工程师的技能之一的阶段。专业化和职能化还差得远。互联网应该好一点,但是感觉也是取数工程师,基本上还是在专业领域做业务为主。
                另外觉得楼主在凡尔赛+1

                  数学科学家必须要很强的概率学基础,写核心程序包同样需要一定的程序设计基础,特别是编算法时,就需要费智商;极端一点,还得考虑并行计算、GPU计算、各CPU平台等情况。
                  这两种绝对不是普通人可以做到的。

                  大多数人,只是单纯地写应用层面的软件包而已,会编手册、教程,就超越普通人了。

                  当然,从技能层面出发,懂数据分析的管理岗位,确实可以更好地做好自己。当然,如果能印度人一样单纯会PPT也能爬上去,那最好不过。

                  至于数据科学,个人认为门槛没有那么高,只是一种普通岗位而已。

                    wglaive

                    谢谢您,这也是最近几年我想继续在WHO发展的原因之一,怕回国后找不到合适的工作

                    hellowolrd

                    谢谢您,您说过的这几点我想过,概率学基础我还行,但是程序设计基础很差。我目前在这方面的知识,全都是在Advanced R里面学的,而并行计算等属于知道概念和能用furrr等包的阶段,离在自己写程序时考虑这些,差的很远。

                    像您说的,单纯写软件包,我现在还刚刚处于这个阶段。

                      Claireasstronaut

                      看个人定位了,工作之余,偶尔有空写个小软件包也不错。
                      我个人还是比较喜欢stackoverflow上面的答题方式,遇到小问题,就几行代码演示。
                      之前有个问题是多种两两比较pairwise的选择,我就写了一个小程序,再用yihui老大的animation包,做成gif图,这样就比较好展示。

                      实际上CRAN软件包这么多,应用时依然需要一些小工具,比如一条龙式的分析再输出结果,多方法的对比判断,少见情况的计算,这些都可以试着完善。

                      我就知道长三角有个急诊医生写了一个医学分析的包,就是打包常见的数据分析方法,每次都提醒读者不必打赏,但请务必引用。哈,这也不错,拉高个人H指数 。

                      说起程序代码,个人看最简单的卡方分析,都发怵。官方软件包里都是规范的代码,具体是不停地判断输入的参数是否合格,整体显得特别啰嗦;真正的计算过程,反而特别精炼,一两行而已,甚至都没有注释,真难以理解。

                      说出来不怕笑话,为了方便理解,我干脆中文编程,变量都是汉字,凑合吧。反正就自己偶尔用。