今天看到一个知乎上关于物理专业应该如何学数学的提问,受其中一些回答的启发,故有此问。统计之都的用户都是统计专业人员,不知道是否有从事数学科学或相关专业的人员能从专业角度给出一些精彩回答。

为了使问题更加精准,先说一下我对学好数据科学或相关专业的一些模糊而粗浅的认识。我想象中的学好数据科学的标准是:知道什么样的模型或分析方法能够适用,它们的优缺点都是什么,怎样改进,必要时懂得去查找学术界最新的研究成果并转化。而不是在该领域有什么理论突破。例如发明“支持向量机”之类的:)))。在学习过程中,希望不要因为数学知识的短板,增加学习专业知识的困难。例如读不懂最新的研究成果或论文。或者不知道如何正确的使用模型解决问题。
要达到上述目的,那么应该如何学习数学知识?
例如学习微积分够么?还是要去读“数学分析”(我曾经因为微积分教材上的一个知识点障碍,去看了一下数学分析,感觉太过理论,比较枯燥。偏证明,少应用)。
线性代数按照难以程度需要学到什么段位(不知道线性代数与高等代数的关系,是不是类似于微积分与数学分析的关系)。
概率、统计这两门课要学到什么层次(看网上一些评论说学完概率就可以学统计了。也有些说学统计之前要学好数学分析,泛函分析,实分析……,)

以上问题在知乎上没有看到特别好的讨论和分享。在此贴出一些有关物理专业应该如何学数学的优质答案,权当抛砖引玉
https://www.zhihu.com/question/22511868/answer/21629094 给出了物理专业学习每门数学课程的注意事项,如何避坑。

https://www.zhihu.com/question/22511868/answer/21631011 这个答案介绍了国外物理专业学生的数学水平。

https://www.zhihu.com/question/22511868/answer/21633485 答案很短,信息量很大!

https://www.zhihu.com/question/22511868/answer/21655688 角度很新颖:“近年来物理专业给金融或者信息(诸如此类数学基础也重要的)领域培养的人才还少吗?

    huangwu

    谢邀。

    我觉得你的 “希望不要因为数学知识的短板,增加学习专业知识的困难” 这句话就可以作为问题的回答了。具体到不同的学科而言,用到的数学知识都是不尽相同的。 对于非数学专业而言,数学也只是解决实际问题的工具,我倾向于在大致了解大框架之后深挖专业相关的细分领域常用数学工具。而实际操作中对具体方向上的建议那得去请教有积累的人。研究生导师不就是干这个的嘛。至于数学该学到什么程度,我觉得学数学总不会是一劳永逸的嘛,大学阶段的概率论+微积分+线性代数三个基本功夯实了,后面都够用。

    具体到数据科学这个专业的话,据我推上关注的几个数据科学方面的大佬分享的经验,支持向量机PCA神经网络深度学习各种模型眼花缭乱,用到的也没有啥高深的数学嘛。只要是概率微积分线代基础扎实的理工科生,即使从没接触过机器学习想要上手也很容易。不过,更大可能是实际从事数据科学工作时基本不到数学知识,只是写写SQL代码清理清理数据而已( 暴论 )


    最后分享一下我在中科大七年学习攒的一点点经验:虽然我学的是生物,但至今很感激学校排课头两年十分重视数理化基础课,让我现在科研工作中感觉打下的基础很够用。另外,现在实际科研搬砖时发现研究课题中的问题基本都需要用到多个学科的知识,而不只是数学。举个例子,最近做的一个东西是做RNA多序列比对的新工具,用的是用马尔科夫随机场模型 ,涉及知识有

    • 物理学中热力学的波尔兹曼分布,Ising 模型
    • 信息论的信息熵,KL散度
    • 概率论的条件概率联合概率,
    • 图论中的概率图模型
    • 计算机科学中的优化问题(包括L1 L2 regularization也是第一次知道哈哈),动态规划算法

    这么多"前置技能"在做课题之前哪都会啊,还不是边学边做的。

    希望我上面一点点粗浅的经验有点用。

      tctcab
      秀儿,原来你在这里!(哈哈哈,给你的知乎范儿后头加点 B 站风)

        tctcab
        这么牛!
        对了,比对 RNA 跟比对 cDNA 有什么不同吗?为什么需要专门的比对工具?

          Liechi

          很不同,首先看看这个RNA碱基对构成的二级结构,可以看出RNA的结构多样性比cDNA的双螺旋高多了。

          在进化当中RNA一般是保留这个二级结构,碱基对的位置在经典碱基对之间替换都OK(比如 AU换GC)。造成的结果就是 【序列】没有【结构】保守。所以传统方法只依据序列信息做比对的话,序列相似度降到80%以下就不可靠了。 传统的序列比对工具(ClustalW什么的)基本抓瞎, 目前最好的RNA比对工具Infernal也只是部分考虑了简单类型的RNA二级结构,我们做RNA序列比对的新工具可以把任意类型的RNA二级结构的信息考虑进来。

          这个方向也是最近一两年RNA序列数据库数据积累足够多才开始慢慢有人做,再之前是想做也没那么多数据。

            tctcab 讲究。我猜也可能是结构不同造成的比对方式差异,等你论文发了再看细节吧。

            😅 我觉得,一般来讲,永远会因为数学知识的短板,增加专业知识的困难。因为永远是你数学知识越多,你学习专业的应用对方法insight(精髓?)的掌握就越高。比如你泛函学的很好很深,你学支持向量机一定就比不太会泛函的人学得快,虽然你不会也不是不能学......当然如果线代微积分不及格的话那就可能很难了

              tctcab 谢谢回复。谢谢分享学习工作体会。对我很有启发。
              请问你在中科大学的第一门数学课是“微积分”?还是“数学分析”

              你在当前工作中遇到没学过的数学知识,一般需要几步能和过去学过的数学知识接续上。

              举个虚构的例子,假设我只学过一元微积分。例如我工作中遇到统计知识。于是去看《统计导论》发现里面用到了《概率》的知识,于是我又去看《概率》的书,发现又需要多元微积分的知识。于是又去看多元微积分。多元微积分需要一元微积分的基础,于是接续上了。这样我用了三步完成了知识接续。

              以上面的例子位模板,你在接续数学知识的过程中一般是通读《统计》《概率》《多元微积分》(假设这三门课过去完全没学过)?还是只学特定章节?

                wglaive 谢谢回复。
                最近刚刚翻了一下数据挖掘,机器学习的书。深感数学的重要性。但是体会还没有达到你的高度。例如你举的例子:“比如你泛函学的很好很深,你学支持向量机一定就比不太会泛函的人学得快,虽然你不会也不是不能学”----------我现在遇到的情况是缺乏A知识就学不会B。暂时还没遇到缺乏A知识,B知识也能学会,就是学得慢。:))这泛函分析难道是类似乘法口诀表。或者常用三角函数公式的哪种口诀类的知识?:)))否则怎么会没他也行,有他更快。

                请问你在学习专业知识的时候如何在专业知识和数学知识之间分配精力。有什么经验或体会可以分享么?有什么数据科学从业人员经常逛的论坛推荐么?

                  huangwu 因为支持向量机搞得人太多太成熟了,你随便去下一个lecture notes,第一二章基本上把你需要的泛函内容过了一遍了,你自然不用花大量的时间去把课程"泛函分析"从头到尾学一遍。所以学习阶梯不会那么陡峭。学过泛函以后快是因为可能这两章你就不用学或者扫一遍就完了(花时间少=快),没学过就得慢慢啃第一二章然后吃透。而且还可能都某些理论理解不深入(跳掉了某些不重要的定理什么的),导致学的比学过的慢。

                  所以其实我们说的是一件事,只不过你的说法是"学会A知识"然后才能学"B知识"。我说的是,"学A,A1,A2,A3,.....Am" 会让学"B" 更轻松更快,A无论如何是逃不掉的。(某些先实践再理论的另说)。整体的泛函分析的课程就包括了"A,A1A2....",但是支持向量机的lecture notes的第一章可能只有"A".

                  还有一种可能,就是基础理论有些会抽象过头,你明明只需要用实数空间上的,很多更一般空间的理论其实懂不懂关系不大,懂了你理解更快,不懂也不影响你用在实数空间这个特例。

                  在你的例子中,用到了概率的知识,不代表你就得充分掌握borel空间上的映射,大数定理,中心极限定理(知道有那么个东西,定义是什么,在说什么问题就够了,不一定要学到会用)...而且一般统计里面设计的多元微积分也很简单,曲线曲面积分基本很少用,特别是初级的内容,自然你没必要通读多元微积分。当然如果你是快速学习者那另说,通读肯定会对你理解整个系统有很大帮助,强烈推荐T.W. Anderson的多元统计引论。前沿统计用到的很多基础东西这本书都有,如果通读吃透,我觉得你随便做哪个方向(特别是传统一点的方向)的数理统计博士都不会有问题.....(但是我没读下来)

                    huangwu 高度问题,例如走迷宫,站在1楼可以走,如果站在2楼看迷宫对于迷宫的理解就不同了呢?那如果你站在10楼呢?

                    数学的问题就是硬啃,坚持读完(实在看不懂跳过)坑定会有收获,当然如果数分还没看就看拓扑、测度那坑定是看不懂的。当你看完数学再去看统计你会从细节上看到很多以前觉得无所谓的东西,那时候你对于统计的理解和认识就不一样啦。当然如果仅仅是一般商业数据分析工作不懂数学其实也没啥关系,但是如果说对于数据的认识那就完全没法比。(按我老板的话,不懂测度就不懂概率,不懂概率学再多遍统计也没用)。

                      我觉得这个问题主要取决于你未来从事工作的理论程度。如果对于比较理论的东西接触得多,甚至自己未来需要做一些证明的工作,那就我这个应数出身的人来看扎实的数分实变线代最优化等等自然是必要的,学没学过学得好不好对于理论性的东西理解深度速度差别大了。当然只是用用模型写写码的话我觉得就没那么多所谓。

                        huangwu
                        你的问题代表了一种常见心理,我管这个叫恐数理症。生物领域现在越来越多地需要数学和编程的辅助了,所以很多做生物学研究的人不断地问数学(其实是统计学)要学到什么水准,编程(基本上是在说 R 和 Python)要掌握到什么地步?什么时候算够?在我看来,这是只个心理问题---很多心理问题都是不充分接触实际困难,自己空想出来的。

                        这么说吧,你其实不可能把你需要的所有先修知识都学好了再开始做"数据科学"的。先走起来,如果遇到不懂的概念造成麻烦了,就去现学它是啥意思,这么一环一环地学下去就可以了。有的人觉得学习是体系化的,得一层层往"上"走,中间哪层缺失了就走不动了。这种不那么对的想法造成了很多人面对未知领域时有心理障碍。

                        等学完测度再学概率,再学统计,黄花菜都凉了,少年。

                          wglaive 谢谢回复。

                          “所以其实我们说的是一件事,只不过你的说法是"学会A知识"然后才能学"B知识"。我说的是,"学A,A1,A2,A3,.....Am" 会让学"B" 更轻松更快,A无论如何是逃不掉的。(某些先实践再理论的另说)。整体的泛函分析的课程就包括了"A,A1A2....",但是支持向量机的lecture notes的第一章可能只有"A".”--------------我明白了。

                          ''还有一种可能,就是基础理论有些会抽象过头,你明明只需要用实数空间上的,很多更一般空间的理论其实懂不懂关系不大,懂了你理解更快,不懂也不影响你用在实数空间这个特例。“-------------这个严重同意。有时候遇到一个数学问题,也知道其所属的哪一个数学细分领域。于是找到该领域的教材翻到指定章节去看。发现看不懂。事后回顾,发现看这里面往往分两种情况。
                          1、该书风格追求叙述的理论完备性,因此与该问题的有关的前因后果全都牵扯进来,超出了读者原有知识储备。一个问题变成了n个问题。而有一本简洁的书当中有一段关键的文字可以解决你的疑惑。但是你却没第一时间找到这本书。于是时间就这样过去了。
                          2、该书风格已经足够简洁了。真的是由于读者在这个方面知识漏洞太大。因此只能按部就班去补拼图。遇到这种情况即便花时间也是值得的。
                          请问你遇到问题去查资料的时候,如恶化感知当前是在情况1、还是情况2。有什么技巧快速识别出自己在情况1当中么?主要是像节省时间少走弯路。:))

                            CMCai0104 谢谢分享。
                            请教一下,你现在主要从事哪个领域的研究或工作?关于测度,有什么优质的中文书推荐么?

                            ocssLin 嗯嗯。一定是不会想那些有关理论突破的事情。大师的研究成果能理解用对就可以了。

                            Liechi 我觉得你关于心里的分析是很准确的:)))前方有雾谁都怕走上一条不归路。因此免不了向这条路上驰骋的人请教。
                            但是至少多元微积分和线代,概率,统计的入门课要先学完。其他的留待以后提高做准备。

                            huangwu 多看lecture notes,如果搜了3个以上lecture notes,第一章用来定义最基本元素的属于都不知道的话那就是情况2。因为一般lecture notes是老师为了上课准备的,一般不太会追求理论完备和严谨性,一般追求自洽和把故事说圆。如果还不行,那这个时间就是你该花的必要成本。有些时间是必须要花掉的