为何500-600亿参数是大语言模型能力涌现的门槛？

nan.xiao

现在有很多科普文章声称 400 - 500 亿或 500 - 600 亿参数是大语言模型出现涌现能力 (emergent abilities) 的门槛。我很好奇这背后的原因。更具体地说，是否存在一个较为简单（或不简单）的理论概率模型描述自然语言的维度和结构，以概率建模的角度近似解释 500 - 600 亿参数这个经验值？

研究这个问题一篇比较著名的论文是 Emergent Abilities of Large Language Models，但是如果你认真读一下会发现作者是从计算量、模型参数数量、训练数据大小等方面做了一个描述性统计的工作，虽然也很重要，但是很遗憾作者并没有提供更深入的分析。