现在有很多科普文章声称 400 - 500 亿或 500 - 600 亿参数是大语言模型出现涌现能力 (emergent abilities) 的门槛。我很好奇这背后的原因。更具体地说,是否存在一个较为简单(或不简单)的理论概率模型描述自然语言的维度和结构,以概率建模的角度近似解释 500 - 600 亿参数这个经验值?
研究这个问题一篇比较著名的论文是 Emergent Abilities of Large Language Models,但是如果你认真读一下会发现作者是从计算量、模型参数数量、训练数据大小等方面做了一个描述性统计的工作,虽然也很重要,但是很遗憾作者并没有提供更深入的分析。