如何看待 FlexGen 在消费级单卡上实现对 1750 亿参数大模型的 100 倍推断加速?

FlexGen 是一个高通量的生成引擎，可以在有限的显存下 (如 16GB 的 NVIDIA T4 或 24GB 的 RTX 3090) 上运行大语言模型 (LLM)。相对其他基于 offloading 方法的系统，在单卡上运行 1750 亿参数的 OPT-175B，推断速度提升了 100 倍。

我个人希望这类底层实现的发展 + 更大显存的消费级显卡能够逐渐解决 Are you rich 这个灵魂拷问。

更大显存的消费级显卡。。。以皮衣刀客的惯常做法来说肯定很遥远，不过大家渐渐也习惯了他对消费级砍双精度的操作，也许将来也会有更多更好的“小”显存跑大模型的解决方法吧。也算是变相解决are you rich。

我保持乐观，先做加法探一探技术天花板，再做减法降本增效达到民用级别是很正常的发展道路（ ’ - ’ * )