nan.xiao FlexGen 是一个高通量的生成引擎,可以在有限的显存下 (如 16GB 的 NVIDIA T4 或 24GB 的 RTX 3090) 上运行大语言模型 (LLM)。相对其他基于 offloading 方法的系统,在单卡上运行 1750 亿参数的 OPT-175B,推断速度提升了 100 倍。 GitHub: https://github.com/FMInference/FlexGen Hacker News: https://news.ycombinator.com/item?id=34869960 我个人希望这类底层实现的发展 + 更大显存的消费级显卡能够逐渐解决 Are you rich 这个灵魂拷问。
fenguoerbian 更大显存的消费级显卡。。。以皮衣刀客的惯常做法来说肯定很遥远,不过大家渐渐也习惯了他对消费级砍双精度的操作,也许将来也会有更多更好的“小”显存跑大模型的解决方法吧。也算是变相解决are you rich。