Re: Google刚发布的TurboQuant论文，啥时候能实装

水木社区手机版

展开|楼主|同主题展开|溯源|返回

主题:Re: Google刚发布的TurboQuant论文，啥时候能实装
z16166|2026-04-07 11:19:18|
目前在开源社区（尤其是 LocalLLM 和 llama.cpp 圈子）里主要指向两个核心实现，它们是让 3090 这种 24G 显存老卡强行吃下 10 万上下文（100k Context）的关键：

1. 核心复现库：OmarHory / TurboQuant
这是在 Google 论文发布后 48 小时内出现的第一个高质量第三方实现。

GitHub 地址： /OmarHory/turboquant

背景：作者确实被传为前大厂工程师，他利用 Claude 4 和 Gemini 3.1 辅助分析论文里的数学公式，在 Google 还没放出官方代码时，直接手搓出了支持 Triton 算子的版本。

绝活：它实现了论文中的三种算法（MSE, QJL, Prod），重点在于它能把 KV Cache 压缩到 3-3.5 bit 且几乎不掉点。

2. 工程化落地：TheTom / llama-cpp-turboquant
对于咱们玩 3090 本地部署的玩家，这个库可能更实用，因为它直接合进了 llama.cpp 的体系。

GitHub 地址： /TheTom/llama-cpp-turboquant

特性：专门针对消费级显卡（CUDA）和 Apple Silicon（Metal）做了底层优化。它引入了 InnerQ 机制，配合 TurboQuant，让 3090 在跑 Llama-3-70B 这种模型时，能把原来捉襟见肘的显存省出来给上下文。

3、github /TheTom/turboquant_plus

这个项目最厉害的地方在于它不仅复现了论文，还针对 llama.cpp 进行了工程优化（特别是 Metal 和 CUDA 后端），使其在 128GB 内存的 MacBook 上能跑起 104B 参数的模型并开启 128K 上下文。
--
修改:z16166 FROM 123.114.7.*
FROM 123.114.7.*