目前在开源社区(尤其是 LocalLLM 和 llama.cpp 圈子)里主要指向两个核心实现,它们是让 3090 这种 24G 显存老卡强行吃下 10 万上下文(100k Context)的关键:
1. 核心复现库:OmarHory / TurboQuant
这是在 Google 论文发布后 48 小时内出现的第一个高质量第三方实现。
GitHub 地址: /OmarHory/turboquant
背景: 作者确实被传为前大厂工程师,他利用 Claude 4 和 Gemini 3.1 辅助分析论文里的数学公式,在 Google 还没放出官方代码时,直接手搓出了支持 Triton 算子 的版本。
绝活: 它实现了论文中的三种算法(MSE, QJL, Prod),重点在于它能把 KV Cache 压缩到 3-3.5 bit 且几乎不掉点。
2. 工程化落地:TheTom / llama-cpp-turboquant
对于咱们玩 3090 本地部署的玩家,这个库可能更实用,因为它直接合进了 llama.cpp 的体系。
GitHub 地址: /TheTom/llama-cpp-turboquant
特性: 专门针对消费级显卡(CUDA)和 Apple Silicon(Metal)做了底层优化。它引入了 InnerQ 机制,配合 TurboQuant,让 3090 在跑 Llama-3-70B 这种模型时,能把原来捉襟见肘的显存省出来给上下文。
3、github /TheTom/turboquant_plus
这个项目最厉害的地方在于它不仅复现了论文,还针对 llama.cpp 进行了工程优化(特别是 Metal 和 CUDA 后端),使其在 128GB 内存的 MacBook 上能跑起 104B 参数的模型并开启 128K 上下文。
--
修改:z16166 FROM 123.114.7.*
FROM 123.114.7.*