不明觉厉!
【 在 ArchLinux 的大作中提到: 】
: 今天简单地测了一下,用 llama.cpp Vulkan 后端跑 LLM. 用 GPU 推理,Qwen3 4B 生成速度大约 20 token/s, GPT-OSS 20B 生成速度大概 16 token/s. CPU 推理速度慢一半。如果用 ROCm 后端或者改用 vLLM 等高性能推理框架有可能可以再提升点性能,我还没有测试。
:
: 【 在 trabalhar 的大作中提到: 】
: ...................
--来自微微水木3.5.17
--
FROM 218.108.210.*