不会,每秒40 token output
E5 2697 v4 x 2
128G
3080 20G + 3060ti 8G
ollama全部load在显卡上
然后会调用intel cpu的avx2,挂个embed模型,把in house的库都做成知识库,很好用
写个yaml, cmake, py脚本, 网页界面都用这个。
【 在 Algoquant 的大作中提到: 】
: 这个响应速度和质量如何? 本地部署,除非拉满硬件, 速度太慢了 ,还不如打开浏览器呢。
:
--
FROM 115.205.65.*