不用显卡当然可以,不考虑速度,只要内存管够谁都可以,上块ssd当内存跑都行。
就是没有可用性。
视频这个还是4bit量化,3t/s的速度这怎么叫勉强能用,这只是能跑而已,一个thinking等半天,这咋用嘛。
大模型推理本来就是考验的内存而不是算力。所以HBM内存>>GDDR6x>>普通pc内存>服务器内存啊。
完全体版本要上到800G以上的内存,这个容量也不存在普通pc内存(ddr5 6400+)的可能性。
只能用服务器的reg内存,而这种内存就是慢的代名词。
【 在 RuralHunter 的大作中提到: 】
: 看这个视频:BV1REPqeFE6d,不用显卡也可以,就是大内存+大内存带宽,几万块钱跑起来,3t/s,勉强能用,视频里这个内存还是不够快,更快效果更好。
:
--
修改:lvsoft FROM 222.68.51.*
FROM 222.68.51.*