现在大家往往都量化跑,12G显存大概跑4bit量化的13/14B比较稳,现在也有k/v cache的部分量化了;然后12G勉强跑34B的iq2_xxs的gguf量化也是能运行的。
6~7B有openchat-3.5系列和Yi/Qwen等系列,QK5_M之类量化效果比4bit更好。
9B的Yi刚出来,相关的微调不够多,12G 按说也能跑QK5_M。
24G可以比较舒服的跑34B的4bit量化。
选新显卡,基本上12G显存就是一个下限,3060起,16G的4060ti也是个可以的选择,24G的3090/4090D就是比较舒服的了。
二手卡自己很折腾可以考虑P40 24G的,但是原装没风扇(装在服务器有风道机箱的),需要自己折腾风扇散热。
也有改装的2080ti 11G升22G的卡,就看运气了。
--
修改:haili FROM 119.57.72.*
FROM 119.57.72.*