不会,我原来系统只有16G内存,启动ollama之前系统和其他应用占用了5个G,14b大概需要10G左右,处于临界状态,所以非常担心内存不够用,导致内存被频繁地swap out到磁盘上,好在手头正好还有32G内存,索性就升级了下内存,把这种隐患排除掉。
现在看起来:
1,GPU显存如果能把模型全装下,系统整个跑在GPU上是最快的;
2. 否则,系统会使用CPU来进行并行计算:
2.1,如果模型能装到内存中,系统可以正常运行,不过性能很差,此时瓶颈在CPU;
2.2,如果模型无法全部放到内存中,但是硬盘够用的话,性能会差到几乎无法忍受,尽管如此系统应该也能运行--我看到有人用IT的nvme硬盘跑那个671b的完整模型的,一个回答需要半个小时。 这是通过操作系统将磁盘模拟内存来实现的,此时瓶颈在内存;
2.3 如果模型无法全部放到内存中,而且硬盘也不够用,那就彻底没法跑了,此时瓶颈在硬盘;
所以,如果你有128G内存,你可以尝试下跑70b的那个模型,能最大化地利用你的硬件资源。
【 在 Mikov 的大作中提到: 】
: 我的电脑是 128G 内存的, 运行 8b 好像没怎么用内存, 看内存用量才 12G 不到.
: 14b会很耗内存吗?
:
--
修改:heideggerr FROM 113.233.198.*
FROM 113.233.198.*