大佬,需要互联,带宽的,我国这方面极差。ChatGPT对用户反应都是毫秒级的,我国的带宽,互联太差,反应迟钝
【 在 dashudashu 的大作中提到: 】
: 你说,用那个分布式算力行不行。。本中玩币,有个bittensor项目鼓吹搭建分布式算力平台,有没有前途。。你说说
: 【 在 lili2030 的大作中提到: 】
: : DeepSeek算力非常差,它有16000亿参数,但是平时绝大部分都冻结不激活,只用其中几百亿参数。DeepSeek采用混合专家模型,目前用户从1.2亿涨到两亿,用户聊天时,要同时调用几个专家模块,结果是高峰时极易拥堵,造成全局崩溃,卡顿,限流。它只用了几万块低端算力卡,主力卡是H20,,算力不如ChatGPT的百分之一,ChatGPT采用十万张blackwellGB200, 算力,互联,带宽都碾压DeepSeek。之所以DeepSeek用moe,就是因为moe训练不需要多少算力。
: --
:
: FROM 124.127.68.* [北京 中国电信北京研究院]
--发自 ismth(丝滑版)
--
FROM 14.18.99.*