- 主题:把大模型做进芯片内,速度超GPU十倍
加拿大初创公司Taalas推出HC1芯片,将Llama 3.1 8B模型直接硬编码进硅片,推理速度达17000 tokens/秒,比NVIDIA H200快近10倍,功耗仅200W,成本降至GPU方案的1/20。
公司新闻网址 taalas点康姆正斜杠the-path-to-ubiquitous-ai
--
FROM 171.213.176.*
这种没有意义,每过一段时间就有类似的事情。
【 在 poocp 的大作中提到: 】
: 加拿大初创公司Taalas推出HC1芯片,将Llama 3.1 8B模型直接硬编码进硅片,推理速度达17000 tokens/秒,比NVIDIA H200快近10倍,功耗仅200W,成本降至GPU方案的1/20。
: 公司新闻网址 taalas点康姆正斜杠the-path-to-ubiquitous-ai
--
FROM 116.233.45.*
我觉得挺有意义的,等以后模型效果足够好了,直接这么干,用来做专用芯片(比如机器人),效果应该不错
【 在 lvsoft 的大作中提到: 】
: 这种没有意义,每过一段时间就有类似的事情。
--
FROM 182.96.101.*
那得以后,模型固定稳定了,现在还早得很。
而且这么干其实也没啥要干的...把模型刻进asic效果必然比通用路线高一个数量级,这没必要去留个片来证明...
而且类似的证明也早就有过很多了,比如light matter早在6年前就宣传它们家的光处理器是a100的5倍性能,同时功耗只有1/6,能效比30倍,同时精度保持在99%。
但nv自己迭代速度太快,很快就把这点点差距甩开并大幅度反超了。这也是为啥这几年时间虽然ai大火,但所有做这种非通用路线的初创全死的差不多了,反倒是nv一直在大口吃肉。
【 在 adamhj 的大作中提到: 】
: 我觉得挺有意义的,等以后模型效果足够好了,直接这么干,用来做专用芯片(比如机器人),效果应该不错
--
修改:lvsoft FROM 116.233.45.*
FROM 116.233.45.*
然后多搞几个并行?
【 在 poocp 的大作中提到: 】
: 加拿大初创公司Taalas推出HC1芯片,将Llama 3.1 8B模型直接硬编码进硅片,推理速度达17000 tokens/秒,比NVIDIA H200快近10倍,功耗仅200W,成本降至GPU方案的1/20。
: 公司新闻网址 taalas点康姆正斜杠the-path-to-ubiquitous-ai
--
FROM 39.149.15.*
用FPGA芯片啊
需要的时候可以升级芯片里的模型
【 在 lvsoft 的大作中提到: 】
: 那得以后,模型固定稳定了,现在还早得很。
: 而且这么干其实也没啥要干的...把模型刻进asic效果必然比通用路线高一个数量级,这没必要去留个片来证明...
: 而且类似的证明也早就有过很多了,比如light matter早在6年前就宣传它们家的光处理器是a100的5倍性能,同时功耗只有1/6,能效比30倍,同时精度保持在99%。
: ...................
--
FROM 58.35.83.*
你认真的么?你找个片内有很大sram的fpga出来看看
【 在 jinal 的大作中提到: 】
: 用FPGA芯片啊
: 需要的时候可以升级芯片里的模型
--
修改:lvsoft FROM 116.233.45.*
FROM 116.233.45.*
其实比特币的矿卡和矿机是不是就是这种...
某种算法固化的设备
【 在 lvsoft 的大作中提到: 】
: 这种没有意义,每过一段时间就有类似的事情。
--
FROM 59.174.108.*