把大模型做进芯片内，速度超GPU十倍

水木社区手机版

主题:把大模型做进芯片内，速度超GPU十倍
楼主|poocp|2026-02-22 15:42:11|只看此ID
加拿大初创公司Taalas推出HC1芯片，将Llama 3.1 8B模型直接硬编码进硅片，推理速度达17000 tokens/秒，比NVIDIA H200快近10倍，功耗仅200W，成本降至GPU方案的1/20。
公司新闻网址 taalas点康姆正斜杠the-path-to-ubiquitous-ai
--
FROM 171.213.176.*
1楼|lvsoft|2026-02-22 20:08:22|只看此ID
这种没有意义，每过一段时间就有类似的事情。

【在 poocp 的大作中提到: 】
: 加拿大初创公司Taalas推出HC1芯片，将Llama 3.1 8B模型直接硬编码进硅片，推理速度达17000 tokens/秒，比NVIDIA H200快近10倍，功耗仅200W，成本降至GPU方案的1/20。
: 公司新闻网址 taalas点康姆正斜杠the-path-to-ubiquitous-ai
--
FROM 116.233.45.*
2楼|adamhj|2026-02-22 21:04:03|只看此ID
我觉得挺有意义的，等以后模型效果足够好了，直接这么干，用来做专用芯片(比如机器人)，效果应该不错

【在 lvsoft 的大作中提到: 】
: 这种没有意义，每过一段时间就有类似的事情。
--
FROM 182.96.101.*
3楼|lvsoft|2026-02-22 21:06:21|只看此ID
那得以后，模型固定稳定了，现在还早得很。
而且这么干其实也没啥要干的...把模型刻进asic效果必然比通用路线高一个数量级，这没必要去留个片来证明...
而且类似的证明也早就有过很多了，比如light matter早在6年前就宣传它们家的光处理器是a100的5倍性能，同时功耗只有1/6，能效比30倍，同时精度保持在99%。

但nv自己迭代速度太快，很快就把这点点差距甩开并大幅度反超了。这也是为啥这几年时间虽然ai大火，但所有做这种非通用路线的初创全死的差不多了，反倒是nv一直在大口吃肉。

【在 adamhj 的大作中提到: 】
: 我觉得挺有意义的，等以后模型效果足够好了，直接这么干，用来做专用芯片(比如机器人)，效果应该不错
--
修改:lvsoft FROM 116.233.45.*
FROM 116.233.45.*
4楼|upndown|2026-02-22 22:52:19|只看此ID
然后多搞几个并行？

【在 poocp 的大作中提到: 】
: 加拿大初创公司Taalas推出HC1芯片，将Llama 3.1 8B模型直接硬编码进硅片，推理速度达17000 tokens/秒，比NVIDIA H200快近10倍，功耗仅200W，成本降至GPU方案的1/20。
: 公司新闻网址 taalas点康姆正斜杠the-path-to-ubiquitous-ai
--
FROM 39.149.15.*
5楼|jinal|2026-02-23 18:53:20|只看此ID
用FPGA芯片啊
需要的时候可以升级芯片里的模型

【在 lvsoft 的大作中提到: 】
: 那得以后，模型固定稳定了，现在还早得很。
: 而且这么干其实也没啥要干的...把模型刻进asic效果必然比通用路线高一个数量级，这没必要去留个片来证明...
: 而且类似的证明也早就有过很多了，比如light matter早在6年前就宣传它们家的光处理器是a100的5倍性能，同时功耗只有1/6，能效比30倍，同时精度保持在99%。
: ...................
--
FROM 58.35.83.*
6楼|lvsoft|2026-02-23 22:45:44|只看此ID
你认真的么？你找个片内有很大sram的fpga出来看看

【在 jinal 的大作中提到: 】
: 用FPGA芯片啊
: 需要的时候可以升级芯片里的模型
--
修改:lvsoft FROM 116.233.45.*
FROM 116.233.45.*
7楼|Aladdin|2026-02-24 16:24:25|只看此ID
其实比特币的矿卡和矿机是不是就是这种...

某种算法固化的设备

【在 lvsoft 的大作中提到: 】
: 这种没有意义，每过一段时间就有类似的事情。
--
FROM 59.174.108.*