- 主题:数据中心GPU使用寿命或短得惊人,只有1-3年
过去一年多里,人工智能(AI)浪潮席卷全球,主要的科技公司都在大举投资数据中心GPU,这使得市场上最大的数据中心GPU英伟达赚得盆满钵满。虽然高性能的数据中心GPU定价很高,但是使用寿命却不太长,这是由于平常承受着AI推理训练的繁重工作负载,往往比其他组件老化得更快。
据TrendForce报道,最近有报告称,云服务提供商(CSP)运营的数据中心里,这些GPU在AI工作负载中的利用率约为60%至70%。按照这个利用率,GPU通常只能使用1到2年,即便较为理想的状态,最多也就3年。需要强调的是,现在用于AI和HPC应用的数据中心GPU功耗很高,可达到700W或以上,这对于芯片来说是一个很大的压力,一定程度上也减少了寿命。
如果想要延长数据中心GPU的使用寿命,其中一种方法是降低利用率,然而这也意味着其以更缓慢的速度贬值,并且需要更长的时间才能回本,这对于付出高昂成本的企业来说是不利的。因此大部分云服务提供商衡量了收益以后,最常见的做法仍然是以高利用率运行。
此外,报告还根据数据统计结果指出,数据中心GPU的年化故障率约为9%,3年后大概在27%,一般使用一年后更可能频繁地出现故障。
--
FROM 114.249.51.*
咋会这样?淘汰的矿卡在外面不是都可以用好几年的么?
--
FROM 14.145.210.*
矿卡坏的也很多很多
【 在 zerg136 的大作中提到: 】
: 咋会这样?淘汰的矿卡在外面不是都可以用好几年的么?
--
FROM 114.249.51.*
理论上cpu也一样,只要功率大的坏的就快,工作温度太高
--
FROM 120.245.28.*
主要是现在都通过提高功率来提升性能
才是根本原因吧
【 在 xunery (寻) 的大作中提到: 】
: 理论上cpu也一样,只要功率大的坏的就快,工作温度太高
: --
:
:
--
FROM 119.113.217.*
不是都用水冷了吗。数据中心据说不仅是耗电大户,也是耗水大户。
【 在 xunery 的大作中提到: 】
:
: 理论上cpu也一样,只要功率大的坏的就快,工作温度太高
#发自zSMTH-v-@alps k65v1_64_bsp
--
FROM 171.213.184.*
确实是耗核大户,大型数据中心好多都是专门配个新核电站来工作的。
【 在 amlt 的大作中提到: 】
: 不是都用水冷了吗。数据中心据说不仅是耗电大户,也是耗水大户。
:
: #发自zSMTH-v-@alps k65v1_64_bsp
--
FROM 123.112.67.*
【 在 amlt 的大作中提到: 】
: 不是都用水冷了吗。数据中心据说不仅是耗电大户,也是耗水大户。
:
: #发自zSMTH-v-@alps k65v1_64_bsp
所以散热还需要加强
--
FROM 106.127.240.*