May 3
现在真的是硬件工程师的黄金时代.
小小的波特兰,FAAMG已经来了三个.Amazon几年前买了一家做off-the-shelf GPU硬件
的startup(Elemental),Apple两年前来插旗,昨天Microsoft第一次贴出硬件的职位,
真希望有生之年可以等到F/G也来设点.
AAM在波特兰的硬件研发能量扩张,是建立在Intel墙倒众人推的概念上的.Intel的衰
退已经好几年了.衰退的原因好几篇都讲不完,先讲衰退的后果-裁员.从2015恶名
昭彰的ACT砍了12000(11%)开始,很多能力很好只是邭獠缓胫偤们耙荒昙?罟善鳖I得比
较少的人也中刀,士气大跌之下,剩下有能力的人也慢慢跑了.从2015之后,以
project取消为名,偷偷摸摸的layoff也没少过.上个月一个很大的中央单位(MIG)直接
要manager裁掉60%的人,然后在马来西亚用30%的价钱招回同样的人数.
到这个时候,能干活的主力已经几乎不存在了,剩下的不是刚毕业几年等I-140绿卡排
期,就是已经占到G9/G10/PE以上好缺的老屁股但动手干活能力没剩多少的.简单的说
就是Intel快速的IBM化,但瘦死的骆驼比马大,所以这个过程还可以撑个十年.所以这
正是FAAMG来分食骆驼死尸最好的时机.
能干活的人去哪了?愿意搬家的去了矽谷/奥斯汀/西雅图,不想搬家的人去了Ampere,
Apple.
Ampere是Intel前CEO Renee James被前CEO BK斗走之后,上演公主复仇记,引外援
Carlyle集团的钱,用ARM构架作Server,设在Portland挖Intel墙角,挖动了Intel
Oregon CPU构架的扛霸子Sean Mirkes带了整个team投靠过去.
Apple在贾伯斯死后,不准在其他州开site的规定就解禁了,所以Austin,Portland,
San Diego连着开.
Microsoft呢?又是另一个公主复仇记的故事.Rani Borkar是前CPU team的VP,被斗垮
后短暂去了IBM,后来去了西雅图Microsoft,去年挖了一票intel CPU implementation
的高阶主管到西雅图,现在也回来插旗挖墙脚.
硬件被软件压着打了这么多年,居然也有这种人生第二春,真是世事难料
Intel为什么会找上台积电代工?这不是一个突然的决定,一切都是有迹可循的,冰冻
三尺非一日之寒.
要先说清楚,找台积电代工有两种情况,一种是当初买进来的单位(像英飞凌无线部门)
本来就有一些采用较旧的台积电28nm制程的RF电路,这种纯粹属于计划需要,没有必
要为了转单而转单.
而另外一种情况才是Intel本身造成的问题.要知道产能的规划是长期的,环环相扣,
一个环节出问题就会对未来造成影响-建厂,备料,培训人员,调整机台,等TD(
technology development)把制程配方调出来了,开始小量试产,一边调整良率,另一
方面design team提早一两年开始设计,最后在双方约定好的时间,设计团队把蓝图交
给晶圆厂,开始一层一层的光罩慢慢做,几周后生产,封装,测试,然后交货.
理想的状况下,Intel 10nm制程开发顺畅,14nm厂一边量产,10nm厂一边慢慢热身准备
就绪,等到良率达标,可以开始接大单了,design team在10nm上也差不多设计好了,
然后10nm大门一开,谁先上?GT先上,因为GT(Graphic)图形处理的构架比较一致,
设计周期比较短,可以比较快挤出设计蓝图.然后CPU老大,Server老二陆续进去,然
后10nm产量持续增加,14nm慢慢腾出产能.接下来呢?
要知道Intel 10万大军扣掉TMG/CPU/Server,还有很多松散的外围组织也需要芯片.
这些单位很多都是前CEO BK挥霍老本买进来的败家收藏,像是原本还算有点名气但逐渐
被人遗忘的FPGA公司Altera(改名PSG),为了重返手机市场荣耀买进来的英飞凌无线部
门(改名iCDG),赶流行被当冤大头买贵了的人工智慧Nervana(改名AIPG),自动驾驶
Mobileye.扣掉这些大型装饰,还有一些基础IP,IO,內存,还有小号CPU Atom.最
后就是一些量不大,一台公交(MPW Shuttle)就可以打发的单位,像是纯做研究/发
paper/出新闻稿的Intel Labs,帮TMG做测试芯片的AD(Advanced Design).总之,山
头林立,无奇不有.
更有甚者,还有一些不知什么原因默默地在Intel里载浮载沉讨生活的浪人group,我认
识的一位业内老前辈统称这些group是后娘养的,没人疼的孩子.这些浪人group其实曾
经也是有头有脸隶属于正规组织的,但是这些正规组织被解散了(像英特尔一时兴起的
晶圆代工,Intel Custom Foundry),设计部门的头目为了手下武士的生计,只好在
Intel里面帮人打工,譬如Server部门要做什么內存控制IC,人手不够,就暂时让浪
人group来接这个活.如果面临太多竞争,像是遇到印度班加洛用人海战术又爱夸口一
切没问题把活抢走了,或是遇到马来西亚滨城干起活来不要命的华人工程师,那只能摸
摸鼻子,去接一些别人捡剩的朝不保夕的活,像是帮大陆的厂商做chip,每天看着川普
的脸色等着project被cancel.看过动物星球频道的就知道饥饿的时候是没有选择的余
地的.Intel内部就是这样一个弱肉强食的世界.
总之,这些各式各样的单位,就按照对公司的获利贡献的重要程度,来决定要不要排进
去10nm或继续用14nm的多余产能.
结果世事难料,10nm delay,Fab空转,最重要的CPU/Server/GT怎么办?只好继续占用
14nm的产能.最惨的情况来了,TD本来就处在工程师过劳的极限状态,以前14nm弄好了
,主力就移师10nm,留下一小批人力维护14nm,然后再分出一小队精锐先锋去7nm.现
在14nm要继续搞,还要搞14nm+,14nm++,14nm+++(所谓的挤牙膏),那分给10nm人数就
少了,7nm就更少了.硬生生地就让自己越陷越深.
现在14nm产能都给了公司的命脉CPU/Server,那其他剩下的单位怎么办?日子还是要过
,IC还是要出货,为了求生路,大家就纷纷发难,势力相对大一点的iCDG就跳出来说,
我们在英飞凌时代就是用台积电,合作愉快,让我们继续用吧.AIPG说我们的AI chip
不能等,有多少的data等着我们train,Nvidia都甩过我们好几条街了,所以我们一定
要用最好的制程,没有Intel 10nm就给我TSMC 7nm.竟然连一些帮Server系统做周边
chip的小咖说话都大声起来,不给我们出去,Server也出不了货,大家要死一起死!
到了这种地步,Intel高层有任何选择吗?开放到TSMC下单是不得已而为之的最后解决
方法.Intel身为一家上市公司,对股东有盈利的义务,但盈利不代表一定要靠自己生
产芯片.
来谈谈下单台积电后带给英特尔的一些副作用.
制程卡关虽然不好,但是对英特尔来说其实没有真的伤到筋骨.英特尔的本业CPU/
Server几十年打下来的江山很牢固,尤其是Server的市占牢牢地抓在手里,再加上10nm
产能慢慢上来,AMD虽然急起直追,但是要真的追上来还有一段时间.英特尔比较大的
问题是设计部门的包袱太大,思维过于封闭僵化,跟不上变化,早晚有一天会遇上瓶颈
.当制程落后和设计瓶颈同时到来的那天,城池可能就守不住了.这也是为什么BK要
在2015年找来Murthy(除旧),2018年再找来Raja Koduri和Jim Keller(布新).
找Murthy来就是要来给公司震撼教育和动手术的,Murthy一上任就巡了一遍所有的山头
,看到不配合的主管就拉下来,然后顺势往下动刀.不赚钱的group,砍!表现不好的
EVP/VP/Director,砍!没钱景的project,砍!冗员,砍!每砍完一刀,就把整个单
位直接收编归他管辖,砍到后来甚至连制程部门都收服了.新官上任还真有一点新气象
的感觉.不过什么事做过头了总会出问题,Murthy忘了动手术是要用手术刀,不是用菜
刀的.把肿瘤跟肥肉切掉,不能顺便把身体里面捅出一堆洞来.2015年砍了12000名员
工就是一个很失败的裁员行动,裁掉了很多好员工,从此士气大落.
其实之所以找Murthy来动刀,就是因为除了制程部门外,设计部门也需要好好的整顿一
下.
英特尔的设计部门就像一台载了沉重包袱的牛车,慢慢的往前走,越走包袱越多,偶尔
有人提出丢掉一些包袱,但是声音马上就被压下去,没有主事者敢承担把一些包袱丢掉
的风险,反正一路走来都是这样过来了,大锅饭吃得好好的,何必没事找事.
先不提IP /Library设计,就举Design Flow的例子.英特尔CPU的底层电路的实作精神就
是手刻电路.在关键的block里,每一条data path,每一个cell,每一条net都要很精
准的控制,务必要把所有多余的一丝丝的delay都榨出来,然后每一代靠着制程的进步
来把CPU整体速度往上挤一点.然而业界的EDA Tool一直在进步,自动化能够达到的效
能已经慢慢追上手刻.英特尔也用这些Tool,但在使用上的哲学就是,不管工具有多少
新功能,就只拿其中一部分来实现英特尔现有的客制化Flow里的功能,其实这未可厚非
,毕竟最关键的部分必须很小心的做好.但是绝大部分的block,都不需要这样的设计,
如果Flow是围绕着手刻的哲学叠上去的,就会对大部分的block造成负担.
这样的负担英特尔有办法靠大量的DA(design automation)人力吃下来,再靠S提供的
服务(毕竟英特尔是S的衣食父母)来让Flow继续运作下去,但是整体来说就是处在一种
危险的平衡下.再加上英特尔山头越来越多,所谓天下Flow,合久必分,分久必合.
每几年就有人提议把所有的Flow都并到中央单位,但是久了以后各山头又嫌中央Flow不
好用,自己偷偷搞起内部Flow.久而久之,英特尔的Flow就变成一只庞然巨兽,想改都
不知道从何改起.
在B(手机/平板SOC)时期,英特尔力图振作,搞了一个算是和业界有接轨的Flow,整个
设计理念也比照业界SOC.但是公司史上所有只要不是正统CPU的project,夭折率都很
高,B也不例外,在2016宣告放弃.
笨重的牛车继续蹒跚地向前行,走到了分叉路,14nm产能不够,各山头要出走台积电的
时候.
当时还存在的通信部门说,调制解调器两年后要下单台积电然后交货给某手机公司,你让我
开牛车一定到不了,给我一支重骑兵.中央Flow team哪敢说不好,立马分兵引进S给小
公司专用的轻量级flow,然后把一些英特尔特有的东西加上去,通信部门带了粮草就上
路了.但内部Flow从此一分为二:给英特尔制程专用的flow,还有给台积电制程专用的
flow.Flow team的人力有变多吗?有没有听过一个笑话,老板请你用50% bandwidth做
A,50% bandwidth做B,最后就是200% bandwidth做AB.
Server的IP部门说我要给某网络公司做一个样品,一年半后交货,我也不要坐牛车,给
我一支轻骑兵就好,但是有一部分我想试试C,因为有一些外面招来的员工说C才是业界
流行的.Flow team想想上面大老板正在强调要拥抱变化,公司又在推行dual source(
C/S并存),上面都交代了那就搞吧,所以Flow正式二分为四,但是Flow team的人力有
变多吗?你知道的.
重骑兵和轻骑兵都各自出征了,然后都被歼灭了(project被取消了).
打了败仗,结果是什么?几年的人力经费打水漂,后勤支持体系(memory,IO,library
)不堪负荷,Flow team的DA苦不堪言.S不弃不离了那么多年,换来了dual source的结
局,满肚子委屈.
这只是改用台积电之后带来的其中一个副作用,IP和Library就更不用说了.芯片设计
产品的规划都是三五年以上,大军未动,粮草先行.假设三年后要出货,那所有的东西
都要在预定的时间到位,产能要先预订好,IP /Library开发要提早准备,人力要找齐,
Flow要先定下来.以下为假设情况,如果你告诉project负责人,三年后那颗IC你用台
积电7nm出货,五年后那颗有可能英特尔7nm,也可能台积电5nm,也可能两个都用.
project负责人只好根据每一种情况做准备,排列组合之后有多少可能?Gantt chart大
概好几页都画不下.英特尔长期以来的成功就在于专注,一手抓制程,一手抓设计,照
自己的步调慢慢走,就算设计部门过于保守,也还应付的来.现在演变成多头马车的快
攻,但是设计思维又没有跟上外界,很多时候就力不从心.
用台积电在现阶段是一个必须,但是50年老店英特尔还没有做好心理准备.曾经有一个
人看出了这个问题,一个最擅长扭转局势,战无不胜的大将之材.可惜Jim Keller来了
,Jim Keller又走了.
Jim Keller来了
Jim Keller过去在Apple,AMD,Tesla的丰功伟业网上就可以查得到.就不再赘述.关
于他的过去,这篇报导写得最全面(
https://fortune.com/longform/microchip- designer-jim-keller-intel-fortune-500-apple-tesla-amd)
现在来谈谈他2018年来到英特尔之后做了些什么.
JK是一个彻头彻尾的工程师,最爱做的事就是解决问题,越棘手的问题他越有兴趣.他
最喜欢一层层的抽丝剥茧,找到问题的源头,想出解决的方法,解决后就潇洒地离开,
挥挥手不带走一片云彩.他的职涯就像救火队一样,一连串的解决问题:AMD 1年(K8)
,SiByte 1年,Broadcom 4年,PA Semi 4年,Apple 4年(A4,A5),AMD 3.5年(K12,
Zen),Tesla 2年,Intel 2年.
以前他在Apple/AMD是解决CPU构架的问题,现在格局更大,要解决整个公司的问题,直
接把公司当成机器来看,一台问题很多的老机器.以他的资历和地位,追求的已经不是
钱而已,是一种成就感和快感,更重要的是一种历史定位.他给自己的使命就是,把英
特尔这台机器的问题解决,这辈子也没遗憾了.
从这个角度来说,JK来到英特尔真是来对地方了,在英特尔这种情势之下,谁能扭转局
势,谁就能名留千古.英特尔的问题错综复杂,环环相扣,要找到问题的源头都不是件
容易的事.JK来了以后,勤跑基层,连Boston这种边疆地区都去了很多次.他办了很多
座谈会,也找来了很多主管对他做简报.
我没有在现场参加过这些座谈会,但是看过在线回放.JK穿着很随兴,常常就一件牛仔
裤配一件破破的T-shirt,听他讲话,就像跟坐在附近的资深工程师聊技术一样,讲话
直接不拐弯抹角,有人提出了一些对公司的批评,他既不动怒,也不粉饰太平,反而会
追根究底一路问下去.这样的领导人就是给基层员工一种放心踏实的感觉,对老Intel
人来说,JK就像是一股清流,毕竟大家看多了好大喜功,空口说白话的高层,简称Bozo
.Bozo就是Steve Jobs最恨的类型,这访问值得一看再看(
https://www.youtube.com/ watch?v=lsLpQnIJviE).访问里Steve Jobs说最好的主管,就是根本不想当主管的
individual contributor.而Jim Keller就是这样的人.
现在我们来把英特尔面临的问题条列出来.简单来说,摆在眼前的问题就是,先进制程
落后,主力制程堵车,CPU/Server构架遇上瓶颈,次要单位产品被迫出走台积电,公司
内部后勤补给战线拉得太长,导致计划失败率增加,人力吃紧导致优秀员工出走,员工
出走又进一步延后解决制程问题的时程,以及改善CPU/Server构架的能力,整个问题链
绕成了一个圈.
来看看他给英特尔开出来的药方是什么?
JK的中心思想就是,先不管那么多,先看看客户要什么,然后从准时交货给客户开始.
交货了,信心就会增加,有了突破点,就可以继续加码,驱动整个正向循环.
在JK收集了众多意见之后,发现计划会延迟其中最大的原因,是IP team交给产品部门
的时程落后.IP team为什么会落后,因为每个产品部门的芯片运作条件不一样(温度,
电压,制程,速度,界面),等到产品部门把规格定下来,交给IP team,IP team开始
起跑,好不容易完成了IP hardening(把IP从描述语言实作成晶体管的蓝图),交货给
产品部门,接下来产品部门才能开始验证,但验证是很花时间的一道步骤,最后很大的
机率计划就延迟了.再加上如果有好几个产品部门需要这种HIP(Hard IP,实作好的IP
),对IP team的负担就是雪上加霜.
JK的第一个改革非常符合逻辑,简单来说就是两个重点:IP re-use(重复使用),还有
在IP部门的开发时程和产品部门的整合时程上尽可能的重叠.他下达的新指令就是,IP
team以后不负责hardening,由产品部门负责,但是IP team要确保IP是可以很容易的
验证(verifiable),而且界面要很干净.这样一来产品部门可以在很早期就开始验证,
然后因为hardening统一由产品部门负责,所以操作条件也一致,实作起来也比较有效
率.为了完成这个任务,JK在他自己加入五个月后,从外面挖来了有个人师徒情谊的
Netspeed的CEO Sundari Mitra来负责统整所有IP方面的业务.
第二个改革就是,让英特尔从制程选择的桎梏中解脱出来,从此以后,没有一定要用英
特尔制程这回事,谁好用谁,谁快用谁,谁能让产品越快出货用谁.为了达到这点,他
也大力推行不同die同在一个SOC产品上,像是內存/IO/AI/GPU用台积电,核心用英特
尔.
第三个改革是回到他的老本行,CPU构架.一方面他让Atom在AI方面担当更大的责任.
Atom是当年英特尔为了打败ARM所开发出来的低耗电核心,主要由得州奥斯汀的团队负
责开发.在他的推动之下,Server单位用了更多的Atom来设计产品.另一方面他也花了
一些时间试图去革新英特尔传统CPU的构架,目标是把10年的构架更新缩短到5年,不过
这方面没有传出太多好消息.
第四个改革则是呼应上一篇提到的设计流程(design flow).JK要流程部门尽可能地用
EDA公司提供的原始流程(barebone flow),不要叠床架屋,要尽可能和制程脱钩,这样
同一个流程就可以支持不同晶圆厂的不同制程.
除了上述这些以外,就是一些比较基本的组织重组,砍掉不获利的计划,整合资源.比
较值得一提的是他也招揽了一些外面业界不错的人进来,包括前面提到的Sundari
Mitra,还有Nvidia的VP Ashish Karandikar(不过这位老兄才来了三个月就吓得逃跑
了).同时JK也在英特尔内部提拔了很多人上来.
看到这里你应该可以发现,Jim Keller的基本方向就是化繁为简.独孤求败有句名言,
“重剑无锋,大巧不工,四十岁前持之横行天下.四十岁后,不滞于物,草木竹石均可
为剑”.对Jim Keller来说,事情很简单,就是做出好产品,其他的都是次要,他看的
是一个更远的未来.
--
修改:jinlixishui FROM 119.86.36.*
FROM 119.86.36.*