英特尔如何成为AI芯片领域GPU的追逐者

共 1 个回答

切换为时间排序
heLZ

2020-08-11 15:33:17
英特尔曾经是PC领域芯片的霸主,上一个十年开始的移动时代,英特尔已经丧失了其移动端优势,而在接下来的AI芯片领域,英特尔又将怎样成为一个角色?
环顾历史名将如拿破仑、隆美尔,乃至波斯湾战争的美国陆军将领,一谈到「攻势」,几乎无不强调「追击」的重要,让敌军毫无站稳脚跟巩固和重组的机会而一泻千里。
反过来说,当这简单道理套用到商业竞争,意义就不外乎「产品如果无法准时到位(Time To Market)」,特别是在人工智能这种一堆人还搞不清楚状况的新兴应用领域,或像半导体这种成本和售价会随技术演进快速滑落的产业,很可能一下子就被竞争对手一举冲垮,让产品开发工作左右为难,无法建立一条稳固的市占率防线,接着陷入恶性循环,难以翻身。
2016 年 3 月 5 日:nVidia 发表「总算摆脱了 4 年的台积电 28 纳米制程」、推进到台积电 16 纳米和三星 14 纳米 Pascal,支持 FP16 半精确度浮点、8 位元整数与相对应的内积向量指令(Vector Dot Product),也具备 NVLink 连接 8 颗 GPU 的延展性,踏出 nVidia GPU 进入人工智能应用的第一步。

2016 年 5 月 Google I/O:Google 发表第一代推论用的第一代 TPU。

2016 年夏天:英特尔并购「声称产品性能将比 GPU 高至少 10 倍」的 Nervana,就为了跟 nVidia GPU 竞争。
2016 年 11 月 17 日:英特尔公开 Nervana 代号 Lake Crest 的初步成果,但制程仍停留在台积电 28 纳米,且过没多久就因 nVidia 推出 Volta 而失去意义。
 

 
2017 年 3 月 29 日:nVidia 发表采用 Tegra X2 的「嵌入式人工智能运算装置」Jetson TX2,严格说来也算是 nVidia GPU 应用的延伸,但早从 2014 年 4 月底就出现的 Jetson 产品线,怎么看都有一股「几年来替进攻手机平板都以失败收场的 Tegra 系统单芯片找出路」的味道。

 
2017 年 5 月 Google I/O:Google 继续「按表操课」发表支持浮点运算(Bfloat16 浮点格式)、可同时用于训练和推论的第二代 TPU。

 
2017 年 6 月 21 日:nVidia 公开台积电 12 纳米制程「原本产品时程表并没有」的 Volta,内建 640 个 Tensor Core(张量核心),可执行 4×4 16 位元浮点乘积和,应用于特征识别的卷积运算(Convolutional Neural Network,CNN),这让 Volta 成为 nVidia 史上首款针对人工智能量身订做、兼顾「学习/训练」与「推论/预测」的 GPU 微架构。

 
Volta 的训练效率高达 Pascal 的 12 倍,推论性能也达 6 倍,这让 Nervana 的「Lake Crest 至少有 GPU 十倍」变得毫无意义,nVidia 也借由 NVswitch 打造出 16 颗 GPU、数量为 DGX-1 两倍的 DGX-2,英特尔只能重新设计产品,也一再延误开发时程,直到承诺 2019 年底推出新芯片,届时距离并购案已超过 3 年。

 
2017 年 8 月 14 日:AMD 发表「早就简报讲很久」的 Vega(Global Foundry 14 纳米制程),支持 FP16 / INT16 / INT8 包裹式(Packed)计算,并锁定 FP16 与 INT8 精度,新增约 40 个新指令,也为影像匹配此类应用,提供 SAD(Sum of Absolute Differences,绝对误差和算法)指令。AMD 当然也会宣称「拥有完整的 Software Stack」,至于成效如何,就请各位自由心证,笔者不予评论。

 
2017 年 11 月 8 日:来自 AMD 的 Raja Koduri 空降英特尔并担任资深副总裁,宣示打算「砍掉重练」整个绘图技术,抛弃对 x86 指令集相容性的执念,从头到尾打造货真价实 GPGPU,2019 年 3 月公布 GPU 架构的称呼「Xe」和一个让人摸不着头绪、看起来很像「在所有硬体平台包含 FPGA 都能跑的 OpenCL」的「软件堆叠」OneAPI,就是最后的解答。

 
2018 年 5 月 Google I/O:Google 再接再厉,发表整体性能和规格是前代两倍的第三代 TPU,不过依然还是 Google 自研自用就是了。

 
2018 年 7 月 23 日:从 Larrabee 开始挣扎超过十年,英特尔总算完全放弃「超级多核心 x86 处理器绝对无所不能」的南柯大梦,宣布放弃 Xeon Phi 产品线。有趣的是,停产通知提到「市场对产品的需求已转移到其他英特尔产品」,但这些产品并不存在于英特尔产品线,没有任何产品提供类似 Xeon Phi 的性能和功能,这些需求「转移」到 nVidia 的机率可能还高一点。
笔者 2017 年底就预期 Xeon Phi 的处境非常危险,「x86 义和团」的最后碉堡即将失守,不幸一语成谶,早知就去买彩票了。
 

 
2018 年 7 月 26 日:Google 发表适用物联网、「可以在消耗极少资源和能源的情况下提供绝佳效能,因此能够在边缘部署高精确度 AI」的边缘推论用 TPU,这也让 Google TPU 踏出自家资料中心,与一群盘据半导体市场已久的豺狼虎豹捉对厮杀。

 
2018 年 8 月:nVidia 发表采用 Xavier 系统单芯片的 Jetson Xavier,同时应用于边缘 AI 运算及自动驾驶系统。

 
2018 年 9 月 20 日:采用台积电 12 纳米制程的 Turing,融合两者之长,结束了短暂的「消费型」(Pascal)和「专业型」(Volta)分立局面,Tensor Core 增加了新 INT8 和 INT4 精度模式,FP16 半精度能完整支持经常用到的矩阵融合乘加(FMA)运算。

 
此外,Tensor Core 也不再只是「限定专业应用」,可用来执行消除混叠的深度学习程式(深度学习超级采样,DLSS),利用先前向执行 Neural Graphics Framework 的超级电脑,喂食游戏画面进行训练神经网络的学习成果,渲染出接近 64 倍取样的画面滤镜,再套用回玩家的游戏画面,柔化画面锯齿边缘。

 
2019 年 1 月 7 日:AMD 发表采用台积电 7 纳米制程的 Vega,芯片大幅缩小,性能大幅提升,然后我们现在也知道为何 AMD 初代 7 纳米制程 APU 的绘图核心还是 Vega,不是更新一代的 Navi 了。

 
2019 年 3 月 19 日:nVidia 再次发表「边缘 AI 超级电脑」Jetson Nano,也开始有开发者比较与 Google Edge TPU 的优劣胜负。

 
2019 年 5 月 21 日:nVidia 利用 Anandtech 的报道,倒打英特尔一耙,在官方博客狂吃英特尔某篇官方文章《Intel CPU 在推论胜过 nVidia GPU》的豆腐。预计 2020 年第二季推出的英特尔下一代 Xeon 平台 Whitley,首款 CPU Cooper Lake(还是继续挤 14 纳米制程牙膏)会支持 Bfloat16 浮点格式,届时各位可以期待 nVidia 会不会再如法炮制一番。

 
2019 年 7 月 7 日:AMD「扩大制程领先优势」发表台积电 7 纳米制程的 Navi,重点集中在结束漫长 GCN 时代的全新 RDNA(Radeon DNA)SIMT 执行单元结构,在人工智能相关并无着墨,但业界盛传第二代 RDNA 将支持 Google Tensor Flow 的 Bfloat16 浮点格式,也有人在担心搞不好这又会让 AMD 显示卡再被一大票数位货币矿工抢得一干二净,再度上演有钱也买不到显卡之戏码。
2019 年 8 月:nVidia「持之以恒」继续在 HotChips 谈论自家多芯片可扩展式推论芯片研究案,意思就是 nVidia 故意宣示除商品外,还有额外的前瞻性技术研发工作就对了。
2019 年夏天,英特尔看似开心的跟百度宣布合作,并购 Nervana 满 3 年的人工智能芯片,看似前程似锦,连潜在客户都谈好了。

 
2019 年 11 月 8 日:NVIDIA 宣布推出「全球尺寸最小的边缘 AI 超级电脑」Jetson Xavier NX,不知不觉中,在这几年内,nVidia 的 Jetson 家族已枝繁叶茂。

 
2019 年 11 月 13 日:英特尔总算「使命必达」准时在 2019 年底推出 Nervana NNP 产品线,包含深度学习导向的 NNP-T1000(Spring Crest,性能号称是 Lake Crest 的 3~4 倍)与推论专用的 NNP-I1000(Spring Hill),宣称样品已经送到客户(百度、Facebook)手上,不只现场实际较量 NNP-I1000 和 nVidia T4,可用不到 2 倍数量达成 3.68 倍的性能,也同时宣布 2020 年推出「20 倍边缘推论性能」、源自 2016 年某金额不明并购案的 Movidius 体系产品。

 
但短短一个月后,2019 年 12 月 16 日,英特尔宣布以 20 亿美元收购以色列 AI 芯片新创公司 Habana Labs,瞬间风云变色,2020 年 2 月就传出英特尔将「部分放弃 Nervana」、停止 NNP-T1000 开发的消息,但有鉴于 NNP-I1000 本质上根本就是「纯正英特尔血统」的产物,这也意味着 Nervana 并购案完全失败了。
「刚刚好」整件事件的所有参与演员:现场的英特尔、Habana Labs、坐在板凳一旁看戏的 AMD 与 nVidia,都是 2019 年 IEEE Hotchips 31 的台上贵宾(大概因家大业大格局大,活动的餐点饮料包含酒类据说都由英特尔赞助买单),我们就来看看,英特尔耗费三年多做出来的成果,以及瞧瞧 NNP-T1000 为何被闪电腰斩的可能原因。
毕竟现在这票所谓人工智能深度学习等的新兴应用,无论从硬件架构到资料处理格式到框架到应用程序函式库等等,很多部分都是高度定制化,少有业界共通的公开比较基准,单纯比较数字「赛猪公」的意义并不大,笔者也不会在这里仔细介绍英特尔两颗芯片的技术细节。
但通过规格比较,可清楚看到两件事实:
Spring Crest 和 Spring Hill 根本是两个完全不同的技术体系,前者完全继承 Nervana,后者则是根正苗红的「英特尔本家」,大量引用现有 Ice Lake 技术。
Nervana 的预设对手就是 nVidia 的旗舰级 GPU,连晶圆代工业者都是台积电。
Nervana NNP-T1000 惨遭杀害,究竟有哪些可能的凶手?
  • 成本太高:都这个时候了,还在台积电 16 纳米制程?Habana Labs 目前两颗芯片也都是台积电 16 纳米!这理由不合逻辑。

  • 政治因素:英特尔不愿意看到重要的产品交给台积电生产?可是这件事不是很久以前该知道了吗?Habana Labs 也是台积电生产啊,所以这也不合理。

  • 客户不满:难道先期导入的客户并不满意产品的实际表现?

  • 需要客户:Habana Labs 已抢到「超大规模的客户」,甚至「抢走英特尔手上煮熟的鸭子」,所以才有 20 亿美元的并购价值?

  • 软件不行:手上可掌握的软件资源和「生态系统」技不如人?

  • 规格不利:Hanaba Labs 的推论芯片 Gaudi 可支持原生的以太网络界面走 RDMA,这难道对大型云端客户来说,算是杀手级的规格优势?

总之,只有英特尔和时间才会告诉我们谁是真正的凶手,也很有可能真相永远不会大白。
到头来,从 Nervana 到 Hanaba Labs,不论训练还是推论,头号假想敌依旧是 nVidia 的 GPU,依然还是 Volta 和 Turing,连比较图的颜色都刻意挑「nVidia 绿」。
但说到英特尔并购公司这件事,半导体制程优势开始崩溃,刚好就是宣布要「从 PC 公司转型为驱动云端计算和数以亿计智能互联计算装置」,也差不多是「最后的英特尔 x86微架构」Skylake 上市时,接着一直花大钱「生气乱买公司」才开始的。
  • 2015:Altera 167 亿美元。

  • 2016:Nervana 3.5 亿美元。

  • 2016:Movidius 金额不明。

  • 2017:Mobileye 153 亿美元。

  • 2019:Habana Labs 20 亿美元。


共 1 条
前往
66回答数