英伟达新架构发布,AI芯片上限提升九倍,20块带宽等于全球互联网
机器之心报道
编辑;泽南、杜伟
黄仁勋:芯片每代性能都翻倍,而且下个「TensorFlow」级 AI 工具可是我英伟达出的。
每年春天,AI 从业者和游戏玩家都会期待英伟达的新发布,今年也不例外。
北京时间 3 月 22 日晚,新一年度的 GTC 大会如期召开,英伟达创始人、CEO 黄仁勋这次走出了自家厨房,进入元宇宙进行 Keynote 演讲:
「我们已经见证了 AI 在科学领域发现新药、新化合物的能力。人工智能现在学习生物和化学,就像此前理解图像、声音和语音一样。」黄仁勋说道「一旦计算机能力跟上,像制药这样的行业就会经历此前科技领域那样的变革。」
GPU 发展引爆的 AI 浪潮从开始到今天还没过去十年,Transformer 这样的预训练模型和自监督学习模型,已经不止一次出现「算不起」的情况了。
算力需求因为大模型呈指数级上升,老黄这次拿出的是面向高性能计算(HPC)和数据中心的下一代 Hopper 架构,搭载新一代芯片的首款加速卡被命名为 H100,它就是 A100 的替代者。
Hopper 架构的名称来自于计算机科学先驱 Grace Hopper,其延续英伟达每代架构性能翻倍的「传统」,还有更多意想不到的能力。
为 GPT-3 这样的大模型专门设计芯片
H100 使用台积电 5nm 定制版本制程(4N)打造,单块芯片包含 800 亿晶体管。它同时也是全球首款 PCI-E 5 和 HBM 3 显卡,一块 H100 的 IO 带宽就是 40 terabyte 每秒。
「为了形象一点说明这是个什么数字,20 块英伟达 H100 带宽就相当于全球的互联网通信,」黄仁勋说道。
黄仁勋列举了 Hopper 架构相对上代安培的五大革新:
首先是性能的飞跃式提升,这是通过全新张量处理格式 FP8 实现的。H100 的 FP8 算力是 4PetaFLOPS,FP16 则为 2PetaFLOPS,TF32 算力为 1PetaFLOPS,FP64 和 FP32 算力为 60TeraFLOPS。
虽然比苹果 M1 Ultra 的 1140 亿晶体管数量要小一些,但 H100 的功率可以高达 700W——上代 A100 还是 400W。「在 AI 任务上,H100 的 FP8 精度算力是 A100 上 FP16 的六倍。这是我们历代最大的性能提升,」黄仁勋说道。
图片来源:anandtech
Transformer 类预训练模型是当前 AI 领域里最热门的方向,英伟达甚至以此为目标专门优化 H100 的设计,提出了 Transformer Engine,它集合了新的 Tensor Core、FP8 和 FP16 精度计算,以及 Transformer 神经网络动态处理能力,可以将此类机器学习模型的训练时间从几周缩短到几天。
Transformer 引擎名副其实,是一种新型的、高度专业化的张量核心。简而言之,新单元的目标是使用可能的最低精度来训练 Transformer 而不损失最终模型性能。
针对服务器实际应用,H100 也可以虚拟化为 7 个用户共同使用,每个用户获得的算力相当于两块全功率的 T4 GPU。而且对于商业用户来说更好的是,H100 实现了业界首个基于 GPU 的机密计算。
Hopper 还引入了 DPX 指令集,旨在加速动态编程算法。动态编程可将复杂问题分解为子问题递归解决,Hopper DPX 指令集把这种任务的处理时间缩短了 40 倍。
Hopper 架构的芯片和 HBM 3 内存用台积电 CoWoS 2.5D 工艺封装在板卡上,形成「超级芯片模组 SXM」,就是一块 H100 加速卡:
这块显卡拿着可得非常小心——它看起来整体异常紧凑,整个电路板上塞满各种元器件。另一方面,这样的结构也适用于液冷——H100 设计 700W 的 TDP 已经非常接近散热处理的上限了。
自建全球第一 AI 超算
「科技公司处理、分析数据,构建 AI 软件,已经成为智能的制造者。他们的数据中心就是 AI 的工厂,」黄仁勋说道。
基于 Hopper 架构的 H100,英伟达推出了机器学习工作站、超级计算机等一系列产品。8 块 H100 和 4 个 NVLink 结合组成一个巨型 GPU——DGX H100,它一共有 6400 亿晶体管,AI 算力 32 petaflops,HBM3 内存容量高达 640G。
新的 NVLINK Swith System 又可以最多把 32 台 DGX H100 直接并联,形成一台 256 块 GPU 的 DGX POD。
「DGX POD 的带宽是每秒 768 terbyte,作为对比,目前整个互联网的带宽是每秒 100 terbyte,」黄仁勋说道。
基于新 superPOD 的超级计算机也在路上,英伟达宣布基于 H100 芯片即将自建一个名叫 EoS 的超级计算机,其由 18 个 DGX POD 组成,一共 4608 个 H100 GPU。以传统超算的标准看,EoS 的算力是 275petaFLOPS,是当前美国最大超算 Summit 的 1.4 倍,Summit 目前是基于 A100 的。
从 AI 计算的角度来看,EoS 输出 18.4 Exaflops,是当今全球第一超算富岳的四倍。
总而言之,EoS 将会是世界上最快的 AI 超级计算机,英伟达表示它将会在几个月之后上线。
下面看看 H100 在具体任务上的性能提升:单看 GPU 算力的话训练 GPT-3 速度提升 6.3 倍,如果结合新的精度、芯片互联技术和软件,提升增至 9 倍。在大模型的推理工作上,H100 的吞吐量是 A100 的 30 倍。
对于传统服务器,英伟达提出了 H100 CNX,通过把网络与 H100 直接并联的方式绕过 PCIE 瓶颈提升 AI 性能。
英伟达更新了自家的服务器 CPU,新的 Grace Hopper 可以在同一块主板上两块并联,形成一个拥有 144 核 CPU,功耗 500W,是目前产品性能的 2-3 倍,能效比也是两倍。
在 Grace 上,几块芯片之间的互联技术是新一代 NVlink,其可以实现晶粒到晶粒、芯片到芯片、系统到系统之间的高速互联。黄仁勋特别指出,Grace CPU 与 Hopper 可以通过 NVlink 进行各种定制化配置。英伟达的技术可以满足所有用户需求,在未来英伟达的 CPU、GPU、DPU、NIC 和 SoC 都可以通过这种技术实现芯片端高速互联。
英伟达计划在今年三季度推出配备 H100 的系统,包括 DGX、DGX SuperPod 服务器,以及来自 OEM 合作伙伴使用 HGX 基板和 PCIe 卡服务器。
至于价格,昨天老黄并没有说「the more you buy, the more you save.」
此前有传闻说专用于游戏的 Ada Lovelace 架构,昨天并没有出现在黄仁勋的 keynote 中,看来还要再等等。
人人可见的元宇宙
「第一波 AI 学习了生物的预测推断能力,如图像识别、语言理解,也可以向人们推荐商品。下一波 AI 将是机器人:AI 做出计划,在这里是数字人、物理的机器人进行感知、计划并行动,」黄仁勋说道。「TensorFlow 和 PyTorch 等框架是第一波 AI 必须的工具,英伟达的 Omniverse 是第二波 AI 的工具,将会开启下一波 AI 浪潮。」
在元宇宙这件事上,英伟达可以说一直走在最前面,其提出的 Omniverse 是连接所有元宇宙的门户。但在以往,Omniverse 是面向数据中心设计的,其中的虚拟世界偏向于工业界。
黄仁勋表示,英伟达的 Omniverse 涵盖了数字孪生、虚拟世界和互联网的下一次演进。下图为几种典型应用场景:
而对于数字孪生而言,Omniverse 软件和计算机必须具备可扩展、低延迟和支持精确时间的特点。所以,创建同步的数据中心非常重要。基于此,英伟达推出了 NVIDIA OVX——用于工业数字孪生的数据中心可扩展 Omniverse 计算系统。
第一代 NVIDIA OVX Omniverse 计算机由 8 个 NVIDIA A40 GPU、3 个 NVIDIA ConnectX-6 200 Gbps 网卡、2 个 Intel Ice Lake 8362 CPU 以及 1TB 系统内存和 16TB NVMe 存储组成。
然后,英伟达利用 Spectrum-3 200 Gpbs 交换机连接 32 台 OVX 服务器构成了 OVX SuperPOD。
目前,全球各大计算机制造商纷纷推出 OVX 服务器。第一代 OVX 正由英伟达和早期客户运行,第二代 OVX 也正从骨干网络开始构建当中。会上,英伟达宣布推出带宽高达 51.2Tbps 且带有 1000 亿个晶体管的 Spectrum-4 交换机,它可以在所有端口之间公平分配带宽,提供自适应路由和拥塞控制功能,显著提升数据中心的整体吞吐量。
凭借 ConenctX-7 和 BlueField-3 适配器以及 DOCA 数据中心基础架构软件,Spectrum-4 成为世界上第一个 400Gbps 的端到端网络平台。与典型数据中心数毫秒的抖动相比,Spectrum-4 可以实现纳秒级计时精度,即 5 到 6 个数量级的改进。黄仁勋表示,样机预计将于第四季度末发布。
说到元宇宙,则不得不提英伟达 Omniverse Avatar 平台。在本次 GTC 大会上,黄仁勋与「自己」(虚拟人)展开了一番对话。
同时,英伟达还希望 Omniverse 为设计师、创作者、AI 研究人员提供帮助,因而推出了 Omniverse Cloud。只需点击几下,用户及其协作者可以完成连接。使用 NVIDIA RTX PC、笔记本电脑和工作站,设计师们可以实时协同工作。即使没有 RTX 计算机,他们也可以从 GeForce Now 上一键启动 Omniverse。
比如下图中远程工作的几位设计师在网络会议中使用 Omniverse View 来评审项目,他们可以连接彼此,并唤出一个 AI 设计师。也即是,他们通过 Omniverse Cloud 协作创建了一个虚拟世界。
在这场 GTC 大会上,黄仁勋打开了元宇宙的大门。
持续加注自动驾驶和电动汽车
既然机器人系统会是下一波 AI 浪潮,黄仁勋表示,英伟达正在构建多个机器人平台——用于自动驾驶汽车的 DRIVE、用于操纵和控制系统的 ISAAC、用于自主式基础架构的 Metropolis 和用于机器人医疗器械的 Holoscan。这里只介绍 DRIVE 自动驾驶汽车系统。
机器人系统的工作流程很复杂,通常可以简化为四个支柱:收集和生成真值数据、创建 AI 模型、使用数字孪生进行仿真和操作机器人。Omniverse 是整个工作流程的核心。
DRIVE 自动驾驶汽车系统本质上是「AI 司机」。与其他平台一样,NVIDIA DRIVE 是全栈式端到端平台,对开发者开放,他们可以使用整个平台或者其中一部分。在运行过程中,英伟达使用 DeepMap 高清地图等收集和生成真值数据,使用 DGX 上的 NVIDIA AI 来训练 AI 模型。Omniverse 中的 DRIVE Sim 在 OVX 上运行,它属于数字孪生。DRIVE AV 是一款运行在车载 Orin 计算平台上的自动驾驶应用。
在使用最新版 DRIVE 系统的实际行驶中,驾驶员可以启动 DRIVE Pilot 导航,语音输入指令。信心视图(Confidence View)向车上的人展示汽车看到和打算要做的事。AI 助手可以探测到特定的人,多模态 AI 助手可以回答驾驶员的问题,AI 辅助停车可以检测可用的停车位,环绕视图(Surround View)和高级可视化(Advanced Visualization)方便驾驶员泊车。
所有这一切都离不开英伟达自动驾驶汽车硬件结构——Hyperion 8,它也是整个 DRIVE 平台的构建基础。Hyperion 8 是由多个传感器、网络、两台 Chauffeur AV 计算机、一台 Concierge AI 计算机、一个任务记录仪以及(网络)安全系统组成。它可以使用 360 度摄像头、雷达、激光雷达和超声波传感器套件实现全自动驾驶,并将分别从 2024 年起在梅赛德斯奔驰汽车、2025 年起在捷豹路虎汽车中搭载。
DRIVE Sim 中构建的 Hyperion 8 传感器可以提供真实世界的视图。
今天,英伟达宣布 Hyperion 9 将从 2026 年起在汽车上搭载。相较于前代,Hyperion 9 将拥有 14 个摄像头、9 个雷达、3 个激光雷达和 20 个超声传感器。整体而言,它处理的传感器数据量是 Hyperion 8 的两倍。
在电动汽车领域,英伟达 DRIVE Orin 是理想汽车的集中式自动驾驶和 AI 计算平台。黄仁勋在会上宣布,Orin 将于本月发售。不仅如此,比亚迪也将为 2023 年上半年投产的电动汽车搭载英伟达 DRIVE Orin 系统。
「Omniverse 在英伟达 AI 和机器人领域的工作中非常重要,下一波 AI 浪潮需要这样的平台,」黄仁勋最后说道。
参考内容:
英伟达(NVDA.O)|2022 GTC:全新架构GPU,硬件、软件能力进一步升级
英伟达于近期举办2022GTC大会,发布Hopper架构GPU,并更新在AI硬件、软件平台、软件应用等领域最新产品进展和动态。全新一代Hopper架构GPU在制程工艺、晶体管数量、大模型支持、内存带宽等核心技术特性方面较上一代安培架构大幅升级。同时在CPU、高速网卡、芯片互联(NVlink)等产品&技术层面亦进展明显,叠加底层软件平台CUDA等的升级,我们看好公司在数据中心领域的持续领先优势。同时公司在应用层的软件布局亦进展喜人,包括Omniverse cloud、自动驾驶(Drive)、医疗(Clara Holoscan)、人形机器人(Metropolis)等,软件业务有望逐步成为公司重要的营收来源,以及长期成长性的支撑。持续领先的产品,叠加软硬一体化平台能力,我们持续看好公司的短期、中长期投资价值。
▍AI硬件:英伟达在2022GTC大会上发布基于最新Hopper架构及NVLink和Switch的计算加速卡H100、计算平台DGX H100、超级计算机Eos等,同时公布了CPU产品Grace的最新进展。
1)H100:(a)从参数配置来看,H100含有800亿个晶体管(上代产品为540亿个),采用台积电4nm工艺。同时支持Transform引擎(性能较上代产品提升六倍)、机密计算(首次支持机密计算功能)、NVLink(最多可实现256个H100 GPU的链接)、DPX指令(性能较上代产品提升7-40倍)等技术。目前H100共包含SXM、PCIe 5.0两种形态,以满足下游不同客户的需求。(b)从应用场景来看,H100 可部署于各种数据中心,包括内部私有云、云、混合云和边缘数据中心。公司预计最新的H100将于2022年下半年开始出货。
2)DGX H100:(a)从参数配置来看,DGX H100系统集成八颗H100芯片、搭配两颗PCIe 5.0 CPU处理器(Intel Sapphire Rapids四代可扩展至器),拥有总计6400亿个晶体管、640GB HBM3显存、24TB/s显存带宽。(b)从AI能力来看,AI算力32PFlops(每秒3.2亿亿次),浮点算力FP64 480TFlops(每秒480万亿次),FP16 1.6PFlops(每秒1.6千万亿次),FP8 3.2PFlops(每秒3.2千亿次),分别是上代DGX A100的3倍、3倍、6倍,而且新增支持网络内计算,性能3.6TFlops。
3)DGX SuperPOD架构。从参数配置来看,通过公司最新的NVLink技术,最多可将32个DGX H100实现链接。通过公司最新的NVLink Switch系统,可将DGX系统链接到Quantum-2 400 Gbps InfiniBand 交换机,最多实现数千个H100的链接与共享。(b)从用途来看,公司依托DGX SuperPOD努力打造Hopper AI工厂。
4)发布Eos超级计算机。通过上述系统级工程技术,公司发布Eos超级计算机,主要是由576个DGX H100服务器系统和4608个DGX H100显卡组成,可提供18.4 EFLOPS的AI计算性能,比目前世界上最快的超算——日本的「富岳」快4倍。
5)Grace:Grace是英伟达面向数据中心打造的CPU芯片,专注于处理海量数据处理。在此次GTC大会上,公司公布了Grace芯片的最新进展。Grace产品主要包括Grace Hopper(CPU+GPU的结合体)、Grace CPU Superchip(两个CPU结合体)两种,公司预计该款芯片将于2023年出货。
6)从公司在AI加速领域的产品布局来看,公司依托GPU加速卡、DGX系统、NVLink技术、Switch系统、CPU产品等,实现了产品模块的布局,在很大程度上降低了定制化开发的研发成本及应用场景有限的弊端。
展望未来,我们持续看好公司在数据中心“底层芯片、加速堆栈、行业垂直方案、具体应用的全栈式产品线”的布局。中长期来看,千行百业数字化转型是未来发展趋势,推动AI训练、AI推理、HPC等并行计算相关的需求快速爆发;从竞争格局来看,英伟达凭借丰富的产品矩阵以及强大的AI能力,应用场景不断丰富,系统级竞争优势突出。
▍AI软件:GTC大会新更新60多个SDK应用程序,CUDA生态系统建设不断加速。
1)英伟达致力于做AI全栈式布局的供应商,涵盖AI计算硬件、软件领域。近些年来,公司依托CUDA架构,不断加大在AI软件领域中的产品布局。截至目前,全球已有超过数百万研发人员使用英伟达SDK来加速他们的处理工作。在此次GTC大会上,公司更新了约60多个SDK应用程序(2021年更新约65个SDK应用),不断加速推进CUDA生态系统的建设。
2)从此次SDK产品更新的进展来看,主要涉及Riva语音2.0、Maxine视频通话模型、数据处理引擎(RAPIDS)、多代理多约束路线规划(CUOPT)、网络安全深度学习框架(Morpheus)、量子电路加速仿真器(cuQuantum)、5G无线电加速软件(Ariel)、6G通信研究框架(Sionna)。
▍AI平台软件:加大在Omniverse&机器人平台领域中的布局。
1)公司认为,经过若干年的发展,TensorFlow和Pytorch已成为AI框架中必不可少的部分。未来AI的发展方向将沿着机器人或AI规划行动展开。为抢占后续市场份额,公司将依托Omniverse加大在数字机器人、虚拟形象和实体机器人领域中的布局。
2)Omniverse进展:Omniverse定位于虚拟世界的仿真引擎,可以将虚拟世界、真实世界中的设计开发者、虚拟&真实机器人进行链接。可以实现设计师之间的协同办公、工业数字孪生等功能。(a)从产品开发进展来看,Omniverse软件链接数不断增加,由2021GTC大会的8个提升至2022GTC大会的82个,包括Chaos、Autodesk、EPICS Maxon等专业软件。(b)针对工业数字孪生领域:公司新推出Omniverse计算系统OVX。该系统由8个英伟达A40 RTX GPU、3个ConnectX-6 200Gbps网卡(NIC)和2个英特尔至强Ice Lake CPU组成。同时新发布26个制造业格式转换器,以期不断将工业工作流程链接到Omniverse领域。
3)机器人平台进展:英伟达构建了多个机器人平台,具体包括:自动驾驶领域中的DRIVE平台、医疗器械机器人Haloscan平台、机器人自主式基础架构Metropolis、机器人操纵和控制系统Isaac。(a)DRIVE是英伟达针对智能汽车提供的端到端全栈式平台,主要面向开发者&研发人员使用。(b)在此次发布会上,公司公布了医疗机器人开放平台Clara Holoscan,预计将于2022年5月上市,2023年Q1完成医疗级准备。(c)截至目前,Metropolis平台的下载量已经达到30万次,拥有1000多个生态系统合作伙伴,并在超过100万个设施中运营。(d)在此次发布会上,公司发布了Isaac 自主移动机器人(AMR)架构,该产品主要包括四大核心技术:用于真值生成的NVIDIA DeepMap、用于训练模型的NVIDIA AI、搭载Orin的AMR机器人参考设计、Isaac机器人技术堆栈中的新Gem及基于Omniverse的新版Isaac Sim,每个都单独可用且完全开放。
▍AI应用:汽车业务和机器人业务进展不断加快。
1)此次发布会上,公司宣布了在智能汽车领域中的进展及未来规划。(a)在硬件计算平台方面,比亚迪拟将在2023年投产的车型中搭载英伟达Orin计算平台;Lucid、元戎启行、小马智行等公司将搭载英伟达Orin SoC芯片。(b)在自动驾驶技术平台方面,Hyperion 8将于2024年用于奔驰汽车中;2025年用于捷豹路虎车型中。Hyperion 9将于2026年量产上车,共配置14个摄像头、9个雷达、3个激光雷达、20个超声传感器(传感器个数较Hyperion 8增长一倍)。
2)发布基于AMR架构的机器人ISAAC NOVA。NOVA有2个摄像头、2个激光雷达、8个超声波雷达和4个鱼眼摄像头,预计将于22Q2上市。
▍风险因素:
公司核心产品、技术演进速度不及预期风险;下游AI应用场景扩展不及预期风险;全球宏观经济波动导致企业、个人用户IT支出不及预期风险;公司核心技术人员流失风险;全球游戏市场创新不及预期风险;全球自动驾驶进度不及预期风险;地缘政治冲突导致公司产品全球流通受阻风险等。
▍盈利预测&投资建议:
作为全球领先的AI平台厂商,缘于持续领先竞争对手1~2代的技术竞争力、全栈式的产品方案能力等,公司短期、中长期成长路径较为清晰。考虑到公司数据中心货币化进程不断加快,以及软件业务开始逐步贡献收入,我们维持公司FY2023-FY2025营业收入预测分别为329/382/435亿美元,维持公司FY2023-FY2025 Non-GAAP净利润预测为143/164/189亿美元。我们持续看好公司短期、中长期投资价值。
本文源自金融界