通信世界网消息(CWW)“这是一场开发者大会,不是一场发布会。”
虽然英伟达CEO黄仁勋一再强调这是一场技术大会,但是在大洋彼岸的圣何塞,GTC依然开出了演唱会的架势,人山人海,全场沸腾,多少人彻夜无眠,密切关注着这场人工智能领域的顶级行业盛会——3月18日举办的英伟达GTC大会。
GTC是英伟达一年一度规模最大的技术盛会。在今年的GTC舞台上,英伟达亮出了多个最新的人工智能重磅产品。如:
面向工业革命的Blackwell GPU、
面向人形机器人的Project GR00T、
专为大规模AI量身订制的全新网络交换机-X800系列、
面向自动驾驶汽车的下一代集中式计算平台NVIDIA DRIVE Thor,
以及生成式AI微服务……
这一系列的“王炸”套餐让我们充分意识到,英伟达的人工智能早已不再是实验室产品,它已经走向社会,走向工业,走向未来,开始深切地改变人们的生产和生活。
Blackwell平台成为工业革命新引擎
发布会一开始,英伟达便亮出了“核弹”级AI产品Blackwell GPU。
Blackwell GPU架构搭载六项变革性的加速计算技术,能够在拥有高达10万亿参数的模型上实现AI训练和实时LLM推理,这些技术将助推数据处理、工程模拟、电子设计自动化、计算机辅助药物设计、量子计算和生成式AI等领域实现突破,这些都是NVIDIA眼中的新兴行业机遇。
“Blackwell GPU是推动新一轮工业革命的引擎。通过与全球最具活力的企业合作,我们将实现AI赋能各行各业的承诺。”黄仁勋表示。该平台可使世界各地的机构都能够在万亿参数的大语言模型(LLM)上构建和运行实时生成式AI,其成本和能耗较上一代产品降低多达25倍。
具体的六大加速计算技术如下:
全球最强大的芯片:Blackwell架构GPU具有2080亿个晶体管,采用专门定制的双倍光刻极限尺寸4NP TSMC工艺制造,通过10 TB/s的片间互联,将 GPU 裸片连接成一块统一的 GPU。
第二代Transformer引擎:Blackwell 将在新型 4 位浮点 AI 推理能力下实现算力和模型大小翻倍。
第五代 NVLink:最新一代 NVIDIA NVLink® 为每块 GPU 提供突破性的 1.8TB/s 双向吞吐量,确保多达 576 块 GPU 之间的无缝高速通信,满足了当今最复杂 LLM 的需求。
RAS引擎:采用Blackwell架构的GPU包含一个用于保障可靠性、可用性和可维护性的专用引擎。
安全AI:先进的机密计算功能可以在不影响性能的情况下保护 AI 模型和客户数据,并且支持全新本地接口加密协议,这对于医疗、金融服务等高度重视隐私问题的行业至关重要。
解压缩引擎:专用的解压缩引擎支持最新格式,通过加速数据库查询提供极其强大的数据分析和数据科学性能。
这个新架构以纪念David Harold Blackwell命名,他不仅是一位专门研究博弈论和统计学的数学家,也是第一位入选美国国家科学院的黑人学者。这一新架构是继两年前推出的 NVIDIA Hopper™ 架构以来的全新架构。
黄仁勋表示,Blackwell 将成为世界上最强大的芯片。Blackwell 架构的 GPU 拥有 2080 亿个晶体管,采用台积电4nm制程,两块小芯片之间的互联速度高达 10TBps,可以大幅度提高处理能力。前一代GPU“Hopper”H100采用4nm工艺,集成晶体管800亿。
Blackwell 不是芯片名,而是整个平台的名字。具体来讲,采用 Blackwell 架构的 GPU 分为了 B200 和 GB200 产品系列,后者集成了 1 个 Grace CPU 和 2 个 B200 GPU。
其中 B200 GPU 通过 2080 亿个晶体管提供高达 20 petaflops 的 FP4 吞吐量。而 GB200 GPU 通过 900GB / 秒的超低功耗芯片到芯片连接,将两个 B200 GPU 连接到 1 个 Grace CPU 上。相较于 H100 Tensor Core GPU,GB200 超级芯片可以为大语言模型(LLM)推理负载提供 30 倍的性能提升,并将成本和能耗降低高达 25 倍。
GB200是NVIDIA GB200 NVL72 的关键组件。NVIDIA GB200 NVL72 是一套多节点液冷机架级扩展系统,适用于高度计算密集型的工作负载。它将 36 个 Grace Blackwell 超级芯片组合在一起,其中包含通过第五代 NVLink 相互连接的 72 个 Blackwell GPU 和 36 个 Grace CPU。
对于LLM 推理工作负载,相较于同样数量的 NVIDIA H100 Tensor Core GPU,GB200 NVL72 最高可提供 30 倍的性能提升以及多达 25 倍的成本和能耗降低。
此外还有HGX B200 是一个通过NVLink连接 8 块 B200 GPU 的服务器主板,支持基于x86的生成式 AI 平台。基于 NVIDIA Quantum-2 InfiniBand 和 Spectrum-X 以太网网络平台,HGX B200 支持高达 400Gb/s 的网络速度。
据了解,GB200将于今年晚些时候上市。对此,黄仁勋表示,GB200将为人工智能公司提供了巨大的性能升级,其AI性能为每秒20千万亿次浮点运算,而H100为每秒4千万亿次浮点运算。该系统可以部署一个27万亿参数的模型。据称GPT-4使用了约1.76万亿个参数来训练系统。
发布新一代AI超级计算机
NVIDIA还发布了新一代 AI 超级计算机 —— 搭载 NVIDIA GB200 Grace Blackwell 超级芯片的NVIDIA DGX SuperPOD™。这台 AI 超级计算机可以用于处理万亿参数模型,能够保证超大规模生成式 AI 训练和推理工作负载的持续运行。
全新 DGX SuperPOD 采用新型高效液冷机架级扩展架构,基于 NVIDIA DGX™ GB200 系统构建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超级计算性能和 240 TB 的快速显存,且可通过增加机架来扩展性能。
与 NVIDIA H100 Tensor Core GPU 相比,GB200 超级芯片在大语言模型推理工作负载方面的性能提升了高达 30 倍。
“NVIDIA DGX AI 超级计算机是推进 AI 产业变革的工厂。新一代DGX SuperPOD 集 NVIDIA 加速计算、网络和软件方面的最新进展于一体,能够帮助每一个企业、行业和国家完善并生成自己的 AI。”黄仁勋表示。
Grace Blackwell 架构的 DGX SuperPOD 由 8 个或以上的 DGX GB200 系统构建而成,这些系统通过 NVIDIA Quantum InfiniBand 网络连接,可扩展到数万个 GB200 超级芯片。用户可通过 NVLink 连接 8 个 DGX GB200 系统中的 576 块 Blackwell GPU,从而获得海量共享显存空间,来赋能下一代 AI 模型。
发布人形机器人模型Project GR00T
“开发通用人形机器人基础模型是当今 AI 领域中最令人兴奋的课题之一。世界各地的机器人技术领导者正在汇集各种赋能技术,致力于在人工通用机器人领域实现突破。”黄仁勋表示。
NVIDIA发布了人形机器人通用基础模型Project GR00T,旨在进一步推动其在机器人和具身智能方面的突破。GR00T驱动的机器人(代表通用机器人 00 技术)将能够理解自然语言,并通过观察人类行为来模仿动作——快速学习协调、灵活性和其它技能,以便导航、适应现实世界并与之互动。
NVIDIA还发布了一款基于NVIDIA Thor 系统级芯片(SoC)的新型人形机器人计算机Jetson Thor,并对NVIDIA Isaac™ 机器人平台进行了重大升级,包括生成式 AI 基础模型和仿真工具,以及 AI 工作流基础设施。
Jetson Thor 是一个全新的计算平台,能够执行复杂的任务并安全、自然地与人和机器交互,具有针对性能、功耗和尺寸优化的模块化架构。
该SoC包括一个带有 transformer engine 的下一代 GPU,其采用 NVIDIA Blackwell 架构,可提供每秒 800 万亿次8位浮点运算 AI 性能,以运行 GR00T 等多模态生成式 AI 模型。凭借集成的功能安全处理器、高性能 CPU 集群和 100GB 以太网带宽,大大简化了设计和集成工作。
NVIDIA 正在为领先的人形机器人公司开发一个综合的 AI 平台,如 1X Technologies、Agility Robotics、Apptronik、波士顿动力公司、Figure AI、傅利叶智能、Sanctuary AI、宇树科技和小鹏鹏行等。
训练具身智能模型需要海量的真实数据和合成数据。新的 Isaac Lab 是一个 GPU 加速、性能优化的轻量级应用,基于 Isaac Sim 而构建,专门用于运行数千个用于机器人学习的并行仿真。NVIDIA 还发布了 Isaac Manipulator 和 Isaac Perceptor 等一系列机器人预训练模型、库和参考硬件。
全新交换机X800系列全面优化基础设施
NVIDIA 还发布了专为大规模 AI 量身订制的全新网络交换机 - X800 系列。
NVIDIA Quantum-X800 InfiniBand 网络和 NVIDIA Spectrum™-X800 以太网络是全球首批高达 800Gb/s 端到端吞吐量的网络平台,将计算和 AI 工作负载的网络性能提升到了一个新的水平,与其配套软件强强联手可进一步加速各种数据中心中的 AI、云、数据处理和高性能计算(HPC)应用,包括基于最新的 NVIDIA Blackwell 架构产品的数据中心。
“NVIDIA 网络平台是 AI 超级计算基础设施实现大规模可扩展的核心。基于 NVIDIA X800 交换机的端到端网络平台,使新型 AI 基础设施轻松运行万亿参数级生成式 AI 业务。”NVIDIA 网络高级副总裁 Gilad Shainer 表示。
Quantum-X800 平台包含了 NVIDIA Quantum Q3400 交换机和 NVIDIA ConnectXⓇ-8 SuperNIC,二者互连达到了业界领先的端到端 800Gb/s 吞吐量,交换带宽容量较上一代产品提高了 5 倍,网络计算能力更是凭借 NVIDIA 的 SHARP™ 技术(SHARPv4)提高了 9 倍,达到了 14.4Tflops。
Spectrum-X800 平台为 AI 云和企业级基础设施带来优化的网络性能。借助 800Gb/s 的 Spectrum SN5600 交换机和 NVIDIA BlueField-3 SuperNIC,Spectrum-X800 平台为多租户生成式 AI 云和大型企业级用户提供各种至关重要的先进功能。
NVIDIA 提供面向万亿参数级 AI 模型性能优化的网络加速通信库、软件开发套件和管理软件等全套软件方案。
DRIVE Thor改变自动驾驶的未来
NVIDIA DRIVE Thor是用于安全可靠的自动驾驶汽车的下一代集中式计算平台,它可将多项智能功能整合在单个系统中,从而提高了效率,降低了整体系统成本。
作为DRIVE Orin 的后续产品,DRIVE Thor可提供丰富的座舱功能,以及安全可靠的高度自动化驾驶和无人驾驶功能,并将所有功能整合至同一个集中式平台上。这款新一代自动驾驶汽车(AV)平台将搭载专为Transformer、大语言模型(LLM)和生成式AI工作负载而打造的全新NVIDIA Blackwell 架构。
NVIDIA DRIVE Thor将彻底改变汽车行业的格局,开创生成式AI定义驾驶体验的时代。多家头部电动汽车制造商在GTC上宣布其搭载DRIVE Thor的下一代AI车型。
比亚迪正在将与NVIDIA的长期协作从车端延伸到云端。除了在 DRIVE Thor上构建下一代电动车型外,比亚迪还计划将NVIDIA的AI基础设施用于云端AI开发和训练技术,并使用NVIDIA Isaac™与NVIDIA Omniverse™平台来开发用于虚拟工厂规划和零售配置器的工具与应用。
除乘用车外,DRIVE Thor还能够满足卡车、自动驾驶出租车、配送车等其他细分领域的不同需求。在这些领域中,高性能计算和AI对于确保安全、可靠的驾驶操作至关重要。
DRIVE Thor预计最早将于明年开始量产,并且将使用具有生成式AI引擎等前沿功能的全新NVIDIA Blackwell架构。DRIVE Thor的性能高达1000 TFLOPS,有助于保证自动驾驶汽车的安全可靠。
Omniverse Cloud API为工业数字孪生软件工具提供助力
黄仁勋认为,未来所有制造出来的产品都将拥有数字孪生。为此NVIDIA宣布将以API形式提供Omniverse™ Cloud,将该全球领先的工业数字孪生应用和工作流创建平台的覆盖范围扩展至整个软件制造商生态系统。
借助五个全新Omniverse Cloud应用编程接口(API),开发者能够轻松地将Omniverse的核心技术直接集成到现有的数字孪生设计与自动化软件应用中,或是集成到用于测试和验证机器人或自动驾驶汽车等自主机器的仿真工作流中。
一些全球大型工业软件制造商正在将Omniverse Cloud API加入到其软件组合中,包括 Ansys、Cadence、达索系统旗下3DEXCITE品牌、Hexagon、微软、罗克韦尔自动化、西门子和Trimble等。
黄仁勋表示:“Omniverse是一个可以构建并操作物理真实的数字孪生的操作系统。Omniverse和生成式AI都是将价值高达50万亿美元的重工业市场进行数字化所需的基础技术。”
自动化、数字化和可持续发展领域的技术领先企业西门子正在其西门子Xcelerator平台中采用Omniverse Cloud API,首先采用的是领先的云端产品生命周期管理(PLM)软件Teamcenter X。
推出生成式AI微服务
“成熟的企业平台坐拥数据金矿,这些数据可以转化为生成式 AI 助手。我们与合作伙伴生态系统一起创建的这些容器化 AI 微服务,是各行业企业成为 AI 公司的基石。”NVIDIA 创始人兼首席执行官黄仁勋表示。
为此,NVIDIA 推出生成式 AI 微服务,供开发者在已安装 NVIDIA CUDA GPU 的系统中创建和部署生成式 AI 助手
NVIDIA推出数十项企业级生成式 AI 微服务,企业可以利用这些微服务在自己的平台上创建和部署定制应用,同时保留对知识产权的完整所有权和控制权。
NVIDIA还推出二十多项全新微服务,使全球医疗企业能够在任何地点和任何云上充分利用生成式 AI 的最新进展。
全新 NVIDIA 医疗微服务套件包含经过优化的 NVIDIA NIM™ AI 模型和工作流,并提供行业标准应用编程接口(API),可用于创建和部署云原生应用。它们提供先进的医学影像、自然语言和语音识别以及数字生物学生成、预测和模拟功能。
此外,NVIDIA 加速的软件开发套件和工具,包括 Parabricks®、MONAI、NeMo™、Riva、Metropolis,现已通过 NVIDIA CUDA-X™ 微服务提供访问,以加速药物研发、医学影像、基因组学分析等医疗工作流。
这些微服务,其中 25 个已推出,可以加快医疗企业的转型,因为生成式 AI 为制药公司、医生和医院带来了众多的机会。其中包括筛选数万亿种药物化合物以促进医学发展、收集更完善的患者数据以改进早期疾病检测、实现更智能的数字助手等。
拥抱量子计算推出云量子计算机模拟微服务
量子计算是下一轮计算变革的前沿领域,为此NVIDIA推出一项云服务,旨在帮助研究人员和开发人员在化学、生物学、材料科学等关键科学领域的量子计算研究中取得突破。
NVIDIA 量子云基于 NVIDIA 开源 CUDA-Q 量子计算平台 —— 部署量子处理器(QPU)的公司有四分之三都在使用该平台。其作为一项微服务,首次支持用户在云端构建并测试新的量子算法和应用,包括支持量子-经典混合算法编程的功能强大的模拟器和工具等。
NVIDIA 的量子计算生态系统目前已有 160 多家合作伙伴。Google Cloud、Microsoft Azure 、Oracle Cloud Infrastructure 等领先的云服务提供商,以及 IQM Quantum Computers、OQC、ORCA Computing、qBraid 和 Quantinuum 等量子领域的领先企业,都正在将量子云集成到自己的产品中。
在大会上,英伟达也展示了自己的朋友圈,如今拥抱AI的企业越来越多,在改变社会方面也展现出越来越大的市场前景。面向工业领域,AI能发挥的作用还非常大,英伟达迈出的可谓划时代的一步,此前英伟达的营收已经超过了半导体领军者英特尔,未来这个即将用AI吞噬世界的怪兽将如何用技术改变世界,未来的发展可能会远远超出我们的想象。
- QQ:61149512