GPU如何带动半导体产业链水涨船高？--丁科技网

2024-06-20 08:45:28

来源：中国电子报、电子信息产业网许子皓

“我们需要的HBM（高带宽存储器）数量非常庞大，目前正在与三星、SK海力士和美光洽谈，我们已经收到这三家公司的产品。”说出这句话的，是英伟达的CEO黄仁勋。依靠GPU，英伟达如日中天，这让全球排名前三的存储芯片厂商争相抛出橄榄枝。

当前，生成式AI的浪潮汹涌而至，让GPU大施拳脚，更是带动整个半导体产业链掀起了更新潮，成为了存储市场的“救命稻草”，创下了在一个季度内扭亏为盈的壮举。而GPU带动的芯片产业还不只这些。

存储芯片扭亏为盈的“救世主”

自2021年以来，存储芯片产业进入长达近两年的下行周期，这也导致存储芯片厂商的利润持续走低，甚至一度陷入亏损状态，例如，2023年全年，三星综合营业利润为6.6万亿韩元，较上年同期下降84.86%。SK海力士则是累计营业亏损为7.7303万亿韩元，净亏损为9.1375万亿韩元。一直到2023年第四季度，两大存储厂商才逐渐恢复盈利能力。这个扭亏为盈的关键点正是GPU的爆发式增长。

GPU在进行大量数据处理时，特别是在高性能计算、人工智能和图形处理等领域，对存储带宽和容量的需求极高。GDDR（一种用于图形处理器和高性能计算模块的显存类型）和HBM具有的高带宽、低功耗和低延迟的特性，正是GPU所最需要的。各大存储芯片企业纷纷开始研究这两个存储芯片品类。

芯谋研究企业服务部总监王笑龙在接受《中国电子报》记者采访时表示，为满足GPU对高带宽的需求，HBM技术通过堆叠内存芯片并利用硅中介层直接连接到GPU，大幅度提高了内存带宽。随着GPU需求的增长，HBM2、HBM2E乃至最新的HBM3等迭代版本将不断推出，进一步提升了带宽和容量，同时降低功耗。

在GPU市场需求引导下，各大存储芯片企业的GDDR和HBM订单拿到手软。SK海力士近期表示，根据截至今年底的生产能力，目前已经完成了对2025年HBM内存产能的分配。三星也是不甘示弱，称自身HBM订单也已售罄，预估明年不会出现HBM内存供过于求的情况。美光也表示，已经基本完成了2025年的HBM内存供应谈判，预计在2024年9月结束的本财年中，HBM内存将带来数亿美元的营收，而在2025财年，相关业务的销售额预计将增加到数十亿美元。

产能方面，HBM厂商为满足HBM3E内存需求，SK海力士计划大幅增加1bnm制程DRAM内存产能。目标到今年年底将1bnm内存晶圆投片量增至9万片，明年上半年进一步增加到14~15万片。为此，SK海力士计划将其位于京畿道利川市的M16内存晶圆厂升级至1bnm工艺。而三星预计到2024年底，现有设施将全部使用完毕。新的P4L工厂计划于2025年完工，而15号生产线工厂将从1Y纳米工艺过渡到1bnm及以上工艺。

下一代技术方面，SK海力士计划将HBM新产品的供应周期从2年加快至1年。此外，还计划在2025年和2026年完成HBM4（第6代）和HBM4E（第7代）的技术开发和量产。三星同样表示，HBM4内存计划于明年完成开发，2026年实现量产。而美光已经开始出样12层堆叠的HBM3E内存，预计这将成为2025年业绩的重要驱动力。

据Mordor Intelligence预测，从2024年到2029年，HBM市场规模预计将从约25.2亿美元激增至79.5亿美元，预测期内复合年增长率高达25.86%。

池宪念表示：“不只是GDDR和HBM，为了应对GPU持续飙升的存储需求，各大企业也在探索新型的存储介质。例如，业界已经开始探索如3D XPoint、ReRAM（电阻式随机存取存储器）、PCM（相变存储）等新型非易失性存储技术，它们有望提供接近DRAM的性能，同时保持数据持久性，适合于GPU密集型应用中的快速存储和交换数据。”

CPU与GPU齐头并进深度融合

在此前的台北电脑展上，英伟达、AMD、英特尔的首席执行官的演讲句句都离不开GPU，“明争暗斗”地发布了关于CPU与GPU协同的最新解决方案，性能增量一个比一个惊人，可见GPU对于CPU的提升作用。

CPU是中央处理器，负责程序控制、顺序执行等操作，是信息处理、程序运行的最终执行单元。而GPU是图形处理器，加入系统之后，GPU可以在CPU的控制下协同工作，分担部分原本由CPU负责的工作，尤其是在图形渲染、3D图形加速以及大规模并行计算等需要处理大量数据的领域表现出色。这使得CPU可以将更多的资源用于执行其他任务，提高了系统的整体性能。因此，如何促进CPU与GPU进一步协同工作，提升系统整体性能和效率就成为了各大CPU企业所重点关注的课题。

为此，英伟达、AMD、英特尔等国内外领军企业想到的第一个办法是开发CPU与GPU的异构计算平台。通过开发如NVLink、CCIX、CXL和Gen-Z等高速互连技术，加强CPU与GPU之间的数据传输速度和效率，使得两者能更紧密、高效地协同工作。

例如，黄仁勋提出，英伟达将在2026年推出最新的Vera CPU和Rubin GPU，并组成Vera Rubin超级芯片，有望取代现有的Grace Hopper超级芯片。此外，Rubin平台还将搭载新一代NVLink 6 Switch，提供高达3600 GB/s的连接速度，以及高达1600 GB/s的CX9 SuperNIC组件，确保数据传输的高效性。

除了建立异构计算平台，半导体行业专家池宪念表示，还要优化软件与编程模型。为了解决CPU与GPU之间的通信瓶颈，企业投入资源开发了新的编程模型和库，如CUDA、OpenCL、DirectX、Vulkan、oneAPI等，使得开发者能够更便捷地编写跨CPU和GPU的并行程序，充分利用两者的计算优势。在某些应用场景下，企业还可以集成特定的硬件加速器（如AI加速器、网络加速器）与CPU和GPU一起工作，以实现特定任务的极致加速，满足云计算、边缘计算、数据中心等领域的特定需求。

此外推进系统架构的创新也是关键环节，例如AMD推出的APU（加速处理器），将CPU与GPU集成在同一块芯片上，实现了更紧密的集成和更低的延迟，为轻量级计算任务提供高效解决方案。英伟达也发明了一种新架构，将GPU与CPU相结合，两个处理器能独立且自主地运行。可以让原本需要100个时间单位才能完成的任务，现在可能仅需1个时间单位即可完成。并且，这种架构可以实现高达100倍的加速计算，而功率仅增加约3倍，每瓦性能比单独使用CPU提高25倍，成本仅上升约50%。此外，RISC-V架构也在探索包括CPU与GPU核心的一体化设计，有望在性能和能效上取得新突破。

全产业链因GPU不断创新

对于最上游的半导体设备、散热技术，以及后道封装技术等方面的更新迭代来说，GPU的市场需求同样成为了关键助推力。

半导体设备方面，英伟达之前发布了可以将计算光刻变得更“聪明”的新光刻技术cuLitho，以前的计算光刻依赖CPU服务器集群，而如今，cuLitho可以实现在500套DGX H100（包含4000颗Hopper GPU）完成与4万颗CPU运算服务器相同的工作量，但速度快40倍，功耗低9倍。可见，GPU加速后，生产光掩模的计算光刻工作用时可以从两周减少到八小时。台积电可以通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW，从而替代用于计算光刻的4万台CPU服务器。黄仁勋表示，英伟达将继续与台积电、ASML和Synopsys合作，将先进制程推进到2纳米及更高精度制程。

在散热技术创新方面，英伟达决定在新发布的GPU产品B100上采用液冷散热方案。黄仁勋曾公开表示，液冷技术是未来散热技术的方向，有望引领整个散热市场迎来全面的革新。

液冷散热技术相较于传统的风冷散热技术，具有更高的散热效率、更低的能耗、更低的噪声。而随着AI算力和功耗的不断提升，当单颗高算力芯片功率达到1000W时，现有散热技术将面临革命性的变革，而液冷方案几乎成为必选项。

民生证券表示，AI产业快速发展，驱动液冷服务器渗透率逐步抬升。从发展趋势来看，预计到2025年液冷服务器渗透率大约保持在20%-30%的水平。

池宪念表示，封装技术也能够提升GPU的各项性能，例如通过倒装芯片封装（FCBGA）的应用，改善关键部件如CPU、GPU的散热水平，提高信号传输速度和电气性能；扇出型晶圆级封装（FOWLP）能在相同封装尺寸内容纳更多存储芯片，提高带宽，同时减小GPU的实际尺寸或腾出空间用于其他组件，这对于提升GPU的集成度和性能至关重要；CoWoS-L封装技术允许在单一封装中集成多个芯片（如GPU、HBM等），通过硅中介层实现高速互连，不仅提升了性能，也优化了散热路径。同时，GPU制造商正探索3D封装技术，通过堆叠多个芯片或Chiplet（小芯片）来构建系统，这样不仅可以增加功能，还能通过缩短信号路径来降低功耗并提高散热效率。

总体来看，GPU的高速发展已成为半导体产业的重要驱动力之一，它不仅推动了半导体设计和制造技术的持续创新，还带动了整个产业链的协同发展，促使半导体厂商加大投入，提升产能，优化工艺，以满足日益增长的GPU需求，也为整个科技行业带来了更加广阔的创新空间和发展机遇。

原创文章

索尼集团2024财年二季度利润显著增长，索尼中国怎么样？

多场景AI加持，ROG 9将游戏性能进行到底

钟睒睒认为“价格就是产业导向”，有没有道理？

传苹果或推自有品牌电视，中国品牌通关全球高端市场难度要增加？

中国电视真正登顶全球的方法，可能在三星和索尼手里

卢伟冰点出了传统家电业的短板

蒸镀和印刷，OLED不排他

从便携三维影像扫描到“电子导盲犬”，IISC直击索尼创新