“我们需要的HBM(高带宽存储器)数量非常庞大,目前正在与三星、SK海力士和美光洽谈,我们已经收到这三家公司的产品。”说出这句话的,是英伟达的CEO黄仁勋。依靠GPU,英伟达如日中天,这让全球排名前三的存储芯片厂商争相抛出橄榄枝。
当前,生成式AI的浪潮汹涌而至,让GPU大施拳脚,更是带动整个半导体产业链掀起了更新潮,成为了存储市场的“救命稻草”,创下了在一个季度内扭亏为盈的壮举。而GPU带动的芯片产业还不只这些。
存储芯片扭亏为盈的“救世主”
自2021年以来,存储芯片产业进入长达近两年的下行周期,这也导致存储芯片厂商的利润持续走低,甚至一度陷入亏损状态,例如,2023年全年,三星综合营业利润为6.6万亿韩元,较上年同期下降84.86%。SK海力士则是累计营业亏损为7.7303万亿韩元,净亏损为9.1375万亿韩元。一直到2023年第四季度,两大存储厂商才逐渐恢复盈利能力。这个扭亏为盈的关键点正是GPU的爆发式增长。
GPU在进行大量数据处理时,特别是在高性能计算、人工智能和图形处理等领域,对存储带宽和容量的需求极高。GDDR(一种用于图形处理器和高性能计算模块的显存类型)和HBM具有的高带宽、低功耗和低延迟的特性,正是GPU所最需要的。各大存储芯片企业纷纷开始研究这两个存储芯片品类。
芯谋研究企业服务部总监王笑龙在接受《中国电子报》记者采访时表示,为满足GPU对高带宽的需求,HBM技术通过堆叠内存芯片并利用硅中介层直接连接到GPU,大幅度提高了内存带宽。随着GPU需求的增长,HBM2、HBM2E乃至最新的HBM3等迭代版本将不断推出,进一步提升了带宽和容量,同时降低功耗。
在GPU市场需求引导下,各大存储芯片企业的GDDR和HBM订单拿到手软。SK海力士近期表示,根据截至今年底的生产能力,目前已经完成了对2025年HBM内存产能的分配。三星也是不甘示弱,称自身HBM订单也已售罄,预估明年不会出现HBM内存供过于求的情况。美光也表示,已经基本完成了2025年的HBM内存供应谈判,预计在2024年9月结束的本财年中,HBM内存将带来数亿美元的营收,而在2025财年,相关业务的销售额预计将增加到数十亿美元。
产能方面,HBM厂商为满足HBM3E内存需求,SK海力士计划大幅增加1bnm制程DRAM内存产能。目标到今年年底将1bnm内存晶圆投片量增至9万片,明年上半年进一步增加到14~15万片。为此,SK海力士计划将其位于京畿道利川市的M16内存晶圆厂升级至1bnm工艺。而三星预计到2024年底,现有设施将全部使用完毕。新的P4L工厂计划于2025年完工,而15号生产线工厂将从1Y纳米工艺过渡到1bnm及以上工艺。
下一代技术方面,SK海力士计划将HBM新产品的供应周期从2年加快至1年。此外,还计划在2025年和2026年完成HBM4(第6代)和HBM4E(第7代)的技术开发和量产。三星同样表示,HBM4内存计划于明年完成开发,2026年实现量产。而美光已经开始出样12层堆叠的HBM3E内存,预计这将成为2025年业绩的重要驱动力。
据Mordor Intelligence预测,从2024年到2029年,HBM市场规模预计将从约25.2亿美元激增至79.5亿美元,预测期内复合年增长率高达25.86%。
池宪念表示:“不只是GDDR和HBM,为了应对GPU持续飙升的存储需求,各大企业也在探索新型的存储介质。例如,业界已经开始探索如3D XPoint、ReRAM(电阻式随机存取存储器)、PCM(相变存储)等新型非易失性存储技术,它们有望提供接近DRAM的性能,同时保持数据持久性,适合于GPU密集型应用中的快速存储和交换数据。”
CPU与GPU齐头并进深度融合
在此前的台北电脑展上,英伟达、AMD、英特尔的首席执行官的演讲句句都离不开GPU,“明争暗斗”地发布了关于CPU与GPU协同的最新解决方案,性能增量一个比一个惊人,可见GPU对于CPU的提升作用。
CPU是中央处理器,负责程序控制、顺序执行等操作,是信息处理、程序运行的最终执行单元。而GPU是图形处理器,加入系统之后,GPU可以在CPU的控制下协同工作,分担部分原本由CPU负责的工作,尤其是在图形渲染、3D图形加速以及大规模并行计算等需要处理大量数据的领域表现出色。这使得CPU可以将更多的资源用于执行其他任务,提高了系统的整体性能。因此,如何促进CPU与GPU进一步协同工作,提升系统整体性能和效率就成为了各大CPU企业所重点关注的课题。
为此,英伟达、AMD、英特尔等国内外领军企业想到的第一个办法是开发CPU与GPU的异构计算平台。通过开发如NVLink、CCIX、CXL和Gen-Z等高速互连技术,加强CPU与GPU之间的数据传输速度和效率,使得两者能更紧密、高效地协同工作。
例如,黄仁勋提出,英伟达将在2026年推出最新的Vera CPU和Rubin GPU,并组成Vera Rubin超级芯片,有望取代现有的Grace Hopper超级芯片。此外,Rubin平台还将搭载新一代NVLink 6 Switch,提供高达3600 GB/s的连接速度,以及高达1600 GB/s的CX9 SuperNIC组件,确保数据传输的高效性。
除了建立异构计算平台,半导体行业专家池宪念表示,还要优化软件与编程模型。为了解决CPU与GPU之间的通信瓶颈,企业投入资源开发了新的编程模型和库,如CUDA、OpenCL、DirectX、Vulkan、oneAPI等,使得开发者能够更便捷地编写跨CPU和GPU的并行程序,充分利用两者的计算优势。在某些应用场景下,企业还可以集成特定的硬件加速器(如AI加速器、网络加速器)与CPU和GPU一起工作,以实现特定任务的极致加速,满足云计算、边缘计算、数据中心等领域的特定需求。
此外推进系统架构的创新也是关键环节,例如AMD推出的APU(加速处理器),将CPU与GPU集成在同一块芯片上,实现了更紧密的集成和更低的延迟,为轻量级计算任务提供高效解决方案。英伟达也发明了一种新架构,将GPU与CPU相结合,两个处理器能独立且自主地运行。可以让原本需要100个时间单位才能完成的任务,现在可能仅需1个时间单位即可完成。并且,这种架构可以实现高达100倍的加速计算,而功率仅增加约3倍,每瓦性能比单独使用CPU提高25倍,成本仅上升约50%。此外,RISC-V架构也在探索包括CPU与GPU核心的一体化设计,有望在性能和能效上取得新突破。
全产业链因GPU不断创新
对于最上游的半导体设备、散热技术,以及后道封装技术等方面的更新迭代来说,GPU的市场需求同样成为了关键助推力。
半导体设备方面,英伟达之前发布了可以将计算光刻变得更“聪明”的新光刻技术cuLitho,以前的计算光刻依赖CPU服务器集群,而如今,cuLitho可以实现在500套DGX H100(包含4000颗Hopper GPU)完成与4万颗CPU运算服务器相同的工作量,但速度快40倍,功耗低9倍。可见,GPU加速后,生产光掩模的计算光刻工作用时可以从两周减少到八小时。台积电可以通过在500个DGX H100系统上使用cuLitho加速,将功率从35MW降至5MW,从而替代用于计算光刻的4万台CPU服务器。黄仁勋表示,英伟达将继续与台积电、ASML和Synopsys合作,将先进制程推进到2纳米及更高精度制程。
在散热技术创新方面,英伟达决定在新发布的GPU产品B100上采用液冷散热方案。黄仁勋曾公开表示,液冷技术是未来散热技术的方向,有望引领整个散热市场迎来全面的革新。
液冷散热技术相较于传统的风冷散热技术,具有更高的散热效率、更低的能耗、更低的噪声。而随着AI算力和功耗的不断提升,当单颗高算力芯片功率达到1000W时,现有散热技术将面临革命性的变革,而液冷方案几乎成为必选项。
民生证券表示,AI产业快速发展,驱动液冷服务器渗透率逐步抬升。从发展趋势来看,预计到2025年液冷服务器渗透率大约保持在20%-30%的水平。
池宪念表示,封装技术也能够提升GPU的各项性能,例如通过倒装芯片封装(FCBGA)的应用,改善关键部件如CPU、GPU的散热水平,提高信号传输速度和电气性能;扇出型晶圆级封装(FOWLP)能在相同封装尺寸内容纳更多存储芯片,提高带宽,同时减小GPU的实际尺寸或腾出空间用于其他组件,这对于提升GPU的集成度和性能至关重要;CoWoS-L封装技术允许在单一封装中集成多个芯片(如GPU、HBM等),通过硅中介层实现高速互连,不仅提升了性能,也优化了散热路径。同时,GPU制造商正探索3D封装技术,通过堆叠多个芯片或Chiplet(小芯片)来构建系统,这样不仅可以增加功能,还能通过缩短信号路径来降低功耗并提高散热效率。
总体来看,GPU的高速发展已成为半导体产业的重要驱动力之一,它不仅推动了半导体设计和制造技术的持续创新,还带动了整个产业链的协同发展,促使半导体厂商加大投入,提升产能,优化工艺,以满足日益增长的GPU需求,也为整个科技行业带来了更加广阔的创新空间和发展机遇。
- QQ:61149512