通信世界网消息(CWW)近两年,大模型发展突飞猛进,大算力需求被充分激发,数据中心正经历着前所未有的变革。如果说大模型发展的第一步带火了GPU,那么放眼下一步发展,作为数据中心第三颗“主力芯片”的DPU,又将如何与时俱进,迎接大算力发展挑战?
近日,业界目光再次聚焦于DPU行业最新进展,中科驭数正式发布国内首颗量产全功能DPU芯片K2 Pro,无疑为国产DPU发展注入了一针“强心剂”。
我们知道,产业发展有赖于技术创新,但衡量创新突破是否合于时势,还需要到产品和应用场景中去检验,此次中科驭数一系列发布背后,为DPU行业带来了哪些新思考?已有创新实践又能为国产DPU破局提供哪些借鉴?
重新定义DPU,旨在价值提升
迎接大算力挑战,算效亟待提升,究其根本还是芯片性能有待提升。作为当下算力基础设施的核心创新之一,DPU作为数据中心第三大支柱芯片的地位也逐渐凸显。
就其重要性来看,DPU与CPU、GPU密不可分。如果把CPU比作大脑、那么GPU就好比是肌肉、而DPU就是神经中枢,负责数据在各种CPU和GPU之间高效流通,决定了系统是否能协同工作。
近年来,DPU的关键性也在行业实践中得到验证。放眼全球,国外芯片厂商英伟达、英特尔、AMD等都推出了相应的DPU产品。国内市场除了阿里巴巴、华为与腾讯等云计算龙头发展符合自身要求的DPU产品线外,其他DPU新兴企业亦蓄势待发,除中科驭数外,云豹智能、云脉芯联等也纷纷入局。
中国工程院院士、清华大学教授郑纬民认为,DPU产业作为国内外竞争的新焦点,在未来数据中心、智算中心等高带宽、低延迟、高吞吐率产品都将发挥重要作用,为“东数西算”、算力网络等重要新型算力基础设施建设提供核心组件。
面对当前行业对于DPU创新,助力算力发展的期待,中科驭数也试图通过技术与应用的双重创新来解答DPU的发展方向。如何重新定义DPU的价值,中科驭数创始人、CEO鄢贵海认为,当前已经不能仅将DPU视为单一芯片,而是结合行业需求去重新定义其价值。
具体来看,可分为三个方面,其一即架构决胜,用最先进的芯片架构来重新定义DPU芯片架构。其二为软件护城,用最高兼容性来重新定义DPU的软件系统。其三则是平台上门,用最低的成本让客户接入DPU规模化部署与业务验证。
此次,中科驭数发布的第三代DPU芯片K2-Pro即为重新定义DPU之作,专为破解大规模数据中心性能瓶颈而生的高效能数据处理芯片,采用自主研发的KPU架构,集网络、存储、安全及计算等多业务卸载功能于一体,包处理速率翻倍至80Mpps,最高支持200G网络带宽,具备高度可编程性,确保了系统的灵活扩展性,为数据中心的业务增长和算力扩容提供坚实基础。
目前K2-Pro已经成功搭载在中科驭数三大产品系列的6款DPU卡产品中,精准支撑细分业务场景。鄢贵海预计,2024年K2-Pro的出货量将累计达1万颗。
“软硬”合璧,3U一体值得期待
正如上文所提,重新定义GPU,其提供的思路即不能单一地强调架构,与之相对应的要有软件与平台支撑,从而推动DPU实践落地。
针对DPU规模应用需要面对的集群升级迁移成本大周期长、学习门槛高,大规模使用、部署和运维难度大,安全性与高可用极具挑战的难关。发布会当天,中科驭数也透露了自身的应对之策,将自研软件开发平台HADOS升级到3.0版本。
image.png
据了解,目前,HADOS已突破万卡级别的落地部署,适配了8 款CPU平台以及10大主流操作系统,成为业内适配最完全、最具竞争力、在国内实际落地部署最多的DPU软件平台之一。
对标国外基础开发软件,HADOS 3.0在高性能云原生网络,尤其是微服务治理、运维管控、仿真模拟、生态适配、国内安全加解密、以及最重要的人工智能场景下,国产AI和GPU适配均占据了明显的优势。
与此同时,承接算力时代需求,深度洞察算力技术发展趋势,中科驭数还推出了基于DPU的驭云高性能云底座来释放云端算力。
image.png
驭云解决方案采用“IaaS on DPU”技术路线,依托于DPU的卸载能力,将云计算体系中的基础设施层面完全下沉,为集群提供网络转发、存储服务、安全防护、管理调度等能力,完成了整个云计算环境的构建与运转,将服务器侧的CPU与GPU算力全部预留给业务系统应用,为云计算提供高性能、高吞吐、高安全的算力底座。
值得一提的是,避免对于单一芯片的过度依赖,更好地协调平衡性能,3U一体架构也逐渐为行业认可并落地实践。目前,中科驭数在信创园搭建的驭云开放平台,集成了超400台高性能服务器,采用创新的3U一体架构,深度融合CPU、GPU与DPU技术,不仅为中科驭数自身的研发与数字化体系提供强大的算力支撑,还广泛向用户及生态伙伴开放。
瞄准商业化未来,建强产业生态
就行业应用来看,目前DPU已经可以广泛应用于超低延迟网络、云和数据中心、金融计算、大数据处理、5G边缘计算、高性能计算等场景。
注重DPU产业价值发挥,中科驭数也在云计算,5G通信、证券基金、银行等重点场景实现商用落地。
在云计算领域,中科驭数的DPU产品已经在某头部云计算厂商的云数据中心中落地。实际应用当中,基于DPU的方案可以大幅缩短裸金属服务的交付时间,实现虚拟网络功能的全面卸载,同时也可为存算分离相关的多种存储技术提供统一的接口。
在5G通信领域,中科驭数是国内三大运营商的硬件合作伙伴,共同探索DPU在5G通信和云计算领域的技术解决方案。在5G通信网络快速发展的过程中,算力和网络融合发展需要更加绿色高效的数据处理硬件加速技术,亟待借助DPU提升系统性能。由此可以预见,DPU将在高性能数据处理、低延迟数据传输、网络管理、存储以及安全等基础设施底层建设发挥关键作用。
在证券基金领域,目前,中科驭数的DPU系列产品已经在金融证券领域实现规模化落地,同时也是上交所天相实验室,以及申万宏源、东证期货等低时延实验室参与方,助力超过30家金融机构完成核心超低时延系统替换,有力保障金融系统的平稳运行。
本着生产一代,预研一代的前瞻性布局,据介绍,2025年中科驭数将完成K3芯片的发布,采用最新KPU架构以及KISA 2.0指令集,集成RISC-V轻量级控制核,处理带宽将是K2-Pro的四倍,达到800G,延迟低于1微秒,功耗比K2-Pro下降40%。
正所谓独行快,众行远,中科驭数在增强自身作战能力的同时,也在积极做大“朋友圈”。在软件方面,中科驭数将逐步向各大开源社区开源HADOS教育版,同时推出企业版HADOS-4.0。
在云平台方面,中科驭数也将进一步扩容——驭云,推出驭云2.0,将DPU的规模化部署、运维、调优可视化、一体化。
从架构、到软件,再到云平台,构成了中科驭数在算力基础设施领域的“芯云计划”,也展示了其重新定义DPU后的发展方向。
迎接算力之挑战,亦借算力之东风,期待DPU在其新发展内涵下,为算力乃至新质生产力发展带来更多惊喜。
- QQ:61149512