尽管具体的相关话题不断变化,但对Deepseek的讨论至今热度不减,不知道你家楼下小饭馆的老板,是不是也在考虑用DeepSeek来换新自家二十年没有变过的菜单?
当然,话题变迁的路径依旧清晰可见,从人工智能业内开始、从专业人士开始、从对“低成本”的惊叹开始。
丁科技网注意到,一个有意思的现象是,DeepSeek的出现虽然演绎了低成本神话,看起来是对规模定律的打破,站在AI创新背后、提供基础设施的云厂商们也都在积极拥抱他,但于此同时,全球头部云厂,对算力的投入看起来非但没有减少,反而还要继续增加。
(截图自DeepSeek | 深度求索)
从公开信息来看,特别是作为全球“一哥”和中国“一哥”的两家:
亚马逊计划在2025年投入1000亿美元,主要用于云业务,作为主要载体的应当依旧是从2024年以来明显加码AI领域的亚马逊云科技;阿里巴巴计划在未来三年投入535亿美元,用于云和AI硬件基础设施,这据说超过过去十年的总和。
另外,从公开信息看,微软、谷歌也计划增资。比如,微软提到的AI算力产能有限,因此在加大投资力度;谷歌也提到增加AI产品产能。
就丁科技网的理解,这背后可能有如下几点原因:
先就DeepSeek角度来看,“低成本”可能不是事实的全部。
通常被关注的信息是,DeepSeek-V3以不到OpenAIGPT-4o模型的训练成本的十分之一(大约是558万美元),实现了接近的性能。不过,同时需要注意的是,DeepSeek在V3模型技术报告中指出了一个事实,就是“558万美元不包括与架构、算法或数据相关的前期研究和消融实验的成本”。也就是说,约558万美元的金额,属于净算力成本。
如果从更长的时间线来看,DeepSeek母公司幻方量化在2019年的深度学习训练平台“萤火二号”搭载约1万张英伟达A100显卡,这在当时已经算“先进”了。
所以,一些可见的专业解读认为,DeepSeek给到行业最大的意义是算法创新提高了资源的利用率,而不是颠覆掉通过增加算力提升模型性能的现有规律,另外就是开源实现的友好性。
再从全球头部云厂角度来看,应该有三点诉求。
其一是推出更多可能更好的模型。不难发现,在DeepSeek看起来横空出世之后,同样作为模型大厂的全球头部云大厂基本都在对标,大有加快创新节奏的感觉,DeepSeek很像是在带来“鲶鱼效应”。全球头部云厂在尝试推出更多可能更好的模型,来应对之后的风险,为可能的竞争持续加码。
在丁科技网看来,这里还有三个细节原因,一是,DeepSeek模型并不算是全面领先;二是,全球头部云大厂大概率也有规模定律未失效的判断;三是,多模型应用才是客户在现实中解决问题时的常态,这代表依然有很多未被看到的机会。
DeepSeek用相对少的资源、更创新的算法以及开源的态度赢得了关注,那么如果是创新算法、开源再加上更为丰富的算力和训练参数呢?在丁科技网看来,云大厂们没理由不这么想。
其二是应对对后续AI应用可能更大爆发的支持。去年以来有算力成本下降的趋势,以阿里云为代表,在持续推动云服务降价、大模型降价,受益于此,一方面是AI应用更多出现,另一方面是AI应用的能力持续增强,随之而来的是AI应用用户增加,那么,对算力的消耗其实应该是会明显增加的。
其三是对相关服务使用的支持。从趋势来看,更多企业会将模型从应用实践推向真实生产,这就不仅涉及模型本身,还会涉及大量云服务的相关算力支持。(丁科技网原创,转载务必注明“来源:丁科技网”)
- QQ:61149512