C114通信网  |  通信人家园

人工智能
2024/3/11 09:27

“AI淘金云卖水”之四:Sora对云计算产业影响几何

天翼智库  魏玥

 

除却AI不是云。

——柯瑞文,中国电信董事长

Sora对公有云和私有云的影响

OpenAI的视频生成模型Sora惊艳问世后,市场普遍判断其对算力的需求将大幅超过大语言模型,OpenAI CEO Altman的“7万亿美元芯片计划”也为这一判断提供有力佐证。大规模算力需由大规模计算集群提供,“AI大模型将提升客户对公有云的认可度”这一观点应运而生,Sora的出现无疑会让此观点的支持者更加坚定地看好公有云的前景。那么,现实会如期发展吗?

首先,需要明确Sora的算力需求。深度学习模型的算力需求与参数量和数据量成正比。参数量上,Sora作为一款Diffusion Transformer(DiT)模型,参数量应在十亿至百亿级1,较参数量动辄在千亿甚至万亿级的大语言模型小2个数量级。数据量上,训练阶段,参考Sora同类产品Runway和LaVie2等视频生成模型的训练数据规模,假设Sora训练使用10亿张图像和2000万个视频3,则patch数量为近300万亿4,是GPT-3训练数据量,即3000亿个token的一千倍。考虑到扩散模型通常需要多步去噪(数次至数十次)以提升图像或视频质量,实际patch数量将进一步呈数倍或数十倍增长,致使训练算力需求达到大语言模型的上百倍。推理阶段,按照一次推理任务测算算力需求5。假设Sora和大语言模型的常规任务分别为生成长度为1分钟的视频(1080p/30fps)和生成一段3000字左右的文本,分别对应1458万个patch6和4000个token,同样考虑多步去噪,则Sora一次推理任务的数据量可达到大语言模型的数十万倍,致使推理算力需求是大语言模型的成百甚至上千倍。

因此,Sora的广泛应用及后续更多类Sora模型的推出和落地确实将带来超大规模算力需求增量,但这些算力并非必须以公有云形式输出。一是考虑到算力成本和数据安全问题,公有云更适合承载通用大模型训练和部署To C智能应用,私有云更适合承载专属大模型训练和部署To B智能应用。通用大模型的数量在经历“百模混战”后会大幅收敛,而市场对专属大模型的需求却将只增不减。二是客户决策是否上云、上公有云还是私有云,还会受到资产显性化偏好、IT人员成本、监管要求等多重因素影响,并不是简单地取决于算力门槛。

“AI大模型加速公有云发展”观点的支持者,大多会将阿里云成立公共云事业部作为论据。然而,公有云本就是阿里云优势所在,其大力宣传“公有云优先”更多是一种竞争策略,并不能代表公有云和私有云格局的演进方向。实际上,对于以何种方式运行大模型计算负载,不同厂商的判断和预期存在不小差异,例如联想出于设备商视角,认为将逐渐由云端向边缘侧和端侧下沉。

公有云和私有云之争的关键,归根结底或在于数字主权。

Sora对云服务竞争格局的影响

尽管Sora等AI大模型对公有云和私有云的格局影响有限,但对云服务市场的竞争格局却正在并将继续产生重大影响。

回顾全球头部云厂商近一年的表现,微软作为OpenAI独家云服务提供商成为最大赢家。客户方面,实现以AI为云拉新。2023年,三分之一的微软Azure AI服务7的新增客户此前从未使用过微软Auzre云。业绩方面,云收入和利润增长提速。2023年二季度以来,Azure收入同比、智能云收入和营业利润同比逐季度提升,在2023年四季度分别达到30%、20%和40%。与此同时,AI对云的拉动作用也在持续增强。2023年三季度和四季度,AI对Azure收入增量的贡献分别达到3%和6%。良好的经营状况和市场预期为微软股价注入强劲动力,2024年1月,微软市值突破3万亿美元。

再来看下同样手握先进大模型的谷歌。谷歌CEO Pichai表示,基于AI的新服务和产品是谷歌云增长势头的最大贡献者,而谷歌云在2023年也终于实现首次盈利。至于AWS,受未能抢占生成式AI先机等影响,2023年收入和利润同比增长仅分别取得13%和7%,大幅下滑至历史新低。

大模型正在搅动云服务竞争格局,带领AI大模型步入新阶段的Sora将会进一步加剧这场变革。

Sora对云厂商业务布局的影响

Sora将AI生成视频的长度从秒级延长到分钟级,以及其对物理逻辑的理解能力,为生成式AI打开了新世界。面向生成式AI,云厂商们大多已经形成“服务大模型+大模型服务”全栈布局。鉴于算力基础设施是服务好大模型的关键,越来越多的云厂商正在将触手伸至芯片和能源产业。

英伟达在AI芯片市场的一家独大使得身为甲方的云厂商并不能掌握多少议价权。而通过自研芯片,云厂商不仅可以提高议价能力,还可以自行设计更加贴合实际需求的产品。例如,网络带宽对于大规模计算集群的性能至关重要,英伟达通过NVLink技术实现的900 GB/s双向带宽已是业内领先水平,而微软自研的AI芯片Maia 100,单芯片集成600 GB/s以太网单向带宽,显著优于英伟达。目前,Maia 100已用于运行OpenAI模型、Bing、GitHub Copilot等AI工作负载。

顺着布局芯片以保证算力的逻辑,云厂商已着手布局能源以保证电力,布局新能源以保证可持续计算。亚马逊、谷歌等近10年来持续在全球各地投资太阳能发电厂等可再生能源项目,不仅为自身数据中心运营提供了电力,也向电网输入了清洁能源。微软2023年9月招聘“核技术首席项目经理”,要求该职位负责完善和实施全球小型模块化反应堆(SMR)和微型反应堆的能源战略,领导SMR和微反应堆集成的技术评估,为微软云和AI所在的数据中心提供动力。中国移动2023年12月以能量运营为目标接连实施两大举措,一是携手宁德时代成立信息能源联合研究院,二是成立能源科技公司,旨在推进信息和能量深度融合落地。

放眼未来,随Sora提升AI向各场景渗透的速度、广度与深度,云厂商作为卖水人将更加积极地布局和深入芯片和能源产业。

注释

1. 推测依据:一是扩散模型参数量级通常在10~100亿,如Stable Diffusion为10亿+,DALL-E为120亿;二是Meta首席AI科学家杨立昆认为纽约大学助理教授谢赛宁作为第一作者的扩散Transformer论文是Sora的基础,而谢赛宁分析认为Sora参数量约30亿。

2. Runway训练使用2.4 亿张图像,640万个视频;LaVie训练使用50亿张图像,3500万个视频。

3. 假设图像和视频分辨率均为1080p,视频长度和帧数分别为60秒和30fps。

4. patch可理解为大语言模型中的token。patch数量=(图像)分辨率/patch大小,(视频)长度*帧数*分辨率/patch大小。依据Sora技术报告引用的谷歌论文,patch大小可按16*16(像素)取定。按文中假设的训练数据量,不考虑多步去噪,patch数量=10亿*1920*1080/(16*16)+2000万*60*30*1920*1080/(16*16)=299.7万亿(个)。

5. 由于仅测算算力需求,不考虑对应芯片数量,因此无需计算任务用时。

6. 按文中假设的推理任务,不考虑多步去噪,patch数量=60*30*1920*1080/(16*16)=1458万(个)。

7. Azure AI服务含Azure OpenAI 服务和其他一系列面向AI应用开发的API服务。

给作者点赞
0 VS 0
写得不太好

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2024 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141