2024/3/11 09:27

“AI淘金云卖水”之四：Sora对云计算产业影响几何

天翼智库魏玥

除却AI不是云。

——柯瑞文，中国电信董事长

Sora对公有云和私有云的影响

OpenAI的视频生成模型Sora惊艳问世后，市场普遍判断其对算力的需求将大幅超过大语言模型，OpenAI CEO Altman的“7万亿美元芯片计划”也为这一判断提供有力佐证。大规模算力需由大规模计算集群提供，“AI大模型将提升客户对公有云的认可度”这一观点应运而生，Sora的出现无疑会让此观点的支持者更加坚定地看好公有云的前景。那么，现实会如期发展吗？

首先，需要明确Sora的算力需求。深度学习模型的算力需求与参数量和数据量成正比。参数量上，Sora作为一款Diffusion Transformer（DiT）模型，参数量应在十亿至百亿级1，较参数量动辄在千亿甚至万亿级的大语言模型小2个数量级。数据量上，训练阶段，参考Sora同类产品Runway和LaVie2等视频生成模型的训练数据规模，假设Sora训练使用10亿张图像和2000万个视频3，则patch数量为近300万亿4，是GPT-3训练数据量，即3000亿个token的一千倍。考虑到扩散模型通常需要多步去噪（数次至数十次）以提升图像或视频质量，实际patch数量将进一步呈数倍或数十倍增长，致使训练算力需求达到大语言模型的上百倍。推理阶段，按照一次推理任务测算算力需求5。假设Sora和大语言模型的常规任务分别为生成长度为1分钟的视频（1080p/30fps）和生成一段3000字左右的文本，分别对应1458万个patch6和4000个token，同样考虑多步去噪，则Sora一次推理任务的数据量可达到大语言模型的数十万倍，致使推理算力需求是大语言模型的成百甚至上千倍。

因此，Sora的广泛应用及后续更多类Sora模型的推出和落地确实将带来超大规模算力需求增量，但这些算力并非必须以公有云形式输出。一是考虑到算力成本和数据安全问题，公有云更适合承载通用大模型训练和部署To C智能应用，私有云更适合承载专属大模型训练和部署To B智能应用。通用大模型的数量在经历“百模混战”后会大幅收敛，而市场对专属大模型的需求却将只增不减。二是客户决策是否上云、上公有云还是私有云，还会受到资产显性化偏好、IT人员成本、监管要求等多重因素影响，并不是简单地取决于算力门槛。

“AI大模型加速公有云发展”观点的支持者，大多会将阿里云成立公共云事业部作为论据。然而，公有云本就是阿里云优势所在，其大力宣传“公有云优先”更多是一种竞争策略，并不能代表公有云和私有云格局的演进方向。实际上，对于以何种方式运行大模型计算负载，不同厂商的判断和预期存在不小差异，例如联想出于设备商视角，认为将逐渐由云端向边缘侧和端侧下沉。

公有云和私有云之争的关键，归根结底或在于数字主权。

Sora对云服务竞争格局的影响

尽管Sora等AI大模型对公有云和私有云的格局影响有限，但对云服务市场的竞争格局却正在并将继续产生重大影响。

回顾全球头部云厂商近一年的表现，微软作为OpenAI独家云服务提供商成为最大赢家。客户方面，实现以AI为云拉新。2023年，三分之一的微软Azure AI服务7的新增客户此前从未使用过微软Auzre云。业绩方面，云收入和利润增长提速。2023年二季度以来，Azure收入同比、智能云收入和营业利润同比逐季度提升，在2023年四季度分别达到30%、20%和40%。与此同时，AI对云的拉动作用也在持续增强。2023年三季度和四季度，AI对Azure收入增量的贡献分别达到3%和6%。良好的经营状况和市场预期为微软股价注入强劲动力，2024年1月，微软市值突破3万亿美元。

再来看下同样手握先进大模型的谷歌。谷歌CEO Pichai表示，基于AI的新服务和产品是谷歌云增长势头的最大贡献者，而谷歌云在2023年也终于实现首次盈利。至于AWS，受未能抢占生成式AI先机等影响，2023年收入和利润同比增长仅分别取得13%和7%，大幅下滑至历史新低。

大模型正在搅动云服务竞争格局，带领AI大模型步入新阶段的Sora将会进一步加剧这场变革。

Sora对云厂商业务布局的影响

Sora将AI生成视频的长度从秒级延长到分钟级，以及其对物理逻辑的理解能力，为生成式AI打开了新世界。面向生成式AI，云厂商们大多已经形成“服务大模型+大模型服务”全栈布局。鉴于算力基础设施是服务好大模型的关键，越来越多的云厂商正在将触手伸至芯片和能源产业。

英伟达在AI芯片市场的一家独大使得身为甲方的云厂商并不能掌握多少议价权。而通过自研芯片，云厂商不仅可以提高议价能力，还可以自行设计更加贴合实际需求的产品。例如，网络带宽对于大规模计算集群的性能至关重要，英伟达通过NVLink技术实现的900 GB/s双向带宽已是业内领先水平，而微软自研的AI芯片Maia 100，单芯片集成600 GB/s以太网单向带宽，显著优于英伟达。目前，Maia 100已用于运行OpenAI模型、Bing、GitHub Copilot等AI工作负载。

顺着布局芯片以保证算力的逻辑，云厂商已着手布局能源以保证电力，布局新能源以保证可持续计算。亚马逊、谷歌等近10年来持续在全球各地投资太阳能发电厂等可再生能源项目，不仅为自身数据中心运营提供了电力，也向电网输入了清洁能源。微软2023年9月招聘“核技术首席项目经理”，要求该职位负责完善和实施全球小型模块化反应堆（SMR）和微型反应堆的能源战略，领导SMR和微反应堆集成的技术评估，为微软云和AI所在的数据中心提供动力。中国移动2023年12月以能量运营为目标接连实施两大举措，一是携手宁德时代成立信息能源联合研究院，二是成立能源科技公司，旨在推进信息和能量深度融合落地。

放眼未来，随Sora提升AI向各场景渗透的速度、广度与深度，云厂商作为卖水人将更加积极地布局和深入芯片和能源产业。

注释

1. 推测依据：一是扩散模型参数量级通常在10~100亿，如Stable Diffusion为10亿+，DALL-E为120亿；二是Meta首席AI科学家杨立昆认为纽约大学助理教授谢赛宁作为第一作者的扩散Transformer论文是Sora的基础，而谢赛宁分析认为Sora参数量约30亿。

2. Runway训练使用2.4 亿张图像，640万个视频；LaVie训练使用50亿张图像，3500万个视频。

3. 假设图像和视频分辨率均为1080p，视频长度和帧数分别为60秒和30fps。

4. patch可理解为大语言模型中的token。patch数量=（图像）分辨率/patch大小，（视频）长度*帧数*分辨率/patch大小。依据Sora技术报告引用的谷歌论文，patch大小可按16*16（像素）取定。按文中假设的训练数据量，不考虑多步去噪，patch数量=10亿*1920*1080/（16*16）+2000万*60*30*1920*1080/（16*16）=299.7万亿（个）。

5. 由于仅测算算力需求，不考虑对应芯片数量，因此无需计算任务用时。

6. 按文中假设的推理任务，不考虑多步去噪，patch数量=60*30*1920*1080/（16*16）=1458万（个）。

7. Azure AI服务含Azure OpenAI 服务和其他一系列面向AI应用开发的API服务。

给作者点赞

0 VS 0

写得不太好

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。