不到600万美元，性能匹敌GPT4.0！DeepSeek-V3发布震惊业界 - Cloud&AI — C114通信网

C114
通信人家园
English
公众号矩阵

投稿
举报

量子大观

通信人家园

C114通信网

光通信观察

DVBCN中广5G

2024/12/30 12:55

不到600万美元，性能匹敌GPT4.0！DeepSeek-V3发布震惊业界

C114通信网南山

0

0

C114讯 12月30日消息（南山）近日，幻方量化旗下的DeepSeek公司宣布发布全新系列模型DeepSeek-V3首个版本，并同步开源。

DeepSeek-V3为自研MoE模型，671B参数，激活37B，在14.8T token上进行了预训练。

DeepSeek引用评测报告指出，DeepSeek-V3多项评测成绩超越了阿里旗下Qwen2.5-72B和Meta旗下Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

令业界震惊的是，DeepSeek-V3训练仅花费了557.6万美元，在2048xH800集群上运行55天完成，还很坦诚地公布了技术细节。

相比之下，GPT-4o这样的模型训练成本约为1亿美元。

这一成果已经引起海外注意。其中，OpenAI创始成员Karpathy点评称，DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。它看起来比Llama 3 405B更强，训练消耗的算力却仅为后者的1/11。

这意味着算力成本的大幅下降，也意味着大模型领域在经历了“百模大战”后，可能会迎来新一轮的大模型产品竞争。

版权说明：凡注明来源为“C114通信网”的文章皆属C114版权所有，除与C114签署内容授权协议的单位外，其他单位未经允许禁止转载、摘编，违者必究。如需使用，请联系021-54451141。其中编译类仅出于传递更多信息之目的，系C114对海外相关站点最新信息的翻译稿，仅供参考，不代表证实其描述或赞同其观点，投资者据此操作，风险自担；翻译质量问题请指正。

给作者点赞

0 VS 0

写得不太好

相关链接

OpenAI

国产GPU力挺！摩尔线程宣布支持满血Deepseek-V3-0324
快科技拾柒3-28
开发效率提升100倍！腾讯云AI代码助手正式搭载DeepSeek-V3-0324顶级模型
快科技建嘉3-28

特别策划

热门文章

人事变动丨朱汉武任中国联通副总经理、党组成员

5/30

北理深汽院：车载光通信破局汽车带宽危机，技术白皮书指引行业发展

5/30

汽车行业迎来“光进铜退”，2025车载光通信产业发展论坛成功举办

5/30

连续十年财务造假：鹏博士终被退市

6/3

全国首个“量子算力城域专网”项目，近日已批复

5/29

最新视频

中国移动锚定低空发展新“三者”定位，加速技术突破与应用落地

6/4

人事变动 | 朱汉武任中国联通副总经理、党组成员

5/30

2025年“磐石行动”现场专访 | 上海市互联网协会副秘书长姜国

5/30

“位置计算”创新献礼百廿校庆：中国铁塔携手复旦大学打造产学研融合新范式

5/29

涉嫌严重违纪违法！湖北联通副总经理吴涛接受审查调查

5/29

为您推荐

C114简介联系我们网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有举报电话：021-54451141 用户注销