C114通信网  |  通信人家园

移动平台
2024/12/30 12:55

不到600万美元,性能匹敌GPT4.0!DeepSeek-V3发布震惊业界

C114通信网  南山

C114讯 12月30日消息(南山)近日,幻方量化旗下的DeepSeek公司宣布发布全新系列模型DeepSeek-V3首个版本,并同步开源。

DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。

DeepSeek引用评测报告指出,DeepSeek-V3多项评测成绩超越了阿里旗下Qwen2.5-72B和Meta旗下Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

令业界震惊的是,DeepSeek-V3训练仅花费了557.6万美元,在2048xH800集群上运行55天完成,还很坦诚地公布了技术细节。

相比之下,GPT-4o这样的模型训练成本约为1亿美元。

这一成果已经引起海外注意。其中,OpenAI创始成员Karpathy点评称,DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。它看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。

这意味着算力成本的大幅下降,也意味着大模型领域在经历了“百模大战”后,可能会迎来新一轮的大模型产品竞争。

给作者点赞
0 VS 0
写得不太好

免责声明:本文仅代表作者个人观点,与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

热门文章
    最新视频
    为您推荐

      C114简介 | 联系我们 | 网站地图 | 手机版

      Copyright©1999-2025 c114 All Rights Reserved | 沪ICP备12002291号

      C114 通信网 版权所有 举报电话:021-54451141