Cloud&AI
`
2024/12/30 12:55
不到600万美元,性能匹敌GPT4.0!DeepSeek-V3发布震惊业界
0
0

C114讯 12月30日消息(南山)近日,幻方量化旗下的DeepSeek公司宣布发布全新系列模型DeepSeek-V3首个版本,并同步开源。

DeepSeek-V3为自研MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。

DeepSeek引用评测报告指出,DeepSeek-V3多项评测成绩超越了阿里旗下Qwen2.5-72B和Meta旗下Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

令业界震惊的是,DeepSeek-V3训练仅花费了557.6万美元,在2048xH800集群上运行55天完成,还很坦诚地公布了技术细节。

相比之下,GPT-4o这样的模型训练成本约为1亿美元。

这一成果已经引起海外注意。其中,OpenAI创始成员Karpathy点评称,DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。它看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。

这意味着算力成本的大幅下降,也意味着大模型领域在经历了“百模大战”后,可能会迎来新一轮的大模型产品竞争。

版权说明:凡注明来源为“C114通信网”的文章皆属C114版权所有,除与C114签署内容授权协议的单位外,其他单位未经允许禁止转载、摘编,违者必究。如需使用,请联系021-54451141。其中编译类仅出于传递更多信息之目的,系C114对海外相关站点最新信息的翻译稿,仅供参考,不代表证实其描述或赞同其观点,投资者据此操作,风险自担;翻译质量问题请指正

给作者点赞
0 VS 0
写得不太好

C114简介     联系我们     网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有 举报电话:021-54451141 用户注销