不到600万美元，性能匹敌GPT4.0！DeepSeek-V3发布震惊业界

C114通信网南山

C114讯 12月30日消息（南山）近日，幻方量化旗下的DeepSeek公司宣布发布全新系列模型DeepSeek-V3首个版本，并同步开源。

DeepSeek-V3为自研MoE模型，671B参数，激活37B，在14.8T token上进行了预训练。

DeepSeek引用评测报告指出，DeepSeek-V3多项评测成绩超越了阿里旗下Qwen2.5-72B和Meta旗下Llama-3.1-405B等其他开源模型，并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

令业界震惊的是，DeepSeek-V3训练仅花费了557.6万美元，在2048xH800集群上运行55天完成，还很坦诚地公布了技术细节。

相比之下，GPT-4o这样的模型训练成本约为1亿美元。

这一成果已经引起海外注意。其中，OpenAI创始成员Karpathy点评称，DeepSeek-V3让在有限算力预算上进行模型预训练这件事变得容易。它看起来比Llama 3 405B更强，训练消耗的算力却仅为后者的1/11。

这意味着算力成本的大幅下降，也意味着大模型领域在经历了“百模大战”后，可能会迎来新一轮的大模型产品竞争。

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

给作者点赞

0 VS 0

写得不太好