C114
通信人家园
English
公众号矩阵

投稿
举报

量子大观

通信人家园

C114通信网

光通信观察

DVBCN中广5G

2024/9/11 13:29

Reflection 70B AI模型“塌房”：第三方基准测试结果不佳，不如LLaMA-3.1-70B

IT之家故渊

0

0

科技媒体 The Decoder 昨日（9 月 10 日）报道，对比平台 Artificial Analysis 相关数据表明，Reflection 70B AI 模型在基准测试中的表现，实际上不及 Meta 的 LLaMA-3.1-70B。

针对 AI 模型基准测试结果不佳，Reflection 公司首席执行官马特舒默（Matt Shumer）表示，上传模型权重至 Hugging Face 时遇到问题，所使用的权重是多个不同模型的混合体，而他们内部托管的模型则显示出更佳的结果。

舒默随后向部分用户提供了独家访问内部模型的权限，Artificial Analysis 重做了测试，并报告结果优于公开 API，只是他们无法确认所访问的具体是哪个模型。

Reflection 在 Hugging Face 已上传了新的模型，不过这些模型在测试中的表现明显逊于之前通过私有 API 提供的模型。

查询公开资料，有用户还发现了证据，表明 Reflection API 有时会调用 Anthropic Claude 3.5 Sonnet 以及 OpenAI。

舒默旗下公司 OthersideAI 此前已宣布计划于本周发布一款基于 LLaMA 3.1 450B 的更大、更强大的模型。

舒默对这一即将发布的版本做出了大胆声明，称其不仅将成为最佳的开源模型，还将是有史以来最优秀的语言模型。

官方回应：

免责声明：本文仅代表作者个人观点，与C114通信网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

给作者点赞

0 VS 0

写得不太好

相关链接

测试 AI OpenAI

网生万象，践履致远：5G Capital围炉谈共绘Mobile AI时代产业新图景
C114通信网蒋均牧6-26
Kimi K2 系列模型 API 官宣下线，将不再维护和支持
IT之家归泷5-26
DeepSeek API输入缓存降价！只有首发价格的1/10
快科技建嘉4-27
DeepSeek-V4 预览版：迈入百万上下文普惠时代
DeepSeek 深度求索4-24

特别策划

热门文章

中国移动G.654光缆集采，长飞、亨通、烽火中标

6/29

中信科移动李铁钧： AI驱动网络价值，筑牢Token 经营根基

6/27

于英涛辞职，王竑弢接任新华三集团总裁兼首席执行官

6/29

中国电信5G无线网八期工程集采：华为、中兴、中信科移动、爱立信中标

6/29

安洁科技收购苏州志烽，进军光模块领域

7/2

最新视频

GTI高级战略总监 Javan Erfanian：6G与AI原生融合会带来更多新范式

7/3

太荒唐！天津移动发短信将“尊敬”写成“奠敬”

7/2

苹果扛不住存储芯片“涨价潮”，紧急洽谈寻求中国供应商

7/2

人事变动 | 邱宝华任中国联通副总经理、党组成员

7/1

中兴通讯亮相MWC26 上海 | 以创新AIOS技术底座，重塑AI商业服务新模式

7/1

为您推荐

C114简介联系我们网站地图

Copyright©1999-2025 c114 All Rights Reserved 沪ICP备12002291号-4

C114通信网版权所有举报电话：021-54451141 用户注销