C114讯 5月14日消息(颜翊)今日凌晨,OpenAI举行了一场发布会,正式发布了一款最新的GPT-4o多模态大模型。
OpenAI介绍,与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色,可以在232毫秒内对音频输入做出反应,平均响应速度为320毫秒,这与人类在对话中的反应时间相近。而GPT-3.5和GPT-4用户以语音模式Voice Mode与ChatGPT对话的平均延迟时间为2.8秒和5.4秒。
在发布会演示中,GPT-4o甚至能够从OpenAI高管的喘气声中理解“紧张”的含义,并且指导他进行深呼吸。
该大模型可以处理50种不同的语言,并实时对音频、视觉和文本进行推理。相比GPT-4 Turbo,GPT-4o的速度快两倍,成本降低50%,API速率限制提高五倍。
OpenAI官网显示,GPT-4o将对用户免费开放,免费用户可获得分析数据、帮助总结、写作等功能。
OpenAI的CEO Sam Altman发布博客文章表示,“新的语音(和视频)模式是我用过的最佳计算机界面。感觉(GPT-4o)就像电影里的AI一样。它的成真让我感到惊讶。”