OpenAl o1大模型：原理、突破、前景及影响

天翼智库

北京时间2024年9月13日凌晨，OpenAI正式发布了新的人工智能模型o1（o是orion猎户座，1代表从头再来，也意味着后续将出现更多序列），就是此前OpenAI一直在高调宣传的草莓大模型。OpenAI没有延续使用GPT序列，可见其与传统预训练模型有新的变革性训练方法和功能，o1具备复杂推理能力，解决比目前专业的科学、代码和数学模型所能解决的更难的问题。值得注意的是，相比GPT-4o等其他大模型，o1推理时间较长、使用成本更高，在不需要复杂推理的场景并没有明显优势，也意味着o1并非GPT-4o的替代品，两者将并存，未来不排除实现融合。

基本原理：自我对弈强化学习+思维链+推理标记+定制数据集

一是采用大规模自我对弈强化学习（Self-play RL），设置奖惩机制，让模型自行学习解决问题。这种方法类似于人类通过不断尝试和纠错来掌握新技能。二是内置思维链（CoT），能够在解决问题前通过内置思维链进行推导，并将其推理过程外化，使得模型的决策过程更为透明，便于理解和验证。三是引入推理标记，用于辅助模型在对话环境中进行深层思考。四是使用专门的训练数据集，包含了大量复杂问题和对应的解题步骤，有助于模型掌握推理能力。

能力突破：复杂推理能力超强，数学、编码和科学尤为出色

o1在一系列超过一般人能力的需要复杂推理的高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升。一是数学和编码能力超强，在国际数学奥林匹克竞赛（IMO）中，o1解答正确率高达83%，显著优于GPT-4o的13%。在知名的在线编程比赛Codeforces中，o1拿到89%的百分位，GPT-4o仅为11%。二是在科学领域应用方面，OpenAI声称o1的未来版本将在物理、化学和生物学等学科的高难度基准任务上超越人类专家的表现。三是安全性显著提升，在最难的越狱测试中o1预览版得84分，远超GPT-4o的22分。

　　图片来源：OpenAI

潜在应用场景：专业化研究领域，替代更多脑力劳动成为可能

o1的推出预示着AI将在多个专业化领域展现出新的更优秀的应用潜力，例如科学研究、软件编程、教育等目前已有大模型只是起到初步辅助作用的领域。在科研领域，它可以帮助研究人员进行数据分析和模型构建，如o1可以被医疗保健研究人员用来注释细胞测序数据，被物理学家用来生成量子光学所需的复杂数学公式。在软件开发中，可以用来构建和执行多步骤工作流程，在编程中提供代码生成、调试和优化等帮助。在教育领域，可以帮助学生解决复杂的逻辑、计算及编程问题。此外，o1还可以用于安全研究、市场分析、智能助手、创意设计等多个专业领域。

对大模型发展的影响和趋势

一是o1是向AGI迈进的重要一步。o1在解决复杂问题时能够进行深入的思考，并通过内部的思考链来逐步解决问题，这在一定程度上模拟了人类的慢思考过程，展示了向AGI迈进的潜力。它的出现将加快AGI相关研究的进展，并有助于开发出更加高级的AI系统。

二是开启大模型能力提升的新范式，强化学习带来新的Scaling Law。o1模型的性能会随着强化学习时间（训练时计算量）和推理时间（测试时计算量）的增加而显著提高。这种基于推理的训练方式与传统的大规模预训练方式（通过增加参数量和数据量）不同，具有独特的扩展性优势。这表明除了参数量和数据量之外，强化学习可以成为提高模型能力的重要范式，这为未来的大模型发展指明了新的方向。

三是算力需求增大，智算集群从万卡向十万卡演进。o1印证了最近几个月头部AI公司形成的新共识：后训练的重要程度在提高，需要的计算资源可能在未来超过预训练。近期OpenAI、xAI和META均加大算力投入，先后宣布推出十万卡集群，将进一步提升大模型竞争的壁垒。

四是大模型头部公司虹吸效应凸显。随着o1的推出，OpenAI再次拉开了与其它大模型的距离，其“ARPU”值和用户粘性将提升，进一步提升了商业变现能力。目前ChatGPT的付费用户已经超过了1100万，这意味着ChatGPT每月至少能产生2.25亿美元的收入。

本文作者