本文翻译自 Introducing GPT-5.4,原载于 OpenAI 官方博客。
概述
今天,OpenAI 在 ChatGPT(作为 GPT-5.4 Thinking)、API 和 Codex 中发布 GPT-5.4。这是迄今为止功能最强大、效率最高的专业级前沿模型。同时发布的还有 GPT-5.4 Pro,适用于需要在复杂任务上获得最高性能的用户。
GPT-5.4 将近期在推理、编码和智能体工作流方面的最佳进展整合到一个前沿模型中。它融合了 GPT-5.3-Codex 的行业领先编码能力,同时改进了模型在工具、软件环境以及涉及电子表格、演示文稿和文档的专业任务中的工作方式。结果是一个能够准确、高效地完成复杂实际工作的模型——用更少的来回沟通交付您所需的内容。
核心能力
🧠 知识工作
在 GPT-5.2 通用推理能力的基础上,GPT-5.4 在专业人士关心的实际任务上提供了更一致、更精细的结果。
GDPval 基准测试:
- 测试智能体在 44 个职业中完成明确指定知识工作的能力
- GPT-5.4:83.0%(匹配或超越行业专业人士)
- GPT-5.3-Codex:70.9%
- GPT-5.2:70.9%
专业任务表现:
- 电子表格建模(投资银行分析师级别):87.3% vs GPT-5.2 的 68.4%
- 演示文稿生成:68% 的偏好率(相比 GPT-5.2,因更强的美感、视觉多样性和图像生成效果)
- 事实准确性:个体声明错误率降低 33%,完整响应错误率降低 18%(相比 GPT-5.2)
客户评价:
“GPT-5.4 是我们测试过的最好的模型。它现在在我们的 APEX-Agents 基准测试中位居榜首,该基准衡量专业服务工作的模型性能。它擅长创建长期可交付成果,如幻灯片、财务模型和法律分析,在提供顶级性能的同时,运行速度更快,成本低于竞争的前沿模型。” — Brendan Foody,Mercor CEO
“GPT-5.4 为文档密集型法律工作树立了新标杆。在我们的 BigLaw Bench 评估中,它得分 91%。与其他模型相比,GPT-5.4 目前更擅长构建复杂的交易分析,在冗长的合同中保持准确性,并提供法律从业者所需的高水平细节。” — Niko Grupen,Harvey 应用研究主管
💻 计算机操作与视觉
GPT-5.4 是第一个具有原生计算机操作能力的通用模型,标志着开发者和智能体的重大进步。它是目前开发者构建在网站和软件系统中完成实际任务的智能体的最佳可用模型。
核心特性:
- 通过 Playwright 等库编写代码操作计算机
- 响应屏幕截图发出鼠标和键盘命令
- 可通过开发者消息调整行为
- 可配置安全行为以适应不同的风险容忍度
基准测试结果:
| 基准测试 | GPT-5.4 | GPT-5.2 | 人类 |
|---|---|---|---|
| OSWorld-Verified(桌面环境) | 75.0% | 47.3% | 72.4% |
| WebArena-Verified(浏览器使用) | 67.3% | 65.4% | — |
| Online-Mind2Web(浏览器使用) | 92.8% | 70.9% | — |
视觉能力提升:
- MMMU-Pro(视觉理解与推理):81.2% vs GPT-5.2 的 79.5%
- OmniDocBench(文档解析):错误率 0.109 vs GPT-5.2 的 0.140
- 支持高达 10.24M 像素的全保真图像感知(新功能)
客户案例:
“在测量约 30K 个 HOA 和物业税务门户网站的计算机操作性能评估中,GPT-5.4 在第一次尝试时达到 95% 的成功率,三次尝试内达到 100%,而之前的 CUA 模型约为 73-79%。它的会话完成速度快约 3 倍,同时使用的 token 少约 70%,显著提高了规模化的可靠性和成本效率。” — Dod Fraser,Mainstay CEO
🔧 编码能力
GPT-5.4 结合了 GPT-5.3-Codex 的编码优势与领先的知识工作和计算机操作能力,在需要模型使用工具、迭代和减少手动干预的长时运行任务中表现尤为突出。
性能对比:
- SWE-Bench Pro: 57.7%(与 GPT-5.3-Codex 匹配或超越)
- 延迟优化: 在相同推理强度下比 GPT-5.3-Codex 更低延迟
- Fast 模式: 在 Codex 中启用时,提供高达 1.5 倍的 token 速度
实战演示:
发布了实验性 Codex 技能 “Playwright (Interactive)“,允许 Codex 视觉调试 Web 和 Electron 应用,甚至可以在构建应用时进行测试。
主题公园模拟游戏案例:
- 从单个轻量提示词创建完整的等距视角主题公园模拟游戏
- 包含基于瓦片的路径放置、游乐设施和景观建设、客人路径查找、排队和游乐周期
- 使用 Playwright 自动化浏览器游戏测试,通过多轮游戏验证功能
客户反馈:
“GPT-5.4 目前在我们的内部基准测试中处于领先地位。我们的工程师发现它比以前的模型更自然、更果断。它在处理模棱两可的问题时不会自我怀疑,并且主动并行化工作以保持进展。” — Lee Robinson,Cursor 开发者教育副总裁
🔌 工具使用
GPT-5.4 显著改进了模型与外部工具的工作方式。智能体现在可以跨更大的工具生态系统操作,更可靠地选择正确的工具,并以更低的成本和延迟完成多步骤工作流。
工具搜索(Tool Search)
问题: 以前,当模型被赋予工具时,所有工具定义都预先包含在提示中。对于拥有许多工具的系统,这可能给每个请求增加数千甚至数万个 token,增加成本、减慢响应,并挤占模型可能永远不会使用的上下文。
解决方案: 使用工具搜索,GPT-5.4 接收可用工具的轻量列表以及工具搜索能力。当模型需要使用工具时,它可以查找该工具的定义并在那时将其附加到对话中。
效率提升:
- 在 MCP Atlas 基准测试(250 个任务,36 个 MCP 服务器)中
- Token 使用量减少 47%
- 准确率相同
智能体工具调用
GPT-5.4 改进了工具调用,在推理过程中决定何时以及如何使用工具时更准确、更高效。
Toolathlon 基准测试:
- 测试智能体使用现实世界工具和 API 完成多步骤任务的能力
- GPT-5.4:54.6% vs GPT-5.2:45.7%
- 更高准确率,更少轮次
τ2-bench(客服任务):
- 推理强度设为 None(延迟敏感场景)
- GPT-5.4:98.9% vs GPT-5.2:98.7%
改进的 Web 搜索
BrowseComp 基准测试:
- 测量智能体持续浏览网页查找难以定位信息的能力
- GPT-5.4:82.7%(比 GPT-5.2 提升 17 个百分点)
- GPT-5.4 Pro:89.3%(新 SOTA)
实际意义:
- 更擅长回答需要从网络多个来源整合信息的问题
- 可以更持久地跨多轮搜索识别最相关的来源
- 特别适合”大海捞针”式的问题
客户证言:
“GPT-5.4 xhigh 是多步骤工具使用的新 SOTA。Zapier 运行业界最严格的工具使用基准测试,在数百个高级现实工作流中测试模型。GPT-5.4 在以前的模型放弃的地方完成了工作——迄今为止最持久的模型。” — Wade,Zapier CEO
🎯 可操控性
类似于 Codex 在开始工作时概述其方法,ChatGPT 中的 GPT-5.4 Thinking 现在会为更长、更复杂的查询提供前言概述其工作。您还可以在响应过程中添加指令或调整其方向。这使得更容易引导模型达到您想要的精确结果,而无需重新开始或需要多个额外的轮次。
新功能:
- 长复杂查询的前言规划
- 响应过程中可调整方向
- 在困难任务上思考更长时间,同时保持对对话早期步骤的更强意识
可用性:
- chatgpt.com 和 Android 应用:现已推出
- iOS 应用:即将推出
🛡️ 安全性
在过去的几个月里,OpenAI 继续改进了 GPT-5.3-Codex 引入的安全措施,同时为 GPT-5.4 的部署做准备。
网络安全能力分类:
- 根据 Preparedness Framework,将 GPT-5.4 视为 High cyber capability
- 部署相应的保护措施(详见系统卡片)
安全措施包括:
- 扩展的网络安全栈
- 监控系统
- 可信访问控制
- Zero Data Retention (ZDR) 表面上的高风险请求异步阻止
- 对更广泛安全生态系统的持续投资
思维链(CoT)可监控性:
- 引入新的开源评估:CoT controllability
- 测量模型是否可以故意混淆其推理以逃避监控
- 发现: GPT-5.4 Thinking 控制 CoT 的能力很低(正面特性)
- 表明模型缺乏隐藏推理的能力,CoT 监控仍然是有效的安全工具
双重用途考量: 由于网络安全能力本质上是双重用途的,OpenAI 在部署时保持预防性方法,同时继续校准政策和分类器。
可用性与定价
推出计划
ChatGPT:
- GPT-5.4 Thinking: 今天开始向 Plus、Team 和 Pro 用户推出,取代 GPT-5.2 Thinking
- GPT-5.2 Thinking: 将在付费用户的模型选择器中保留三个月(Legacy Models 部分),于 2026 年 6 月 5 日退役
- GPT-5.4 Pro: 适用于 Pro 和 Enterprise 计划
- Enterprise 和 Edu 计划用户可通过管理员设置启用早期访问
Codex:
- 逐步推出
- 包含对 1M 上下文窗口的实验性支持
- 超过标准 272K 上下文窗口的请求以正常速率的 2 倍计入使用限制
API:
- gpt-5.4: 现已可用
- gpt-5.4-pro: 现已可用(最复杂任务的最大性能)
定价
API 定价(每百万 token):
| 模型 | 输入价格 | 缓存输入价格 | 输出价格 |
|---|---|---|---|
| gpt-5.2 | $1.75 | $0.175 | $14 |
| gpt-5.4 | $2.50 | $0.25 | $15 |
| gpt-5.2-pro | $21 | — | $168 |
| gpt-5.4-pro | $30 | — | $180 |
定价说明:
- Batch 和 Flex 定价为标准 API 费率的一半
- Priority 处理为标准 API 费率的两倍
- 虽然 GPT-5.4 每个 token 价格高于 GPT-5.2,但其更高的 token 效率有助于减少许多任务所需的总 token 数
评估结果总览
专业工作评估
| 评估项目 | GPT-5.4 | GPT-5.4 Pro | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|---|
| GDPval | 83.0% | 82.0% | 70.9% | 70.9% |
| FinanceAgent v1.1 | 56.0% | 61.5% | 54.0% | 59.5% |
| 投资银行建模任务 | 87.3% | 83.6% | 79.3% | 68.4% |
| OfficeQA | 68.1% | — | 65.1% | 63.1% |
编码评估
| 评估项目 | GPT-5.4 | GPT-5.4 Pro | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|---|
| SWE-Bench Pro | 57.7% | — | 56.8% | 55.6% |
| Terminal-Bench 2.0 | 75.1% | — | 77.3% | 62.2% |
计算机操作与视觉
| 评估项目 | GPT-5.4 | GPT-5.4 Pro | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|---|
| OSWorld-Verified | 75.0% | — | 74.0% | 47.3% |
| MMMU Pro(无工具) | 81.2% | — | — | 79.5% |
| MMMU Pro(有工具) | 82.1% | — | — | 80.4% |
工具使用
| 评估项目 | GPT-5.4 | GPT-5.4 Pro | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|---|
| BrowseComp | 82.7% | 89.3% | 77.3% | 65.8% |
| MCP Atlas | 67.2% | — | — | 60.6% |
| Toolathlon | 54.6% | — | 51.9% | 45.7% |
| Tau2-bench Telecom | 98.9% | — | — | 98.7% |
学术评估
| 评估项目 | GPT-5.4 | GPT-5.4 Pro | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|---|
| Frontier Science Research | 33.0% | 36.7% | — | 25.2% |
| FrontierMath Tier 1-3 | 47.6% | 50.0% | — | 40.7% |
| FrontierMath Tier 4 | 27.1% | 38.0% | — | 18.8% |
| GPQA Diamond | 92.8% | 94.4% | 92.6% | 92.4% |
| Humanity’s Last Exam(无工具) | 39.8% | 42.7% | — | 34.5% |
| Humanity’s Last Exam(有工具) | 52.1% | 58.7% | — | 45.5% |
长上下文评估
| 评估项目 | GPT-5.4 | GPT-5.2 |
|---|---|---|
| Graphwalks BFS 0K-128K | 93.0% | 94.0% |
| Graphwalks BFS 256K-1M | 21.4% | — |
| MRCR v2 8-needle 128K-256K | 79.3% | 77.0% |
| MRCR v2 8-needle 256K-512K | 57.5% | — |
| MRCR v2 8-needle 512K-1M | 36.6% | — |
抽象推理
| 评估项目 | GPT-5.4 | GPT-5.4 Pro | GPT-5.2 | GPT-5.2 Pro |
|---|---|---|---|---|
| ARC-AGI-1(已验证) | 93.7% | 94.5% | 86.2% | 90.5% |
| ARC-AGI-2(已验证) | 73.3% | 83.3% | 52.9% | 54.2% |
重要说明
GPT-5.4 是 OpenAI 的第一个:
- 将 GPT-5.3-codex 的前沿编码能力整合到主线推理模型中
- 在 ChatGPT、API 和 Codex 中同时推出的模型
OpenAI 将其命名为 GPT-5.4 以反映这一飞跃,并简化在 Codex 中使用时的模型选择。随着时间的推移,Instant 模型和 Thinking 模型将以不同的速度演进。
总结
GPT-5.4 的关键突破:
- 知识工作: 在 44 个职业中达到或超越专业人士水平(83.0%)
- 计算机操作: 首个原生支持计算机操作的通用模型(OSWorld 75.0%,超越人类)
- 编码能力: 结合 GPT-5.3-Codex 的优势,延迟更低
- 工具使用: 工具搜索减少 47% token 使用,工具调用更准确高效
- 长上下文: 支持高达 1M token 上下文窗口
- 安全性: 低 CoT 可控性,难以隐藏恶意意图
适用场景:
- 复杂知识工作(电子表格、文档、演示文稿)
- 智能体工作流(跨应用自动化)
- 软件开发(前端、后端、测试)
- 数据分析(财务建模、研究报告)
- Web 自动化(浏览器操作、数据抓取)
GPT-5.4 标志着 AI 助手从对话工具向真正的生产力引擎的转变,能够独立完成复杂的端到端工作流程。