本文翻译自 Introducing Sonnet 4.6,原载于 Hacker News。
全面升级的 Sonnet
Claude Sonnet 4.6 是迄今为止最强大的 Sonnet 模型。它在编码、计算机使用(Computer Use)、长上下文推理、智能体规划、知识工作和设计等方面都实现了全面升级。Sonnet 4.6 还在测试版中提供了 1M token 上下文窗口。
对于 Free 和 Pro 计划用户,Sonnet 4.6 现已成为 claude.ai 和 Claude Cowork 的默认模型。价格与 Sonnet 4.5 保持一致,起价为每百万 token $3/$15。
Sonnet 4.6 为更多用户带来了大幅提升的编码能力。在一致性、指令遵循等方面的改进,使得早期体验的开发者们以压倒性优势更倾向于选择 Sonnet 4.6,而非其前身。他们甚至经常更倾向于选择 2025 年 11 月发布的最智能模型——Claude Opus 4.5。
以前需要 Opus 级别模型才能实现的性能——包括在真实世界中有经济价值的办公任务上——现在通过 Sonnet 4.6 就能获得。与前代 Sonnet 模型相比,该模型在计算机使用技能方面也展现出了重大改进。
与每个新 Claude 模型一样,我们对 Sonnet 4.6 进行了广泛的安全评估。总体而言,评估显示它与近期其他 Claude 模型一样安全,甚至更安全。我们的安全研究人员得出结论,Sonnet 4.6 具有”总体上温暖、诚实、亲社会的性格,有时还很风趣,具有非常强的安全行为,并且没有高风险形式错位(misalignment)的重大迹象。”
计算机使用(Computer Use)
几乎每个组织都有一些难以自动化的软件:在 API 等现代接口出现之前构建的专用系统和工具。以前,要让 AI 使用这类软件,用户必须构建定制连接器。但一个能像人一样使用计算机的模型改变了这个等式。
2024 年 10 月,Anthropic 率先推出了通用计算机使用模型。当时,他们写道它”仍然处于实验阶段——有时笨拙且容易出错”,但预期会快速改进。
OSWorld 是 AI 计算机使用的标准基准测试。它展示了数百个跨真实软件(Chrome、LibertyOffice、VS Code 等)在模拟计算机上运行的任务。没有特殊的 API 或专用连接器;模型看到计算机并以与人几乎相同的方式与之交互:点击(虚拟)鼠标和在(虚拟)键盘上打字。
在十六个月里,Sonnet 模型在 OSWorld 上取得了稳步进展。这种改进也体现在基准测试之外:早期 Sonnet 4.6 用户正在看到人类级别的能力,例如导航复杂的电子表格或填写多步骤的网页表单,然后在多个浏览器标签页之间整合信息。
当然,该模型在使用计算机方面仍然落后于最熟练的人类。但进步的速度仍然令人瞩目。这意味着计算机使用对一系列工作任务更有用了——而且能力更强的模型触手可及。
OSWorld 分数对比:Sonnet 4.6 在 OSWorld-Verified 基准测试上取得了显著提升,展示了计算机使用能力的飞跃。
同时,计算机使用也带来风险:恶意行为者可以尝试通过在网站上隐藏指令来劫持模型,这就是所谓的提示注入攻击(Prompt Injection)。Anthropic 一直在努力提高模型对提示注入的抵抗力——安全评估显示,Sonnet 4.6 相比其前身 Sonnet 4.5 有重大改进,性能与 Opus 4.6 相当。
全方位性能评估
除了计算机使用,Claude Sonnet 4.6 在各项基准测试上都有所改进。它以更实用的价格点接近 Opus 级别的智能。
在 Claude Code 中,早期测试发现用户大约 70% 的时间更倾向于选择 Sonnet 4.6 而非 Sonnet 4.5。用户反馈说,它在修改代码前更有效地阅读上下文,并且合并共享逻辑而不是复制它。这使得长时间使用比早期模型更少令人沮丧。
用户甚至在 59% 的情况下更倾向于选择 Sonnet 4.6 而非 Opus 4.5(11 月的前沿模型)。他们评价 Sonnet 4.6 在过度工程化和”懒惰”方面明显较少,在指令遵循方面明显更好。他们报告了更少的虚假成功声明、更少的幻觉,以及更多步骤任务上更一致的执行力。
Sonnet 4.6 的 1M token 上下文窗口足以在单个请求中容纳整个代码库、冗长的合同或数十篇研究论文。更重要的是,Sonnet 4.6 能够在所有这些上下文中有效推理。这使它在长期规划方面更好。
这在 Vending-Bench Arena 评估中表现得尤为明显,该评估测试模型在一段时间内运营(模拟)业务的能力——并且包含竞争元素,不同的 AI 模型相互对抗以获得最大利润。
Sonnet 4.6 开发了一种有趣的新策略:它在前十个月大量投资于产能,支出远超竞争对手,然后在最后阶段急剧转向专注于盈利能力。这个转向的时机帮助它遥遥领先于竞争对手完成比赛。
客户反馈
多家公司在早期测试中给出了积极反馈:
Databricks: “Claude Sonnet 4.6 在 OfficeQA 上与 Opus 4.6 性能匹配,该测试衡量模型读取企业文档(图表、PDF、表格)、提取正确事实并基于这些事实进行推理的能力。这对文档理解工作负载是一个有意义的升级。”
Replit: “Claude Sonnet 4.6 的性能成本比非常出色——很难夸大 Claude 模型最近几个月发展有多快。Sonnet 4.6 在我们的编排评估上表现优异,处理我们最复杂的智能体工作负载,并且推动的努力设置越高,改进越大。”
Cursor: “Claude Sonnet 4.6 在各方面都比 Sonnet 4.5 有显著改进,包括长期任务和更困难的问题。”
GitHub: “开箱即用,Claude Sonnet 4.6 已经在复杂代码修复方面表现出色,特别是当跨大型代码库搜索至关重要时。对于大规模运行智能体编码的团队,我们看到强大的解决率和开发者所需的一致性。”
Cognition: “Claude Sonnet 4.6 在错误检测方面有意义地缩小了与 Opus 的差距,让我们可以并行运行更多审查者,捕获更广泛的错误,而且不增加成本。”
Windsurf: “首次,Sonnet 在更小、更具成本效益的形式因素中带来了前沿级别的推理。如果你是重度 Opus 用户,它提供了一个可行的替代方案。”
Bolt: “Claude Sonnet 4.6 在复杂应用构建和错误修复上提供了前沿级别的结果。它正在成为我们深度代码库工作的首选,这种工作以前需要更昂贵的模型。”
Rakuten: “Claude Sonnet 4.6 为 Rakuten AI 产出了我们测试过的最好的 iOS 代码。更好的规格合规性,更好的架构,并且一次性使用了我们没有要求的现代工具。结果真的让我们惊讶。”
早期客户还报告了广泛的改进,前端代码和财务分析尤为突出。客户独立描述 Sonnet 4.6 的视觉输出明显更加精致,布局、动画和设计感比以前模型的输出更好。客户也需要更少的迭代轮次就能达到生产质量的结果。
产品更新
在 Claude 开发者平台上,Sonnet 4.6 支持自适应思考(adaptive thinking)和扩展思考(extended thinking),以及测试版中的上下文压缩(context compaction),它会在对话接近限制时自动总结较旧的上下文,增加有效上下文长度。
在 API 上,Claude 的网页搜索和获取工具现在自动编写和执行代码来过滤和处理搜索结果,只将相关内容保留在上下文中——同时改善响应质量和 token 效率。此外,代码执行、内存、程序化工具调用、工具搜索和工具使用示例现已正式可用。
Sonnet 4.6 在任何思考努力级别下都提供强大的性能,即使关闭扩展思考。作为从 Sonnet 4.5 迁移的一部分,建议探索整个范围,根据你正在构建的内容找到速度和可靠性能的理想平衡。
对于需要最深推理的任务,Opus 4.6 仍然是最强选择,例如代码库重构、在工作流中协调多个智能体,以及追求完美至关重要的问题。
Claude in Excel 的 MCP 连接器
对于 Claude in Excel 用户,插件现在支持 MCP 连接器,让 Claude 与你日常使用的其他工具配合工作,如 S&P Global、LSEG、Daloopa、PitchBook、Moody’s 和 FactSet。你可以要求 Claude 从电子表格外部引入上下文,而无需离开 Excel。如果你已经在 Claude.ai 中设置了 MCP 连接器,这些相同的连接将自动在 Excel 中工作。这适用于 Pro、Max、Team 和 Enterprise 计划。
如何使用 Claude Sonnet 4.6
Claude Sonnet 4.6 现已在所有 Claude 计划、Claude Cowork、Claude Code、API 和所有主要云平台上可用。他们还将免费层升级为默认使用 Sonnet 4.6——现在包括文件创建、连接器、技能和压缩。
如果你是开发者,可以通过 Claude API 使用 claude-sonnet-4-6 快速开始。
个人感想
Sonnet 4.6 的发布有几个值得关注的点:
-
Sonnet 赶超 Opus 的趋势——用户 59% 的情况下更倾向 Sonnet 4.6 而非 Opus 4.5,这说明中端模型的能力正在快速逼近高端模型。对于成本敏感的应用场景,这是一个重大利好。
-
计算机使用的进步——OSWorld 基准测试上的持续进步令人印象深刻。虽然离人类水平还有差距,但”能够操作的软件范围”正在快速扩大。这对企业自动化老旧系统具有重要意义。
-
Vending-Bench 策略——模型自主发展出”先投资产能、后转向盈利”的策略,展现了长期规划能力的提升。这种”战略性思维”是 Agent 走向实用的关键。
-
1M 上下文窗口——足以容纳整个代码库,这对于代码理解和重构工作非常有价值。上下文压缩功能也很实用,能自动管理对话长度。
-
Excel 中的 MCP 支持——让 AI 能直接在 Excel 中调用外部数据源(S&P、Moody’s 等),这对金融分析工作是实打实的生产力提升。
Sonnet 系列正在成为”性价比之王”——以更低的价格提供接近 Opus 的性能。对于大多数日常开发和分析工作,Sonnet 4.6 可能已经足够了。
关键要点:
- Sonnet 4.6 在编码、计算机使用、推理、规划等领域全面升级
- 1M token 上下文窗口(测试版),支持上下文压缩
- 用户 70% 倾向选择 Sonnet 4.6 胜过 Sonnet 4.5,59% 倾向选择它胜过 Opus 4.5
- 计算机使用能力显著提升,接近人类水平
- 价格保持不变:$3/$15 每百万 token
- Claude in Excel 支持 MCP 连接器,可接入 S&P Global、Moody’s 等数据源
- API 支持
claude-sonnet-4-6模型 ID