NEE's Blog

Mercury 2:基于扩散模型的世界最快推理大语言模型

February 25, 2026

本文翻译自 Introducing Mercury 2,原载于 Hacker News。


今天,Inception Labs 正式发布 Mercury 2 —— 全球最快的推理语言模型(reasoning LLM),专为让生产环境 AI 实现即时响应而打造。

为什么速度现在如此重要?

生产环境的 AI 应用早已不是”一次提示、一次回答”那么简单了。现在的 AI 系统是各种循环的组合:智能体(Agents)、检索流水线(Retrieval Pipelines)、后台批量提取任务——这些都在大规模并发运行。

在这些循环中,延迟不仅仅出现一次,而是会在每一步、每一个用户、每一次重试中不断累积放大。

然而,当前的大语言模型仍然共享同一个瓶颈:自回归(autoregressive)的顺序解码。一个 token 接一个 token,从左到右依次生成。

新的基石:用于实时推理的扩散模型

Mercury 2 打破了顺序解码的限制。它通过并行优化(parallel refinement)来生成响应——同时产生多个 token,在少量步骤内逐步收敛。

打个比方:传统模型像打字机逐字输出,而 Mercury 2 更像编辑同时修改整篇草稿。

结果:生成速度提升 5 倍以上,拥有根本不同的速度曲线。

这种速度优势也改变了推理的权衡。今天,更高的智能意味着更多的测试时计算(test-time compute)——更长的推理链、更多的采样、更多的重试——这些都直接牺牲了延迟和成本。

而基于扩散模型的推理,让你在实时延迟预算内获得推理级别的质量。

Mercury 2 概览

Mercury 2 重塑了生产部署的质量-速度曲线:

特性 参数
速度 NVIDIA Blackwell GPU 上达到 1,009 tokens/秒
价格 输入 $0.25/100万 tokens,输出 $0.75/100万 tokens
质量 与主流速度优化模型具有竞争力
特性 可调推理深度 · 128K 上下文 · 原生工具调用 · Schema 对齐的 JSON 输出

我们优化的目标是用户真正能感受到的速度:用户交互时的响应性——高并发下的 p95 延迟、稳定的回合间表现、系统繁忙时的稳定吞吐量。

“Inception 的 Mercury 2 展示了当新模型架构遇上 NVIDIA AI 基础设施时可能实现的目标。在 NVIDIA GPU 上突破每秒 1,000 tokens,凸显了我们平台在支持全谱系 AI 工作负载方面的性能、可扩展性和多功能性。”

— Shruti Koparkar,NVIDIA 加速计算集团高级产品经理

Mercury 2 在生产环境中的应用场景

Mercury 2 在延迟敏感、用户体验不可妥协的应用场景中表现出色。

1. 编码和编辑

自动补全、下一次编辑建议、代码重构、交互式代码助手——这些场景中开发者在循环中,任何停顿都会打断心流。

“建议的到来速度足够快,感觉就像你自己思考的一部分,而不是需要等待的东西。”

— Max Brunsfeld,Zed 联合创始人

2. 智能体循环(Agentic Loops)

智能体工作流每个任务需要串联数十次推理调用。减少每次调用的延迟不仅能节省时间,还能改变你能负担得起运行多少步骤,以及最终输出有多好。

“我们正在利用最新的 Mercury 模型来智能优化大规模营销活动执行。通过实时提供洞察并动态增强交付,我们正在推动更强的性能、更高的效率,以及更有韧性、AI 驱动的广告生态系统。”

— Adrian Witas,Viant 高级副总裁、首席架构师

“我们一直在评估 Mercury 2,因为它无与伦比的延迟和质量组合,对于实时转录清理和交互式人机交互应用特别有价值。没有其他模型能接近 Mercury 提供的速度!”

— Sahaj Garg,Wispr Flow CTO & 联合创始人

“Mercury 2 至少比 GPT-5.2 快两倍,这对我们来说是游戏规则改变者。”

— Suchintan Singh,Skyvern CTO & 联合创始人

3. 实时语音和交互

语音接口有 AI 中最紧张的延迟预算。Mercury 2 让推理级别的质量在自然语音节奏内成为可能。

“我们构建逼真的 AI 视频化身,与真人进行实时对话,所以低延迟不是锦上添花,而是一切。Mercury 2 在我们的语音技术栈中是一个重大突破:快速、一致的文本生成,让整个体验感觉自然和人性化。”

— Max Sapo,Happyverse AI CEO & 联合创始人

“Mercury 2 的质量非常出色,模型的低延迟使语音助手更具响应性。”

— Oliver Silverstein,OpenCall CEO & 联合创始人

4. 搜索和 RAG 流水线

多跳检索(multi-hop retrieval)、重排序(reranking)和摘要的延迟会快速堆积。Mercury 2 让你可以在搜索循环中添加推理,而不会超出延迟预算。

“我们与 Inception 的合作使我们的搜索产品的实时 AI 变得实用。每一个 SearchBlox 客户——无论是客户支持、合规、风险、分析还是电子商务——都能从所有数据的亚秒级智能中受益。”

— Timo Selvaraj,SearchBlox 首席产品官

开始使用

Mercury 2 现已上线。

Mercury 2 兼容 OpenAI API。直接接入你现有的技术栈——无需重写代码。

如果你正在进行企业评估,我们将与你合作进行工作负载适配、评估设计,以及在你预期服务约束下的性能验证。

Mercury 2 已上线。欢迎进入扩散时代。


译者按:扩散 LLM vs 自回归 LLM

扩散模型(Diffusion Model)在图像生成领域已经取得了巨大成功(如 Stable Diffusion、DALL-E、Midjourney),但将其应用于文本生成一直是个难题。Inception Labs 的 Mercury 系列是首批成功将扩散架构商业化的语言模型。

核心架构差异

特性 自回归模型 (GPT、Claude 等) 扩散模型 (Mercury)
生成方式 逐 token 顺序生成 并行生成 + 迭代精炼
速度瓶颈 每步只能生成一个 token 可同时处理多个 token
延迟特性 随输出长度线性增长 相对固定的步数
适用场景 复杂推理、长文本创作 实时交互、代码补全、语音

技术原理简述

传统扩散模型在图像等连续数据上表现出色,但文本是离散数据(token),无法直接应用。Mercury 采用的技术路线是:

  1. 从掩码开始:模型从被遮蔽(masked)的 token 序列开始
  2. 逐步去噪:通过多步迭代,逐步预测和恢复被遮蔽的 token
  3. 并行处理:每一步可以同时处理多个位置,而非逐个预测

这种方法与 BERT 的掩码语言模型(MLM)预训练有相似之处,但 Mercury 将其扩展到了完整的生成任务。

行业趋势

Mercury 2 的发布标志着语言模型架构多元化的重要一步。值得注意的是,Google DeepMind 也在探索扩散语言模型(Gemini Diffusion),这可能是继 MoE(混合专家)架构之后的下一个重要范式转变。

对于开发者而言,扩散 LLM 提供了一个新的工具选择——当你需要极致响应速度时,它可能比传统自回归模型更适合。

comments powered by Disqus