本文翻译自 Gemini 3 Deep Think: Advancing science, research and engineering,原载于 Hacker News。
今天,Google 发布了 Gemini 3 Deep Think 的重大更新——这是一个专门化的推理模式,旨在突破智能的边界,解决现代科学、研究和工程领域的挑战。
与科学家深度合作打造
这次更新是 Google 与科学家和研究人员密切合作的成果。Deep Think 专门针对那些”棘手”的研究挑战——这些问题往往缺乏明确的边界条件或唯一正确答案,数据也常常是杂乱或不完整的。通过将深厚的科学知识与日常工程实用性相结合,Deep Think 不再局限于抽象理论,而是推动实际应用。
新的 Deep Think 现已向 Google AI Ultra 订阅用户开放,同时首次通过 Gemini API 向选定的研究人员、工程师和企业提供早期访问权限。
早期测试者的真实案例
来看看早期测试者是如何使用新版 Deep Think 的:
数学研究突破
Rutgers 大学的数学家 Lisa Carbone 从事高能物理社区所需的数学结构研究,试图弥合爱因斯坦引力理论与量子力学之间的鸿沟。在这个几乎没有现有训练数据的领域,她使用 Deep Think 审阅了一篇高度技术性的数学论文。Deep Think 成功识别出了一个微妙的逻辑缺陷,这个缺陷此前在人类同行评审中一直未被察觉。
材料科学进展
杜克大学的 Wang 实验室利用 Deep Think 优化了复杂晶体生长的制造方法,用于潜在半导体材料的发现。Deep Think 成功设计了一个配方,可以生长出大于 100 μm 的薄膜,达到了此前方法难以实现的精确目标。
工程加速设计
Google 平台与设备部门的 R&D 负责人 Anupam Pathak(前 Liftware CEO)测试了新版 Deep Think,用于加速物理组件的设计。
用数学和算法严谨性提升推理能力
去年,Google 展示了 Deep Think 的专门化版本能够成功应对一些最棘手的推理挑战,在数学和编程世界锦标赛中达到了金牌标准。更近期的进展是,Deep Think 已经能够支持专门化的 Agent 进行研究级别的数学探索。
更新后的 Deep Think 模式继续突破智能的前沿,在最严谨的学术基准测试中取得新高度:
| 基准测试 | 成绩 | 说明 |
|---|---|---|
| Humanity’s Last Exam | 48.4% (无工具) | 旨在测试现代前沿模型极限的基准 |
| ARC-AGI-2 | 84.6% | 由 ARC Prize Foundation 验证 |
| Codeforces | Elo 3455 | 竞争性编程挑战基准 |
| IMO 2025 | 金牌水平 | 国际数学奥林匹克竞赛 |
这些数字可能看起来抽象,但它们代表了一个重要趋势:AI 在需要深度推理的任务上正在快速逼近甚至超越人类专家水平。
跨越复杂科学领域
除了数学和竞争性编程,Gemini 3 Deep Think 现在在化学和物理等广泛科学领域也表现出色。更新后的 Deep Think 模式在 2025 年国际物理奥林匹克竞赛和化学奥林匹克竞赛的笔试部分展示了金牌级别的成绩。它还在高级理论物理方面展现了专业能力,在 CMT-Benchmark 上获得了 50.5% 的分数。
加速现实世界的工程应用
除了最先进的性能,Deep Think 还旨在推动实际应用,使研究人员能够解读复杂数据,工程师能够通过代码对物理系统进行建模。
一个有趣的例子:使用更新后的 Deep Think,你可以将一张草图变成 3D 打印的现实。Deep Think 分析绘图,对复杂形状进行建模,并生成用于 3D 打印创建物理对象的文件。
这种从概念到实物的能力,展示了 AI 如何在工程工作流程中创造实际价值。
获取方式
- Google AI Ultra 订阅用户:即日起可在 Gemini 应用中访问更新后的 Deep Think 模式
- 研究人员、工程师和企业:可以通过 Gemini API 的早期访问计划申请测试权限
个人观察
Deep Think 的演进方向值得关注。与通用大模型不同,它专注于”深度推理”这个特定场景——那些需要多步骤逻辑、跨领域知识整合、以及在不确定性下做出判断的问题。
从工程角度看,Deep Think 代表了一种产品策略:不是追求一个”万能”模型,而是针对特定高价值场景(科学研究、复杂工程)提供专门化能力。这种”专精”路线可能会在专业领域产生更大的实际影响。
另一个有趣的点是 Google 开始通过 API 向研究机构和企业开放 Deep Think。这意味着它不再只是一个”演示”或”实验”,而是正在成为可以集成到实际工作流程中的工具。
关键要点
- 专注场景:Deep Think 专为科学、研究和工程中的复杂推理任务设计
- 顶级性能:在多项权威基准测试中创下新纪录
- 实际应用:从数学论文评审到材料科学,已有真实的研究应用案例
- 逐步开放:从订阅用户扩展到 API 早期访问,正在逐步扩大可用性
对于从事研究或复杂工程工作的开发者来说,Deep Think 值得关注——它可能成为加速你工作的新工具。