Step 3.5 Flash：196B参数的开源推理模型，每秒350 token的极致速度

February 19, 2026

本文翻译自 Step 3.5 Flash，原载于 Hacker News。

引言

在 AI 模型竞赛中，我们习惯了”更大就是更好”的逻辑。但 Step AI 最近发布的 Step 3.5 Flash 提出了一个不同的思路：智能密度（intelligence density）比单纯的参数规模更重要。

这个模型拥有 196B 总参数，但每个 token 仅激活 11B 参数——这意味着它能在保持前沿推理能力的同时，实现每秒 100-350 token 的生成速度。更令人印象深刻的是，它可以在 Mac Studio M4 Max 这样的消费级硬件上本地运行。

核心特性

1. 极速推理

“聊天机器人是用来阅读的，但智能体必须快速推理。”

Step 3.5 Flash 采用 3-way Multi-Token Prediction (MTP-3) 技术，在典型使用场景下达到 100-300 tok/s 的生成速度，单流编程任务峰值可达 350 tok/s。

这为什么重要？因为 Agent（智能体）应用需要实时响应。当模型在进行多步推理链时，用户不能等待每一秒的延迟。高速生成让复杂的多步推理能够即时响应，这对实际应用至关重要。

2. 代码与 Agent 能力

模型专门为 Agentic 任务优化，集成了可扩展的强化学习框架：

基准测试	得分
SWE-bench Verified	74.4%
Terminal-Bench 2.0	51.0%

这证明了模型处理复杂、长周期任务的稳定性。在 Agent 场景中，稳定性比偶尔的高光时刻更重要。

3. 高效长上下文

支持 256K 上下文窗口，采用 3:1 的 Sliding Window Attention (SWA) 比例——每三层 SWA 搭配一层全注意力层。

这种混合方案确保了在处理大规模数据集或长代码库时的一致性表现，同时显著降低了标准长上下文模型的计算开销。

4. 本地部署

这是最让我兴奋的特性：Step 3.5 Flash 可以在高端消费级硬件上运行：

Mac Studio M4 Max
NVIDIA DGX Spark
AMD AI Max+ 395

这意味着数据隐私可以得到 100% 保障，无需牺牲性能。在 NVIDIA DGX Spark 128GB 设备上，模型达到 20 tok/s 的生成速度，通过 INT8 量化技术支持 256K token 的上下文窗口。

架构设计

Step 3.5 Flash 的架构体现了 模型-系统协同设计 的理念，将推理成本和速度作为核心架构约束：

┌─────────────────────────────────────────────┐
│  Sparse MoE Backbone (196B total params)    │
│  └─ 11B activated per token                  │
├─────────────────────────────────────────────┤
│  Hybrid Attention (3:1 SWA : Full)          │
│  └─ Augmented query-head count (64→96)      │
│  └─ Head-wise Gated Attention               │
├─────────────────────────────────────────────┤
│  Multi-Token Prediction (MTP-3)             │
│  └─ Parallel verification                   │
│  └─ Up to 350 TPS on Hopper GPUs            │
└─────────────────────────────────────────────┘

几个关键技术点：

Sliding-Window Attention 而非线性注意力替代方案，以保持推测解码所需的架构灵活性
Query-head 增强：SWA 层的 query-head 从 64 增加到 96，在不扩展缓存占用的情况下增强表征能力
Head-wise Gated Attention：作为输入依赖的 attention sink，保持数值稳定性

强化学习框架：MIS-PO

Step 3.5 Flash 引入了 Metropolis Independence Sampling Filtered Policy Optimization (MIS-PO)，这是一个可扩展的强化学习框架。

传统 RL 管道存在两个挑战：

训练-推理不匹配：由系统间的数值和架构差异引起
Off-policy 漂移：策略在演化时 rollouts 落后

MIS-PO 的创新在于：用严格样本过滤替代脆弱的重要性加权。不再像 PPO 那样用连续的重要性采样比率来缩放梯度，而是将这些比率仅作为二元接受标准：

似然偏差过大的轨迹被排除
接受的样本被视为有效 on-policy

这显著降低了梯度方差，实现了稳定的长时域优化。

性能基准

综合评分

在 Reasoning、Coding 和 Agentic Tasks 三个维度的综合评估中：

模型	参数量	平均分
Step 3.5 Flash	196B	81.0
DeepSeek V3.2	671B	77.3
GLM-4.7	355B	78.5
Kimi K2.5	1000B	80.5

推理能力

基准测试	Step 3.5 Flash	DeepSeek V3.2	GLM-4.7
AIME 2025	97.3	93.1	95.7
HMMT 2025 (Feb.)	98.4	92.5	97.1
IMOAnswerBench	85.4	78.3	82.0

编程能力

基准测试	Step 3.5 Flash	DeepSeek V3.2	GLM-4.7
LiveCodeBench-V6	86.4	83.3	84.9
SWE-bench Verified	74.4	73.1	73.8
Terminal-Bench 2.0	51.0	46.4	41.0

Agent 能力

基准测试	Step 3.5 Flash	DeepSeek V3.2	Kimi K2.5
τ²-Bench	88.2	85.2	85.4
BrowseComp (w/ Context Manager)	69.0	67.6	74.9
ResearchRubrics	65.3	55.8	59.5

实际应用案例

股票投资分析

用户请求为现有投资组合生成专业交易建议，同时管理云端归档和自动提醒。Step 3.5 Flash 作为中央控制器：

编排 80+ MCP 工具聚合市场数据和技术指标
执行原始代码计算自定义金融指标和可视化
自动触发云存储协议和调度通知系统

这展示了模型在单一会话中将复杂意图映射到高密度工具使用的能力。

专业数据分析

在 Claude Code 环境中进行的 50 个端到端任务基准测试（反映互联网后端数据分析的复杂性）：

模型	得分
Claude Opus 4.5	45.0%
Step 3.5 Flash	39.6%
GPT-5.2	39.3%
Gemini 3.0 Pro	33.6%

Step 3.5 Flash 能够独立处理数据摄取、清洗、特征构建和结果解释。

深度研究能力

使用 Scale AI Research Rubrics 评估：

模型	得分
Step 3.5 Flash	65.3%
Gemini DeepResearch	63.7%
OpenAI DeepResearch	60.7%
Qwen DeepResearch	49.2%

Step 3.5 Flash 通过基于 ReAct 架构的单智能体循环，实现了与 OpenAI 和 Gemini Deep Research 相当的研究质量，同时保持更高的推理效率。

已知问题与未来方向

文章也诚实地指出了当前的局限性：

Token 效率：Step 3.5 Flash 实现了前沿级智能体智能，但目前需要比 Gemini 3.0 Pro 更长的生成轨迹才能达到相当的质量。
高效通用精通：目标是统一通才性与深度领域专业知识，正在推进 on-policy distillation 变体。
更多 Agentic 任务的 RL：下一前沿是将 RL 应用于专业工作、工程和研究中的复杂专家级任务。
操作范围和约束：模型针对编程和工作任务优化，但在分布偏移时稳定性可能降低——通常发生在高度专业化的领域或长时域多轮对话中。

如何使用

OpenClaw 集成

# 安装
curl -fsSL https://openclaw.ai/install.sh | bash

# 配置
openclaw onboard

在 WebUI 中添加新提供商：

Type: openai-completions
Base URL: https://api.stepfun.ai/v1
Model ID: step-3.5-flash (Context: 256000)

本地部署

INT4 量化的 GGUF 格式权重已发布，支持在消费级硬件上运行。

个人思考

Step 3.5 Flash 的发布传递了一个重要信号：AI 模型的竞争正在从”谁更大”转向”谁更高效”。

对于开发者来说，这个模型的几个特点特别值得关注：

本地部署的可行性：196B 参数听起来很大，但 11B 激活量意味着普通开发者也能在本地运行前沿级模型。这对数据隐私敏感的应用场景是重大利好。
速度与质量的平衡：350 tok/s 的速度不是噱头，而是 Agent 应用的刚需。当模型需要多步推理、工具调用时，每一秒的延迟都会累积。
MoE 架构的成熟：稀疏激活不再是实验性技术，而是已经能够在生产环境中稳定运行的方案。
RL 框架的创新：MIS-PO 展示了如何让强化学习在规模上变得可靠——这对于持续改进模型能力至关重要。

当然，这并不意味着超大模型没有价值。但对于大多数实际应用场景，”够快、够好、能本地运行”可能比”最强但只能云端调用”更有意义。

关键要点

196B 总参数，11B 激活：通过 MoE 架构实现高效推理
350 tok/s 峰值速度：MTP-3 技术实现并行 token 验证
256K 上下文：3:1 SWA 混合注意力，降低计算开销
本地可运行：支持 Mac Studio M4 Max、NVIDIA DGX Spark
前沿级性能：在推理、编程、Agent 任务上与顶级闭源模型相当
开源可用：API、Web、App 多种访问方式，GGUF 权重已发布

Step 3.5 Flash 代表了一种不同的 AI 发展路径：不是无止境地追求更大，而是追求更高效、更实用、更易获取。这可能是让 AI 从”演示”走向”日常工具”的关键一步。