NCA 预预训练：用神经细胞自动机为语言模型提供合成数据

March 19, 2026

本文翻译自 Training Language Models via Neural Cellular Automata，原载于 Hacker News。

核心问题：我们正在耗尽文本数据

大语言模型是”饥饿”的。它们需要指数级增长的数据才能持续进步，而高质量的自然语言预计将在 2028 年耗尽。更糟糕的是，互联网文本携带了人类的偏见，并且将知识与推理纠缠在一起，使得我们难以控制模型真正学到了什么。

这引出了一个根本性的问题：自然语言是通往智能的唯一路径吗？

研究者的核心假设是：使语言对预训练有用的不是其语义，而是其结构。如果这个假设成立，那么结构丰富的非语言数据也应该有效。

方法：神经细胞自动机作为合成燃料

神经细胞自动机（Neural Cellular Automata，NCA）是 Conway 生命游戏的泛化版本，区别在于用神经网络替代了固定的规则。每个随机采样的网络定义一个唯一的转换规则，在网格上产生多样化的时空动态。

当这些动态在长时间范围内展开时，会产生丰富的行为谱系——从收敛到固定吸引子状态的简单模式，到随时间逐渐涌现的复杂结构。

这些 NCA 轨迹被分词成序列（使用 2×2 的 patch，类似于视觉 transformer），然后输入到标准的 transformer 中进行下一个 token 预测。关键在于：由于每个序列都有一个独特的潜在规则，模型必须在上下文中推断该规则才能预测接下来会发生什么。这种上下文学习能力正是语言模型许多关键推理能力的基础。

训练分为三个阶段：

Pre-pre-train（预预训练）：164M NCA tokens，合成动态数据
Pre-train（预训练）：自然语言，包括网页、数学、代码（4-13B tokens）
Fine-tune（微调）：特定任务，指令微调（<1B tokens）

结果：令人惊讶的收益

在匹配的 token 预算下（各 164M tokens），NCA 预预训练在网页文本、数学和代码领域始终优于从零开始训练、在自然语言（C4）上预预训练、以及其他合成数据（Dyck）上预预训练。这种提升不仅体现在更快的收敛速度上，还体现在更好的最终困惑度。

各领域最终困惑度（↓ 越低越好）

数据集	Scratch	C4	Dyck	NCA
OpenWebText	14.66	14.69	14.35	13.82 (-5.7%)
OpenWebMath	8.11	8.14	7.91	7.70 (-5.2%)
CodeParrot	1.92	1.88	1.85	1.84 (-4.2%)

这些语言建模的提升还能迁移到真实推理基准测试：

基准测试	Scratch	C4	Dyck	NCA
GSM8K（数学）	3.82%	3.81%	4.10%	4.36%
HumanEval（代码）	6.75%	6.27%	6.90%	7.49%
BigBench-Lite（推理）	20.91%	22.76%	18.10%	26.51%

更令人震惊的发现

研究者进一步探索：如果给 C4 ~10 倍更多的数据会怎样？他们将 C4 预预训练扩展到 16 亿 tokens，而 NCA 保持在 1.64 亿。即使有这个数据优势，NCA 仍然收敛快 1.4 倍，最终困惑度好 5%。

1.64 亿自动机 tokens 击败了 16 亿自然语言 tokens。

研究者认为这种差异反映了每个数据源在每个规模上所教授的内容。在 16 亿 tokens——远低于计算最优规模——C4 主要教授浅层的局部模式，而每个 NCA 序列训练模型从上下文中推断潜在规则（即上下文学习）并一致地应用它。这种在函数而非冗余语言模式上的每 token 多样性，似乎在构建可迁移到语言通用表示方面更有效率。

关键洞察：什么驱动了迁移？

Attention 是载体

重新初始化实验表明，attention 层捕获了最可迁移的计算原语。MLP 编码特定领域的知识——只有在源和目标对齐时才可迁移。

复杂度必须匹配

最优 NCA 复杂度因领域而异：代码受益于更简单的动态，而数学和网页文本偏好更复杂的动态。这为针对性训练开辟了一个新的杠杆。

结构，而非语义

NCA 数据没有任何语言内容——但教会模型追踪长程依赖关系和推断潜在规则，这正是语言所需的相同能力。

效率优于规模

更多合成数据并不总是更好。校准数据生成器的复杂度比原始数量更重要，从而实现更智能的、计算更少的训练。

为什么有效：更纯净的训练信号

在小的 token 预算下，自然语言预训练主要教授浅层模式。模型利用语义捷径和共现先验，而不是学习从结构推理。另一方面，NCA 序列不包含任何语义捷径。

每个 NCA 轨迹都由一个隐藏的转换规则生成——一个随机采样的神经网络——模型必须纯粹从上下文中推断它。由于没有语义内容可以依赖，每个 token 都推动模型进行上下文规则推断：观察序列，假设潜在规则，并一致地向前应用。这反映了语言模型的核心能力之一（即上下文学习）。

因为 NCA 规则是从可计算函数的通用类别中提取的——有些实现了图灵完备系统——这个分布太广泛而无法记忆。模型被迫学习规则推断的通用机制，而不是记忆特定规则。这得到了实证发现的支持：attention 层（而非 MLP）携带了最可迁移的结构。先前的工作表明，上下文学习能力随着归纳头（induction heads）的形成而出现——这是一种从序列早期复制和应用模式的 attention 电路。NCA 预预训练专门奖励这种行为，可能在语言训练开始之前就诱导了这些电路更早、更稳健的形成。

更大的图景：超越一刀切

这项工作为训练语言模型开辟了一个全新的控制轴。我们可以不再将训练分布视为固定的，而是调整合成数据的结构以匹配目标领域：为代码使用更简单的 NCA 规则，为基因组序列建模使用更丰富的长程动态。

长期愿景是：从完全合成的数据中获取推理能力的基础模型，然后从一个小型的、精心策划的自然语言语料库中学习语义。这将帮助我们构建能够推理的模型，而不会从一开始就继承人类的偏见。

问题不再是非语言预训练是否可行，而是能走多远。

我的思考

这项研究非常有趣，它挑战了”语言模型必须用语言数据训练”的固有认知。几点值得关注的启示：

数据效率的本质：NCA 证明了”学习如何学习”（即上下文推理能力）比单纯暴露在大量文本中更重要。这对于数据稀缺的领域尤其有价值。
可解释性潜力：使用完全合成的训练数据，我们可以精确控制模型学习什么，这可能是解决 AI 对齐问题的一条新路径。
跨领域迁移：代码偏好简单动态、数学偏好复杂动态的发现，为针对性训练提供了可操作的方法论。
Attention 的核心地位：这项研究再次证明了 attention 机制在推理能力中的核心作用，这对理解 transformer 架构的工作原理很有帮助。

原论文：Training Language Models via Neural Cellular Automata 作者：Seungwook Han, Dan Lee, Akarsh Kumar, Pulkit Agrawal