NEE's Blog

NCA 预预训练:用神经细胞自动机为语言模型提供合成数据

March 19, 2026

本文翻译自 Training Language Models via Neural Cellular Automata,原载于 Hacker News。

核心问题:我们正在耗尽文本数据

大语言模型是”饥饿”的。它们需要指数级增长的数据才能持续进步,而高质量的自然语言预计将在 2028 年耗尽。更糟糕的是,互联网文本携带了人类的偏见,并且将知识与推理纠缠在一起,使得我们难以控制模型真正学到了什么。

这引出了一个根本性的问题:自然语言是通往智能的唯一路径吗?

研究者的核心假设是:使语言对预训练有用的不是其语义,而是其结构。如果这个假设成立,那么结构丰富的非语言数据也应该有效。

方法:神经细胞自动机作为合成燃料

神经细胞自动机(Neural Cellular Automata,NCA)是 Conway 生命游戏的泛化版本,区别在于用神经网络替代了固定的规则。每个随机采样的网络定义一个唯一的转换规则,在网格上产生多样化的时空动态。

当这些动态在长时间范围内展开时,会产生丰富的行为谱系——从收敛到固定吸引子状态的简单模式,到随时间逐渐涌现的复杂结构。

这些 NCA 轨迹被分词成序列(使用 2×2 的 patch,类似于视觉 transformer),然后输入到标准的 transformer 中进行下一个 token 预测。关键在于:由于每个序列都有一个独特的潜在规则,模型必须在上下文中推断该规则才能预测接下来会发生什么。这种上下文学习能力正是语言模型许多关键推理能力的基础。

训练分为三个阶段:

  1. Pre-pre-train(预预训练):164M NCA tokens,合成动态数据
  2. Pre-train(预训练):自然语言,包括网页、数学、代码(4-13B tokens)
  3. Fine-tune(微调):特定任务,指令微调(<1B tokens)

结果:令人惊讶的收益

在匹配的 token 预算下(各 164M tokens),NCA 预预训练在网页文本、数学和代码领域始终优于从零开始训练、在自然语言(C4)上预预训练、以及其他合成数据(Dyck)上预预训练。这种提升不仅体现在更快的收敛速度上,还体现在更好的最终困惑度。

各领域最终困惑度(↓ 越低越好)

数据集 Scratch C4 Dyck NCA
OpenWebText 14.66 14.69 14.35 13.82 (-5.7%)
OpenWebMath 8.11 8.14 7.91 7.70 (-5.2%)
CodeParrot 1.92 1.88 1.85 1.84 (-4.2%)

这些语言建模的提升还能迁移到真实推理基准测试

基准测试 Scratch C4 Dyck NCA
GSM8K(数学) 3.82% 3.81% 4.10% 4.36%
HumanEval(代码) 6.75% 6.27% 6.90% 7.49%
BigBench-Lite(推理) 20.91% 22.76% 18.10% 26.51%

更令人震惊的发现

研究者进一步探索:如果给 C4 ~10 倍更多的数据会怎样?他们将 C4 预预训练扩展到 16 亿 tokens,而 NCA 保持在 1.64 亿。即使有这个数据优势,NCA 仍然收敛快 1.4 倍,最终困惑度好 5%。

1.64 亿自动机 tokens 击败了 16 亿自然语言 tokens。

研究者认为这种差异反映了每个数据源在每个规模上所教授的内容。在 16 亿 tokens——远低于计算最优规模——C4 主要教授浅层的局部模式,而每个 NCA 序列训练模型从上下文中推断潜在规则(即上下文学习)并一致地应用它。这种在函数而非冗余语言模式上的每 token 多样性,似乎在构建可迁移到语言通用表示方面更有效率。

关键洞察:什么驱动了迁移?

Attention 是载体

重新初始化实验表明,attention 层捕获了最可迁移的计算原语。MLP 编码特定领域的知识——只有在源和目标对齐时才可迁移。

复杂度必须匹配

最优 NCA 复杂度因领域而异:代码受益于更简单的动态,而数学和网页文本偏好更复杂的动态。这为针对性训练开辟了一个新的杠杆。

结构,而非语义

NCA 数据没有任何语言内容——但教会模型追踪长程依赖关系和推断潜在规则,这正是语言所需的相同能力。

效率优于规模

更多合成数据并不总是更好。校准数据生成器的复杂度比原始数量更重要,从而实现更智能的、计算更少的训练。

为什么有效:更纯净的训练信号

在小的 token 预算下,自然语言预训练主要教授浅层模式。模型利用语义捷径和共现先验,而不是学习从结构推理。另一方面,NCA 序列不包含任何语义捷径。

每个 NCA 轨迹都由一个隐藏的转换规则生成——一个随机采样的神经网络——模型必须纯粹从上下文中推断它。由于没有语义内容可以依赖,每个 token 都推动模型进行上下文规则推断:观察序列,假设潜在规则,并一致地向前应用。这反映了语言模型的核心能力之一(即上下文学习)。

因为 NCA 规则是从可计算函数的通用类别中提取的——有些实现了图灵完备系统——这个分布太广泛而无法记忆。模型被迫学习规则推断的通用机制,而不是记忆特定规则。这得到了实证发现的支持:attention 层(而非 MLP)携带了最可迁移的结构。先前的工作表明,上下文学习能力随着归纳头(induction heads)的形成而出现——这是一种从序列早期复制和应用模式的 attention 电路。NCA 预预训练专门奖励这种行为,可能在语言训练开始之前就诱导了这些电路更早、更稳健的形成。

更大的图景:超越一刀切

这项工作为训练语言模型开辟了一个全新的控制轴。我们可以不再将训练分布视为固定的,而是调整合成数据的结构以匹配目标领域:为代码使用更简单的 NCA 规则,为基因组序列建模使用更丰富的长程动态。

长期愿景是:从完全合成的数据中获取推理能力的基础模型,然后从一个小型的、精心策划的自然语言语料库中学习语义。这将帮助我们构建能够推理的模型,而不会从一开始就继承人类的偏见。

问题不再是非语言预训练是否可行,而是能走多远

我的思考

这项研究非常有趣,它挑战了”语言模型必须用语言数据训练”的固有认知。几点值得关注的启示:

  1. 数据效率的本质:NCA 证明了”学习如何学习”(即上下文推理能力)比单纯暴露在大量文本中更重要。这对于数据稀缺的领域尤其有价值。

  2. 可解释性潜力:使用完全合成的训练数据,我们可以精确控制模型学习什么,这可能是解决 AI 对齐问题的一条新路径。

  3. 跨领域迁移:代码偏好简单动态、数学偏好复杂动态的发现,为针对性训练提供了可操作的方法论。

  4. Attention 的核心地位:这项研究再次证明了 attention 机制在推理能力中的核心作用,这对理解 transformer 架构的工作原理很有帮助。


原论文:Training Language Models via Neural Cellular Automata 作者:Seungwook Han, Dan Lee, Akarsh Kumar, Pulkit Agrawal

comments powered by Disqus