本文翻译自 Training Language Models via Neural Cellular Automata,原载于 Hacker News。
核心问题:我们正在耗尽文本数据
大语言模型是”饥饿”的。它们需要指数级增长的数据才能持续进步,而高质量的自然语言预计将在 2028 年耗尽。更糟糕的是,互联网文本携带了人类的偏见,并且将知识与推理纠缠在一起,使得我们难以控制模型真正学到了什么。
这引出了一个根本性的问题:自然语言是通往智能的唯一路径吗?
研究者的核心假设是:使语言对预训练有用的不是其语义,而是其结构。如果这个假设成立,那么结构丰富的非语言数据也应该有效。
方法:神经细胞自动机作为合成燃料
神经细胞自动机(Neural Cellular Automata,NCA)是 Conway 生命游戏的泛化版本,区别在于用神经网络替代了固定的规则。每个随机采样的网络定义一个唯一的转换规则,在网格上产生多样化的时空动态。
当这些动态在长时间范围内展开时,会产生丰富的行为谱系——从收敛到固定吸引子状态的简单模式,到随时间逐渐涌现的复杂结构。
这些 NCA 轨迹被分词成序列(使用 2×2 的 patch,类似于视觉 transformer),然后输入到标准的 transformer 中进行下一个 token 预测。关键在于:由于每个序列都有一个独特的潜在规则,模型必须在上下文中推断该规则才能预测接下来会发生什么。这种上下文学习能力正是语言模型许多关键推理能力的基础。
训练分为三个阶段:
- Pre-pre-train(预预训练):164M NCA tokens,合成动态数据
- Pre-train(预训练):自然语言,包括网页、数学、代码(4-13B tokens)
- Fine-tune(微调):特定任务,指令微调(<1B tokens)
结果:令人惊讶的收益
在匹配的 token 预算下(各 164M tokens),NCA 预预训练在网页文本、数学和代码领域始终优于从零开始训练、在自然语言(C4)上预预训练、以及其他合成数据(Dyck)上预预训练。这种提升不仅体现在更快的收敛速度上,还体现在更好的最终困惑度。
各领域最终困惑度(↓ 越低越好)
| 数据集 | Scratch | C4 | Dyck | NCA |
|---|---|---|---|---|
| OpenWebText | 14.66 | 14.69 | 14.35 | 13.82 (-5.7%) |
| OpenWebMath | 8.11 | 8.14 | 7.91 | 7.70 (-5.2%) |
| CodeParrot | 1.92 | 1.88 | 1.85 | 1.84 (-4.2%) |
这些语言建模的提升还能迁移到真实推理基准测试:
| 基准测试 | Scratch | C4 | Dyck | NCA |
|---|---|---|---|---|
| GSM8K(数学) | 3.82% | 3.81% | 4.10% | 4.36% |
| HumanEval(代码) | 6.75% | 6.27% | 6.90% | 7.49% |
| BigBench-Lite(推理) | 20.91% | 22.76% | 18.10% | 26.51% |
更令人震惊的发现
研究者进一步探索:如果给 C4 ~10 倍更多的数据会怎样?他们将 C4 预预训练扩展到 16 亿 tokens,而 NCA 保持在 1.64 亿。即使有这个数据优势,NCA 仍然收敛快 1.4 倍,最终困惑度好 5%。
1.64 亿自动机 tokens 击败了 16 亿自然语言 tokens。
研究者认为这种差异反映了每个数据源在每个规模上所教授的内容。在 16 亿 tokens——远低于计算最优规模——C4 主要教授浅层的局部模式,而每个 NCA 序列训练模型从上下文中推断潜在规则(即上下文学习)并一致地应用它。这种在函数而非冗余语言模式上的每 token 多样性,似乎在构建可迁移到语言通用表示方面更有效率。
关键洞察:什么驱动了迁移?
Attention 是载体
重新初始化实验表明,attention 层捕获了最可迁移的计算原语。MLP 编码特定领域的知识——只有在源和目标对齐时才可迁移。
复杂度必须匹配
最优 NCA 复杂度因领域而异:代码受益于更简单的动态,而数学和网页文本偏好更复杂的动态。这为针对性训练开辟了一个新的杠杆。
结构,而非语义
NCA 数据没有任何语言内容——但教会模型追踪长程依赖关系和推断潜在规则,这正是语言所需的相同能力。
效率优于规模
更多合成数据并不总是更好。校准数据生成器的复杂度比原始数量更重要,从而实现更智能的、计算更少的训练。
为什么有效:更纯净的训练信号
在小的 token 预算下,自然语言预训练主要教授浅层模式。模型利用语义捷径和共现先验,而不是学习从结构推理。另一方面,NCA 序列不包含任何语义捷径。
每个 NCA 轨迹都由一个隐藏的转换规则生成——一个随机采样的神经网络——模型必须纯粹从上下文中推断它。由于没有语义内容可以依赖,每个 token 都推动模型进行上下文规则推断:观察序列,假设潜在规则,并一致地向前应用。这反映了语言模型的核心能力之一(即上下文学习)。
因为 NCA 规则是从可计算函数的通用类别中提取的——有些实现了图灵完备系统——这个分布太广泛而无法记忆。模型被迫学习规则推断的通用机制,而不是记忆特定规则。这得到了实证发现的支持:attention 层(而非 MLP)携带了最可迁移的结构。先前的工作表明,上下文学习能力随着归纳头(induction heads)的形成而出现——这是一种从序列早期复制和应用模式的 attention 电路。NCA 预预训练专门奖励这种行为,可能在语言训练开始之前就诱导了这些电路更早、更稳健的形成。
更大的图景:超越一刀切
这项工作为训练语言模型开辟了一个全新的控制轴。我们可以不再将训练分布视为固定的,而是调整合成数据的结构以匹配目标领域:为代码使用更简单的 NCA 规则,为基因组序列建模使用更丰富的长程动态。
长期愿景是:从完全合成的数据中获取推理能力的基础模型,然后从一个小型的、精心策划的自然语言语料库中学习语义。这将帮助我们构建能够推理的模型,而不会从一开始就继承人类的偏见。
问题不再是非语言预训练是否可行,而是能走多远。
我的思考
这项研究非常有趣,它挑战了”语言模型必须用语言数据训练”的固有认知。几点值得关注的启示:
-
数据效率的本质:NCA 证明了”学习如何学习”(即上下文推理能力)比单纯暴露在大量文本中更重要。这对于数据稀缺的领域尤其有价值。
-
可解释性潜力:使用完全合成的训练数据,我们可以精确控制模型学习什么,这可能是解决 AI 对齐问题的一条新路径。
-
跨领域迁移:代码偏好简单动态、数学偏好复杂动态的发现,为针对性训练提供了可操作的方法论。
-
Attention 的核心地位:这项研究再次证明了 attention 机制在推理能力中的核心作用,这对理解 transformer 架构的工作原理很有帮助。
原论文:Training Language Models via Neural Cellular Automata 作者:Seungwook Han, Dan Lee, Akarsh Kumar, Pulkit Agrawal