NEE's Blog

LLM 架构画廊:开源大模型架构全景对比

16 Mar 2026

Sebastian Raschka 的 LLM 架构对比画廊,汇集了从 Llama、DeepSeek 到 Qwen 等主流开源大模型的架构设计,涵盖 Dense、MoE、Hybrid 等多种解码器类型的详细对比。

我如何用 LLM 写软件

16 Mar 2026

作者详细分享了他使用 LLM(大语言模型)进行软件开发的完整工作流程,包括如何利用多个模型协作、架构设计、代码审查以及实际案例,帮助你提高开发效率和代码质量。

一种优雅的 TCP 打洞算法

15 Mar 2026

本文介绍了一种无需基础设施的 TCP 打洞算法,通过确定性算法从时间戳推导所有元数据,让两个位于 NAT 后的主机能够直接建立连接。

使用 PPO 进行语言模型的树搜索蒸馏

15 Mar 2026

探讨如何将 AlphaZero 风格的蒙特卡洛树搜索(MCTS)应用于语言模型推理,通过 PPO 在线强化学习进行知识蒸馏,在 Countdown 组合数学任务上取得了优于 GRPO 的效果。