理解 AI 的每一层

用交互式可视化，从 Token 到推理引擎，拆解大模型核心概念。

入门6 篇

AI 基础概念

从零开始理解大模型的核心构件——Token、向量、注意力、量化、训练与推理。

01入门8 分钟

Token 与分词

为什么 AI 按 Token 收费？一个汉字算几个 Token？

02入门8 分钟

Embedding 词向量

AI 怎么把文字变成数字？从 one-hot 到语义空间

03入门12 分钟

Transformer 注意力机制

AI 是如何「理解」你的话的？

04入门10 分钟

模型量化

为什么手机也能跑大模型？INT4/INT8 是什么？

05入门8 分钟

推理 vs 训练

为什么训练需要几百张卡，推理只要一张？

06入门8 分钟

上下文窗口

为什么有些模型能读整本书，有些只能读一页？

进阶15 篇

深入推理与优化

探索推理加速、模型压缩、硬件架构和 AI Agent——从原理到 AtomGradient 的研究成果。

07进阶10 分钟

Prefill 与 Decode

大模型生成文字的两个阶段：「理解」和「输出」

08进阶8 分钟

KV Cache

为什么长对话的 Token 会更便宜？缓存命中的秘密

09进阶10 分钟

MoE 混合专家

为什么 DeepSeek 有 671B 参数却跑得飞快？

10进阶8 分钟

模型蒸馏

大模型如何「教」小模型？知识迁移的艺术

11进阶10 分钟

RLHF 人类反馈强化学习

AI 怎么学会「说人话」？从预训练到对齐

12进阶12 分钟

ANE 混合推理

Apple 芯片的秘密武器：ANE+GPU 协同推理

13进阶10 分钟

推测解码

如何用「小模型猜、大模型验」让推理速度翻倍？

14进阶8 分钟

统一内存架构

为什么 Apple Silicon 特别适合跑 AI？

15进阶8 分钟

零拷贝模型加载

如何让模型加载快 20 倍？mmap 的魔法

16进阶8 分钟

端侧语音合成

67% 压缩后手机怎么实时「说话」？

17进阶8 分钟

端侧视觉模型

让手机「看懂」照片需要几步？

18进阶10 分钟

端侧个人 AI

不上传数据也能获得个性化 AI？跨域数据的涌现智能

19进阶10 分钟

推理模型

为什么「想一想再回答」能让 AI 变聪明？

20进阶10 分钟

AI Agent

AI 怎么从「聊天」进化到「干活」？

21进阶10 分钟

Code Agent

AI 怎么写代码、跑测试、修 Bug？从 Copilot 到 Claude Code