AtomGradient — 将 AI 带到边缘设备

我们在 iPhone Air 和 iPhone 17 Pro 上，用同一个 90 亿参数的大模型，各自完成了 200 轮连续深度技术对话。没有云端，没有网络，没有任何中断。约 5-7 小时，20 万 tokens，速度没有随着上下文变长而持续衰减。

这意味着什么？

想象一下：你和一位资深架构师坐在咖啡厅，从零开始设计一个分布式消息队列系统。你们聊了整个下午，从核心架构到共识协议，从容灾设计到多区域部署，从性能调优到容量规划。200 个来回，每一轮都是深入的技术讨论。

这一切发生在你口袋里的手机上。

不需要 WiFi，不需要 5G，不需要把你的对话发送到任何服务器。你的思考、你的问题、你的数据，从未离开你的设备。

数据说话

我们在两台不同的 iPhone 上进行了相同的测试，验证结果的可复现性：

指标	iPhone Air	iPhone 17 Pro
芯片	A19 Pro	A19 Pro
内存	12 GB	12 GB
模型	90 亿参数（4-bit 量化）	同左
对话轮次	200 轮	200 轮
生成总量	204,800 tokens	204,800 tokens
持续时间	约 6.5 小时	约 5.1 小时
平均生成速度	8.2 tokens/秒	11.5 tokens/秒
最后一轮速度	8.75 tokens/秒	11.4 tokens/秒
内存峰值	5.5 GB	5.5 GB
内存增长	+166 MB	+166 MB
崩溃次数	0	0

三个最反直觉的发现：

1. 速度没有持续下降，后段反而回升。以 iPhone Air 为例，第 1 轮生成速度约 9.1 tokens/秒，早期低点出现在第 20 轮（约 7.3 tokens/秒），之后持续回升，第 200 轮达到 8.75 tokens/秒。iPhone 17 Pro 全程稳定在 11-13 tokens/秒。早期下降后回升，后段没有持续衰减。

2. 内存几乎不增长。两台设备在各自约 6 小时的测试中，内存都仅增加了 166MB。在整个 200 轮窗口内，没有出现线性内存膨胀，也没有触发系统内存上限。

3. 数小时后，模型仍保留着早期讨论的线索。在诊断性 recall checkpoint 中，模型仍能覆盖早期架构要点（iPhone Air 诊断 recall 约 85%，iPhone 17 Pro 约 77%）。这是辅助指标，不等同于完整长期记忆评测，但已经表明端侧混合推理架构在超长对话中的记忆保持能力。

我们还找到了硬件的真实边界

在测试过程中，我们尝试将每轮生成上限从 1024 提高到 2048 tokens。结果：iPhone 17 Pro 在第 13 轮 OOM crash，可用内存仅剩 630MB。

这告诉我们：在当前引擎和模型条件下，每轮 1024 tokens 是已验证的稳定工作点；2048 暴露出内存安全余量不足。KV cache 和中间张量的增长让更长的单轮生成变得不可靠。

这个发现本身也很有价值——它帮助我们精确定义了端侧 9B 推理的“安全工作区”，也为后续的内存优化指明了方向。

为什么这件事重要？

一、计算的持续性：从“用完即弃”到“持续陪伴”

今天的 AI 助手大多是“无状态”的——你问一句，它答一句，关掉窗口一切归零。即使是最先进的云端大模型，在超长对话中也会出现“遗忘”和“退化”。

我们的测试证明了一种不同的可能：AI 可以像一个真正的同事一样，和你持续工作数小时，在长时间讨论中保留相当比例的早期上下文信号。

这不是未来，这是现在，发生在一部手机上。

二、计算的普适性：从数据中心到每个人的口袋

过去，要获得稳定的 90 亿参数模型长时推理体验，通常需要依赖桌面级设备、独立 GPU 或云端服务。而这次测试发生在两部量产消费级 iPhone 上——12GB 物理内存，应用实际受约 6GB jetsam 窗口约束，却各自完成了 200 轮、20 万 tokens 的连续对话。

这意味着世界级的 AI 能力不再是科技公司和研究机构的特权。一个乡村教师可以拥有一个不需要网络的 AI 教学助手；一个独立开发者可以在飞机上和 AI 结对编程；一个医生可以在没有信号的偏远地区用 AI 辅助整理病历和医学资料。

计算能力的民主化，不是让每个人都能访问云端 API，而是让每个人的设备本身就拥有足够的智能。

三、计算的普惠性：隐私不是奢侨品

当 AI 能力完全运行在本地设备上，一个深刻的变化随之发生：你的数据永远不需要离开你的手机。

没有上传，没有服务器日志，没有第三方可以窥探你和 AI 的对话。你的医疗咨询、财务规划、个人日记、创业想法——所有这些都只存在于你手中的设备里。

在一个数据泄露频发的时代，这不是功能，这是权利。端侧 AI 显著减少了云端传输和服务器日志带来的数据泄露面，让隐私保护从“信任某家公司的承诺”变成了“架构层面的保障”。

技术上，我们做了什么？

我们没有使用更大的芯片或更多的内存。iPhone Air 和 iPhone 17 Pro 不是服务器，也不是外接 GPU 的工作站，而是量产消费级手机。

我们做的是让软件更聪明地使用硬件：

智能记忆管理。传统大模型的注意力缓存会随对话长度线性增长，最终耗尽内存。我们的推理算法针对新一代混合架构模型（大量固定状态的循环层 + 少量注意力层）设计了受控 KV 内存策略，让内存占用不再随对话长度无限增长。这就像人脑的工作方式：短期记忆不断刷新，但核心理解保持稳定。

计算效率优化。通过自研的底层 Metal 内核与推理调度优化，我们减少了推理过程中的调度和物化开销。更少的开销意味着更多的算力用在真正的计算上。

长程稳定的推理引擎。传统推理引擎在长对话中会越来越慢，因为注意力计算量随上下文长度增长。我们的混合推理算法打破了这个限制——充分利用循环状态层计算量恒定的特性，显著削弱了长上下文带来的持续衰减。这就是为什么第 200 轮的速度仍然稳定。

这只是开始

200 轮对话说明，在这类长时连续推理任务上，硬件已经不是唯一的瓶颈。真正的极限在于模型的“长期记忆”——我们想做到更好。

我们的下一步：

记忆增强：让模型在超长对话中学会主动总结和压缩早期信息，而不是被动遗忘
多设备协同：你的 iPhone 处理日常对话，MacBook 处理复杂推理，Mac Studio 处理训练——所有设备组成一个私有 AI 网络
持续学习与个性化进化：我们正在将自研的 RPP 算法和 HALO 架构用于端侧持续学习与个性化验证，目标是让模型在本地逐步理解用户偏好、习惯和知识结构，逐步走向“越用越懂你”。和云端个性化推荐不同，这条路线要求学习数据不离开设备，个性化更新在本地完成

端侧 AI 不是云端 AI 的廉价替代品。它是一种全新的计算范式——永远在线、完全私有、持续进化、属于每一个人。

两部手机，200 轮深度对话：端侧 AI 的算力革命