返回博客
工程|
2026年5月24日
12 分钟阅读

两部手机,200 轮深度对话:端侧 AI 的算力革命

我们在 iPhone Air 和 iPhone 17 Pro 上,用同一个 90 亿参数的大模型,各自完成了 200 轮连续深度技术对话。没有云端,没有网络,没有任何中断。约 5-7 小时,20 万 tokens,速度没有随着上下文变长而持续衰减。

这意味着什么?

想象一下:你和一位资深架构师坐在咖啡厅,从零开始设计一个分布式消息队列系统。你们聊了整个下午,从核心架构到共识协议,从容灾设计到多区域部署,从性能调优到容量规划。200 个来回,每一轮都是深入的技术讨论。

这一切发生在你口袋里的手机上。

不需要 WiFi,不需要 5G,不需要把你的对话发送到任何服务器。你的思考、你的问题、你的数据,从未离开你的设备。

数据说话

我们在两台不同的 iPhone 上进行了相同的测试,验证结果的可复现性:

指标iPhone AiriPhone 17 Pro
芯片A19 ProA19 Pro
内存12 GB12 GB
模型90 亿参数(4-bit 量化)同左
对话轮次200 轮200 轮
生成总量204,800 tokens204,800 tokens
持续时间约 6.5 小时约 5.1 小时
平均生成速度8.2 tokens/秒11.5 tokens/秒
最后一轮速度8.75 tokens/秒11.4 tokens/秒
内存峰值5.5 GB5.5 GB
内存增长+166 MB+166 MB
崩溃次数00

三个最反直觉的发现:

1. 速度没有持续下降,后段反而回升。以 iPhone Air 为例,第 1 轮生成速度约 9.1 tokens/秒,早期低点出现在第 20 轮(约 7.3 tokens/秒),之后持续回升,第 200 轮达到 8.75 tokens/秒。iPhone 17 Pro 全程稳定在 11-13 tokens/秒。早期下降后回升,后段没有持续衰减。

2. 内存几乎不增长。两台设备在各自约 6 小时的测试中,内存都仅增加了 166MB。在整个 200 轮窗口内,没有出现线性内存膨胀,也没有触发系统内存上限。

3. 数小时后,模型仍保留着早期讨论的线索。在诊断性 recall checkpoint 中,模型仍能覆盖早期架构要点(iPhone Air 诊断 recall 约 85%,iPhone 17 Pro 约 77%)。这是辅助指标,不等同于完整长期记忆评测,但已经表明端侧混合推理架构在超长对话中的记忆保持能力。

我们还找到了硬件的真实边界

在测试过程中,我们尝试将每轮生成上限从 1024 提高到 2048 tokens。结果:iPhone 17 Pro 在第 13 轮 OOM crash,可用内存仅剩 630MB。

这告诉我们:在当前引擎和模型条件下,每轮 1024 tokens 是已验证的稳定工作点;2048 暴露出内存安全余量不足。KV cache 和中间张量的增长让更长的单轮生成变得不可靠。

这个发现本身也很有价值——它帮助我们精确定义了端侧 9B 推理的“安全工作区”,也为后续的内存优化指明了方向。

为什么这件事重要?

一、计算的持续性:从“用完即弃”到“持续陪伴”

今天的 AI 助手大多是“无状态”的——你问一句,它答一句,关掉窗口一切归零。即使是最先进的云端大模型,在超长对话中也会出现“遗忘”和“退化”。

我们的测试证明了一种不同的可能:AI 可以像一个真正的同事一样,和你持续工作数小时,在长时间讨论中保留相当比例的早期上下文信号。

这不是未来,这是现在,发生在一部手机上。

二、计算的普适性:从数据中心到每个人的口袋

过去,要获得稳定的 90 亿参数模型长时推理体验,通常需要依赖桌面级设备、独立 GPU 或云端服务。而这次测试发生在两部量产消费级 iPhone 上——12GB 物理内存,应用实际受约 6GB jetsam 窗口约束,却各自完成了 200 轮、20 万 tokens 的连续对话。

这意味着世界级的 AI 能力不再是科技公司和研究机构的特权。一个乡村教师可以拥有一个不需要网络的 AI 教学助手;一个独立开发者可以在飞机上和 AI 结对编程;一个医生可以在没有信号的偏远地区用 AI 辅助整理病历和医学资料。

计算能力的民主化,不是让每个人都能访问云端 API,而是让每个人的设备本身就拥有足够的智能。

三、计算的普惠性:隐私不是奢侨品

当 AI 能力完全运行在本地设备上,一个深刻的变化随之发生:你的数据永远不需要离开你的手机。

没有上传,没有服务器日志,没有第三方可以窥探你和 AI 的对话。你的医疗咨询、财务规划、个人日记、创业想法——所有这些都只存在于你手中的设备里。

在一个数据泄露频发的时代,这不是功能,这是权利。端侧 AI 显著减少了云端传输和服务器日志带来的数据泄露面,让隐私保护从“信任某家公司的承诺”变成了“架构层面的保障”。

技术上,我们做了什么?

我们没有使用更大的芯片或更多的内存。iPhone Air 和 iPhone 17 Pro 不是服务器,也不是外接 GPU 的工作站,而是量产消费级手机。

我们做的是让软件更聪明地使用硬件:

智能记忆管理。传统大模型的注意力缓存会随对话长度线性增长,最终耗尽内存。我们的推理算法针对新一代混合架构模型(大量固定状态的循环层 + 少量注意力层)设计了受控 KV 内存策略,让内存占用不再随对话长度无限增长。这就像人脑的工作方式:短期记忆不断刷新,但核心理解保持稳定。

计算效率优化。通过自研的底层 Metal 内核与推理调度优化,我们减少了推理过程中的调度和物化开销。更少的开销意味着更多的算力用在真正的计算上。

长程稳定的推理引擎。传统推理引擎在长对话中会越来越慢,因为注意力计算量随上下文长度增长。我们的混合推理算法打破了这个限制——充分利用循环状态层计算量恒定的特性,显著削弱了长上下文带来的持续衰减。这就是为什么第 200 轮的速度仍然稳定。

这只是开始

200 轮对话说明,在这类长时连续推理任务上,硬件已经不是唯一的瓶颈。真正的极限在于模型的“长期记忆”——我们想做到更好。

我们的下一步:

  • 记忆增强:让模型在超长对话中学会主动总结和压缩早期信息,而不是被动遗忘
  • 多设备协同:你的 iPhone 处理日常对话,MacBook 处理复杂推理,Mac Studio 处理训练——所有设备组成一个私有 AI 网络
  • 持续学习与个性化进化:我们正在将自研的 RPP 算法和 HALO 架构用于端侧持续学习与个性化验证,目标是让模型在本地逐步理解用户偏好、习惯和知识结构,逐步走向“越用越懂你”。和云端个性化推荐不同,这条路线要求学习数据不离开设备,个性化更新在本地完成

端侧 AI 不是云端 AI 的廉价替代品。它是一种全新的计算范式——永远在线、完全私有、持续进化、属于每一个人。

AtomGradient — 将 AI 带到边缘设备 | AtomGradient