我们在 iPhone Air 和 iPhone 17 Pro 上,用同一个 90 亿参数的大模型,各自完成了 200 轮连续深度技术对话。没有云端,没有网络,没有任何中断。约 5-7 小时,20 万 tokens,速度没有随着上下文变长而持续衰减。
这意味着什么?
想象一下:你和一位资深架构师坐在咖啡厅,从零开始设计一个分布式消息队列系统。你们聊了整个下午,从核心架构到共识协议,从容灾设计到多区域部署,从性能调优到容量规划。200 个来回,每一轮都是深入的技术讨论。
这一切发生在你口袋里的手机上。
不需要 WiFi,不需要 5G,不需要把你的对话发送到任何服务器。你的思考、你的问题、你的数据,从未离开你的设备。
数据说话
我们在两台不同的 iPhone 上进行了相同的测试,验证结果的可复现性:
| 指标 | iPhone Air | iPhone 17 Pro |
|---|---|---|
| 芯片 | A19 Pro | A19 Pro |
| 内存 | 12 GB | 12 GB |
| 模型 | 90 亿参数(4-bit 量化) | 同左 |
| 对话轮次 | 200 轮 | 200 轮 |
| 生成总量 | 204,800 tokens | 204,800 tokens |
| 持续时间 | 约 6.5 小时 | 约 5.1 小时 |
| 平均生成速度 | 8.2 tokens/秒 | 11.5 tokens/秒 |
| 最后一轮速度 | 8.75 tokens/秒 | 11.4 tokens/秒 |
| 内存峰值 | 5.5 GB | 5.5 GB |
| 内存增长 | +166 MB | +166 MB |
| 崩溃次数 | 0 | 0 |
三个最反直觉的发现:
1. 速度没有持续下降,后段反而回升。以 iPhone Air 为例,第 1 轮生成速度约 9.1 tokens/秒,早期低点出现在第 20 轮(约 7.3 tokens/秒),之后持续回升,第 200 轮达到 8.75 tokens/秒。iPhone 17 Pro 全程稳定在 11-13 tokens/秒。早期下降后回升,后段没有持续衰减。
2. 内存几乎不增长。两台设备在各自约 6 小时的测试中,内存都仅增加了 166MB。在整个 200 轮窗口内,没有出现线性内存膨胀,也没有触发系统内存上限。
3. 数小时后,模型仍保留着早期讨论的线索。在诊断性 recall checkpoint 中,模型仍能覆盖早期架构要点(iPhone Air 诊断 recall 约 85%,iPhone 17 Pro 约 77%)。这是辅助指标,不等同于完整长期记忆评测,但已经表明端侧混合推理架构在超长对话中的记忆保持能力。
我们还找到了硬件的真实边界
在测试过程中,我们尝试将每轮生成上限从 1024 提高到 2048 tokens。结果:iPhone 17 Pro 在第 13 轮 OOM crash,可用内存仅剩 630MB。
这告诉我们:在当前引擎和模型条件下,每轮 1024 tokens 是已验证的稳定工作点;2048 暴露出内存安全余量不足。KV cache 和中间张量的增长让更长的单轮生成变得不可靠。
这个发现本身也很有价值——它帮助我们精确定义了端侧 9B 推理的“安全工作区”,也为后续的内存优化指明了方向。
为什么这件事重要?
一、计算的持续性:从“用完即弃”到“持续陪伴”
今天的 AI 助手大多是“无状态”的——你问一句,它答一句,关掉窗口一切归零。即使是最先进的云端大模型,在超长对话中也会出现“遗忘”和“退化”。
我们的测试证明了一种不同的可能:AI 可以像一个真正的同事一样,和你持续工作数小时,在长时间讨论中保留相当比例的早期上下文信号。
这不是未来,这是现在,发生在一部手机上。
二、计算的普适性:从数据中心到每个人的口袋
过去,要获得稳定的 90 亿参数模型长时推理体验,通常需要依赖桌面级设备、独立 GPU 或云端服务。而这次测试发生在两部量产消费级 iPhone 上——12GB 物理内存,应用实际受约 6GB jetsam 窗口约束,却各自完成了 200 轮、20 万 tokens 的连续对话。
这意味着世界级的 AI 能力不再是科技公司和研究机构的特权。一个乡村教师可以拥有一个不需要网络的 AI 教学助手;一个独立开发者可以在飞机上和 AI 结对编程;一个医生可以在没有信号的偏远地区用 AI 辅助整理病历和医学资料。
计算能力的民主化,不是让每个人都能访问云端 API,而是让每个人的设备本身就拥有足够的智能。
三、计算的普惠性:隐私不是奢侨品
当 AI 能力完全运行在本地设备上,一个深刻的变化随之发生:你的数据永远不需要离开你的手机。
没有上传,没有服务器日志,没有第三方可以窥探你和 AI 的对话。你的医疗咨询、财务规划、个人日记、创业想法——所有这些都只存在于你手中的设备里。
在一个数据泄露频发的时代,这不是功能,这是权利。端侧 AI 显著减少了云端传输和服务器日志带来的数据泄露面,让隐私保护从“信任某家公司的承诺”变成了“架构层面的保障”。
技术上,我们做了什么?
我们没有使用更大的芯片或更多的内存。iPhone Air 和 iPhone 17 Pro 不是服务器,也不是外接 GPU 的工作站,而是量产消费级手机。
我们做的是让软件更聪明地使用硬件:
智能记忆管理。传统大模型的注意力缓存会随对话长度线性增长,最终耗尽内存。我们的推理算法针对新一代混合架构模型(大量固定状态的循环层 + 少量注意力层)设计了受控 KV 内存策略,让内存占用不再随对话长度无限增长。这就像人脑的工作方式:短期记忆不断刷新,但核心理解保持稳定。
计算效率优化。通过自研的底层 Metal 内核与推理调度优化,我们减少了推理过程中的调度和物化开销。更少的开销意味着更多的算力用在真正的计算上。
长程稳定的推理引擎。传统推理引擎在长对话中会越来越慢,因为注意力计算量随上下文长度增长。我们的混合推理算法打破了这个限制——充分利用循环状态层计算量恒定的特性,显著削弱了长上下文带来的持续衰减。这就是为什么第 200 轮的速度仍然稳定。
这只是开始
200 轮对话说明,在这类长时连续推理任务上,硬件已经不是唯一的瓶颈。真正的极限在于模型的“长期记忆”——我们想做到更好。
我们的下一步:
- 记忆增强:让模型在超长对话中学会主动总结和压缩早期信息,而不是被动遗忘
- 多设备协同:你的 iPhone 处理日常对话,MacBook 处理复杂推理,Mac Studio 处理训练——所有设备组成一个私有 AI 网络
- 持续学习与个性化进化:我们正在将自研的 RPP 算法和 HALO 架构用于端侧持续学习与个性化验证,目标是让模型在本地逐步理解用户偏好、习惯和知识结构,逐步走向“越用越懂你”。和云端个性化推荐不同,这条路线要求学习数据不离开设备,个性化更新在本地完成
端侧 AI 不是云端 AI 的廉价替代品。它是一种全新的计算范式——永远在线、完全私有、持续进化、属于每一个人。