我们正在加紧打磨产品,力求为开发者带来最极致的端侧 AI 体验。下方是我们最新的真机实测数据 — 每一个数字都来自真实设备,不是模拟器。
9B 参数大模型、20 轮连续对话、超过 20,000 tokens 上下文 — 相当于一本小书的篇幅。
tok/s = 每秒生成 token 数,越高越流畅。标准方案指开源 MLX 原版实现。
| 对话轮次 | 上下文 | Edge Runtime | 标准方案 | 提升 |
|---|---|---|---|---|
| T1 | 1K | 16.5 | 17.8 | -7% |
| T5 | 5K | 9.6 | 6.8 | +41% |
| T10 | 10K | 6.9 | 5.4 | +28% |
| T15 | 16K | 4.8 | 3.6 | +33% |
| T20 | 21K | 3.5 | 1.8 | +94% |
Qwen3.5-9B · 20 轮深度技术对话 · Edge Runtime
标准方案在 iPhone 上第 2 轮即崩溃
没有核心推理算法的原版实现,在 iPhone 17 Pro 和 iPhone 17e 上均于第 2 轮崩溃。Edge Runtime 的核心推理算法让同一设备流畅完成全部 20 轮对话。
20 轮实测上下文 21,000+ tokens。以我们当前的算法能力,可支撑约 26,000 tokens 的连续对话 — 相当于阅读并记忆一整本书的内容,全部在你的手机上完成。
Note: iPhone Air、iPhone 17 Pro 和 Pro Max 均拥有 12GB 物理内存,但 iOS 限制单个 App 最多只能使用约 6GB。我们不清楚苹果设置这一限制的原因。如果未来 Apple 放开更多内存给应用,我们相信端侧 AI 的表现将会更加出色。
AI 驱动的模型智能分析与精准优化
智能分析引擎,自动检测冗余层、低效神经元和优化机会。独创 7 步渐进式优化管线,执行神经元级精准剪枝——而非粗粒度压缩——配合实时 Perplexity 监控,确保每一步优化都不损失质量。
自研推理算法,为 Apple Silicon 而生
自研推理引擎,具备独创的 ANE-GPU 协同调度、分离式推理架构和零拷贝模型加载。不是接口封装——原创算法通过 ANE 批量调度和并发管线执行,实现 11.3x Prefill 加速和 79% GPU 功耗降低。
终极端侧 AI 部署方案
业界唯一从优化模型到上架 App Store 的端到端管线。集成 Edge Runtime 自研推理引擎、ODR 智能模型分发和 ESG 碳排放追踪——其他平台无法提供的完整部署方案。
import EdgeInference
let engine = LLMEngine()
try await engine.load(config: .find(modelID: "qwen3.5-0.8b")!)
for try await chunk in engine.generate(
messages: [.user("What is edge AI?")]
) {
print(chunk.text, terminator: "")
}5 行 Swift 代码——加载模型,流式生成。就这么简单。
注册以获得 AtomGradient Edge 系列产品公开发布时的通知。我们会发送配置指南并邀请你加入开发者预览计划。
已有数百位开发者加入等待名单
AtomGradient 致力于在每个边缘侧部署智能,不仅仅是 Apple — 请保持关注。