端侧模型优化、推理、个性化、跨设备协同、一键发布 — 全链路自有代码,零云依赖。当前支持 Apple 平台,更多平台即将到来。
import EdgeInference
let engine = LLMEngine()
try await engine.load(config: .find(
modelID: "qwen3.5-4b"
)!)
for try await chunk in engine.generate(
messages: [.user("What is edge AI?")]
) {
print(chunk.text, terminator: "")
}5 行代码 — 加载模型,流式推理
全栈自有
云 AI 做不到——他们要卖算力。开源做不到——没人同时控制五层。数据物理上从不离开用户设备。当前覆盖 Apple 生态,跨平台架构已就绪。
注册以获得 Edge 开发者产品公开发布时的通知。我们会发送配置指南并邀请你加入开发者预览计划。
持续学习
HALO 专利算法Google、OpenAI、Anthropic 都在研究如何让模型随用户成长——但他们的方案依赖云端,数据必须上传。Edge Halo 基于我们专利的 HALO 算法体系,将完整的进化闭环放在用户设备上:从行为采集、画像提取、适配器训练到实时调控,数据物理上从不离开设备。
用户交互数据在设备本地加密存储
提取用户偏好的几何表征——不是关键词,是模型激活空间中的方向
在用户自己的 Mac 上训练轻量适配器,通过设备网格传回手机
实时注入到推理过程,无需重新加载模型
用户随时一键恢复到基础模型
云端 vs 端侧
Edge 产品系列
面向推理构建的 runtime。Metal 命令调度、张量抽象、模型族实现,是 Edge Kit 的基础层。
完整推理 SDK,支持 LLM、VLM、ASR 和 TTS。流式输出、多轮对话、自动内存管理、LoRA adapter 支持。
让模型随用户成长。用户画像、adapter 生命周期管理、实时 activation steering。所有数据留在设备上。
iOS App 模板。一个配置文件、自动设备检测、四级模型分发。从优化模型到可发布应用。
分析、优化、基准测试并导出模型。支持 117+ 架构、设备级建议、一键生成 App。
实测性能
Qwen3.5-9B-4bit,200 轮连续对话压力测试,每轮增量记录。
| 设备 | 芯片 | RAM | 首轮 | 平均 | 末轮 | TTFT |
|---|---|---|---|---|---|---|
| iPhone 17 Pro | A19 Pro | 12G | 13.6 | 11.5 | 11.4 | 496ms |
| iPhone Air | A19 Pro | 12G | 9.1 | 8.2 | 8.75 | 868ms |
| iPad Air M3 | M3 | 8G | ~9 | 9.1 | 9.06 | 2192ms |
TPS = tokens/sec · TTFT = 平均首 token 延迟 · Qwen3.5-9B-4bit · iPad Air M3 为 2048 tokens/轮 + 上下文压缩,余 1024 tokens/轮
M2 Ultra 192GB · 对比基准: mlx_vlm (Python MLX)