Developer Preview

让 AI 在每台设备上生长

端侧模型优化、推理、个性化、跨设备协同、一键发布 — 全链路自有代码，零云依赖。当前支持 Apple 平台，更多平台即将到来。

文档准备中GitHub

main.swift

import EdgeInference

let engine = LLMEngine()
try await engine.load(config: .find(
    modelID: "qwen3.5-4b"
)!)

for try await chunk in engine.generate(
  messages: [.user("What is edge AI?")]
) {
  print(chunk.text, terminator: "")
}

5 行代码 — 加载模型，流式推理

全栈自有

从推理内核到 Agent 发布 — 全链路自有代码

云 AI 做不到——他们要卖算力。开源做不到——没人同时控制五层。数据物理上从不离开用户设备。当前覆盖 Apple 生态，跨平台架构已就绪。

你的 Agent

Edge Kit

推理 SDK

Edge Halo

模型进化 · HALO 专利

Edge Mesh

设备协同

Edge Engine

原生推理内核 · DSR 注意力

Edge Studio

优化工作台

Edge Scaffold

一键发布应用

获取早期访问

注册以获得 Edge 开发者产品公开发布时的通知。我们会发送配置指南并邀请你加入开发者预览计划。

持续学习

HALO 专利算法

行业在探索让模型持续学习。我们在端侧率先落地。

Google、OpenAI、Anthropic 都在研究如何让模型随用户成长——但他们的方案依赖云端，数据必须上传。Edge Halo 基于我们专利的 HALO 算法体系，将完整的进化闭环放在用户设备上：从行为采集、画像提取、适配器训练到实时调控，数据物理上从不离开设备。

采集

用户交互数据在设备本地加密存储

画像

提取用户偏好的几何表征——不是关键词，是模型激活空间中的方向

训练

在用户自己的 Mac 上训练轻量适配器，通过设备网格传回手机

调控

实时注入到推理过程，无需重新加载模型

回滚

用户随时一键恢复到基础模型

云端 vs 端侧

数据上传到云端服务器

数据从不离开用户设备

平台拥有用户画像

用户拥有自己的画像

需要持续的网络连接

完全离线可用

所有用户共享同一模型

每个用户有自己的适配器

平台决定何时更新

用户决定何时训练和回滚

Edge Halo 文档准备中

Edge 产品系列

Edge Engine

面向 Apple Silicon 的原生 Metal runtime

面向推理构建的 runtime。Metal 命令调度、张量抽象、模型族实现，是 Edge Kit 的基础层。

Edge Kit

端侧 AI Swift SDK

完整推理 SDK，支持 LLM、VLM、ASR 和 TTS。流式输出、多轮对话、自动内存管理、LoRA adapter 支持。

Edge Halo

模型自我进化

让模型随用户成长。用户画像、adapter 生命周期管理、实时 activation steering。所有数据留在设备上。

Edge Scaffold

从模型到 App Store

iOS App 模板。一个配置文件、自动设备检测、四级模型分发。从优化模型到可发布应用。

Edge Studio

模型优化工作台

分析、优化、基准测试并导出模型。支持 117+ 架构、设备级建议、一键生成 App。

实测性能

不是 PPT 数字 — 全部真机实测

Qwen3.5-9B-4bit，200 轮连续对话压力测试，每轮增量记录。

11.5TPS

9B 持续吞吐

iPhone 17 Pro · 200 轮稳定

<1s

首 token 延迟

9B 平均 496ms（17 Pro）

7×

Prefill 加速

自研算子 vs 通用框架

2.1×

VLM 图片处理

1803 vs 851 TPS

9B 模型 · 200 轮对话 · 逐设备实测

设备	芯片	RAM	首轮	平均	末轮	TTFT
iPhone 17 Pro	A19 Pro	12G	13.6	11.5	11.4	496ms
iPhone Air	A19 Pro	12G	9.1	8.2	8.75	868ms
iPad Air M3	M3	8G	~9	9.1	9.06	2192ms

TPS = tokens/sec · TTFT = 平均首 token 延迟 · Qwen3.5-9B-4bit · iPad Air M3 为 2048 tokens/轮 + 上下文压缩，余 1024 tokens/轮

自研推理内核 vs 通用框架

Text Prefill (4B)

1305vs187TPS

7×

Text Prefill (9B)

843vs122TPS

6.9×

VLM Prefill (4B)

1803vs851TPS

2.1×

VLM Prefill (9B)

1234vs511TPS

2.4×

M2 Ultra 192GB · 对比基准: mlx_vlm (Python MLX)

已发布 — 由 Edge 技术驱动

Vanilla

已发布

面向研究者、学习者和教育者的大模型推理实时可视化。v1.0.4 新增 VLM 图片输入、模型发现、更快的可视化渲染、动画过渡和错误恢复。

下载了解更多

逐 Token 可视化与概率视图用于模型行为分析的层级探索专家、引导、叙事、儿童模式暂停、单步、回放，交互式检查推理过程模型发现面板与本地模型扫描无需重启的错误恢复