Developer Preview

让 AI 在每台设备上生长

端侧模型优化、推理、个性化、跨设备协同、一键发布 — 全链路自有代码,零云依赖。当前支持 Apple 平台,更多平台即将到来。

文档准备中GitHub
main.swift
import EdgeInference

let engine = LLMEngine()
try await engine.load(config: .find(
    modelID: "qwen3.5-4b"
)!)

for try await chunk in engine.generate(
  messages: [.user("What is edge AI?")]
) {
  print(chunk.text, terminator: "")
}

5 行代码 — 加载模型,流式推理

全栈自有

从推理内核到 Agent 发布 — 全链路自有代码

云 AI 做不到——他们要卖算力。开源做不到——没人同时控制五层。数据物理上从不离开用户设备。当前覆盖 Apple 生态,跨平台架构已就绪。

你的 Agent
Edge Kit
推理 SDK
Edge Halo
模型进化 · HALO 专利
Edge Mesh
设备协同
Edge Engine
原生推理内核 · DSR 注意力
Edge Studio
优化工作台
Edge Scaffold
一键发布应用

获取早期访问

注册以获得 Edge 开发者产品公开发布时的通知。我们会发送配置指南并邀请你加入开发者预览计划。

持续学习

HALO 专利算法

行业在探索让模型持续学习。我们在端侧率先落地。

Google、OpenAI、Anthropic 都在研究如何让模型随用户成长——但他们的方案依赖云端,数据必须上传。Edge Halo 基于我们专利的 HALO 算法体系,将完整的进化闭环放在用户设备上:从行为采集、画像提取、适配器训练到实时调控,数据物理上从不离开设备。

采集

用户交互数据在设备本地加密存储

画像

提取用户偏好的几何表征——不是关键词,是模型激活空间中的方向

训练

在用户自己的 Mac 上训练轻量适配器,通过设备网格传回手机

调控

实时注入到推理过程,无需重新加载模型

回滚

用户随时一键恢复到基础模型

云端 vs 端侧

数据上传到云端服务器
数据从不离开用户设备
平台拥有用户画像
用户拥有自己的画像
需要持续的网络连接
完全离线可用
所有用户共享同一模型
每个用户有自己的适配器
平台决定何时更新
用户决定何时训练和回滚
Edge Halo 文档准备中

Edge 产品系列

01

Edge Engine

面向 Apple Silicon 的原生 Metal runtime

面向推理构建的 runtime。Metal 命令调度、张量抽象、模型族实现,是 Edge Kit 的基础层。

02

Edge Kit

端侧 AI Swift SDK

完整推理 SDK,支持 LLM、VLM、ASR 和 TTS。流式输出、多轮对话、自动内存管理、LoRA adapter 支持。

03

Edge Halo

模型自我进化

让模型随用户成长。用户画像、adapter 生命周期管理、实时 activation steering。所有数据留在设备上。

04

Edge Scaffold

从模型到 App Store

iOS App 模板。一个配置文件、自动设备检测、四级模型分发。从优化模型到可发布应用。

05

Edge Studio

模型优化工作台

分析、优化、基准测试并导出模型。支持 117+ 架构、设备级建议、一键生成 App。

实测性能

不是 PPT 数字 — 全部真机实测

Qwen3.5-9B-4bit,200 轮连续对话压力测试,每轮增量记录。

11.5TPS
9B 持续吞吐
iPhone 17 Pro · 200 轮稳定
<1s
首 token 延迟
9B 平均 496ms(17 Pro)
Prefill 加速
自研算子 vs 通用框架
2.1×
VLM 图片处理
1803 vs 851 TPS

9B 模型 · 200 轮对话 · 逐设备实测

设备芯片RAM首轮平均末轮TTFT
iPhone 17 ProA19 Pro12G13.611.511.4496ms
iPhone AirA19 Pro12G9.18.28.75868ms
iPad Air M3M38G~99.19.062192ms

TPS = tokens/sec · TTFT = 平均首 token 延迟 · Qwen3.5-9B-4bit · iPad Air M3 为 2048 tokens/轮 + 上下文压缩,余 1024 tokens/轮

自研推理内核 vs 通用框架

Text Prefill (4B)
1305vs187TPS
Text Prefill (9B)
843vs122TPS
6.9×
VLM Prefill (4B)
1803vs851TPS
2.1×
VLM Prefill (9B)
1234vs511TPS
2.4×

M2 Ultra 192GB · 对比基准: mlx_vlm (Python MLX)

已发布 — 由 Edge 技术驱动

Vanilla

Vanilla

已发布

面向研究者、学习者和教育者的大模型推理实时可视化。v1.0.4 新增 VLM 图片输入、模型发现、更快的可视化渲染、动画过渡和错误恢复。