研究

端侧 AI 原创研究 — 模型压缩、硬件感知推理与个人数据整合。

MLXLayerStream

按层流式卸载:在 8GB 边缘设备上运行 9B+ 大模型

通过从 NVMe 存储按层流式加载权重,使超出设备内存的模型能在 iPad 和 iPhone 上推理。88% 峰值内存减少,带宽缩放在 Apple Silicon 设备上得到验证。

  • 60–88% 内存减少:27B 模型仅需 1.7 GB 峰值内存即可运行
  • 9B-6bit 在 8GB iPad 上 OOM 证明所有 9B+ 模型都需要流式加载
  • iPad/iPhone TPS 比值 = 1.92x 完美匹配 2x 带宽比
speculative-moe-research

推测解码对混合专家模型有帮助吗?

306 次实验的实证研究表明,尽管草稿接受率低于 4%,推测解码仍能为 Qwen3.5-35B-A3B MoE 模型提供 1.18–1.30× 加速,其机制是批量验证摊销减少了内存带宽开销。

  • 0.8B 草稿模型在 γ=16 时实现 1.30× MoE 加速,接受率仅 0.2%
  • 加速与总参数量(内存带宽)而非活跃参数量成正比
  • 批量验证摊销:超越接受率的新 SD 加速机制
apple-silicon-llm-inference

Apple Silicon 端侧 LLM 推理:从量化到投机解码

对 Qwen3.5 在三台 Apple Silicon 设备(M2 Ultra、M1 Max、M2 Pro)上的 7 种 GGUF 量化级别和投机解码进行系统性基准测试,确立 Q6_K 为 Pareto 最优选择,≥2.5× 草稿/目标速比为 SD 可行性阈值。

  • Q6_K Pareto 最优:速度提升 1.68 倍,体积缩小 59%,PPL 损失 0.54%
  • 投机解码吞吐量提升 +25.7%(0.8B→9B,k=4)
  • GGML_RPC 跨设备 SD:79% 开销——不适合生产部署
Prism

消费级硬件上的跨域个人数据整合

在消费级 Apple Silicon 上整合财务、饮食、情绪和阅读数据,产生涌现式跨域洞察,零数据泄漏。

  • 1.48x 跨域洞察涌现增量 (IIR)
  • 125.5x 联邦压缩比,零数据泄漏
  • 49.9 TPS 实时推理 (35B on M2 Ultra)
hybird-batch-prefill-on-ane

ANE 批量预填充实现端侧并行 LLM 推理

通过融合批量矩阵-向量内核,在 Apple Silicon 上实现 ANE 预填充与 GPU 解码并发执行,批量调度吞吐量提升 11.3 倍。

  • 批量调度加速 11.3 倍 (268 tok/s)
  • 并发管线功耗降低 79%
  • 多轮对话 TTFT 仅 27ms
hybrid-ane-mlx-bench

Apple Silicon 上的分离式 LLM 推理

基准测试 CoreML ANE 预填充 + MLX GPU 解码,在 Apple Silicon 上对比四种 Qwen3.5 推理策略。

  • ANE 预填充在约 410 token 处追平 GPU
  • 预填充阶段 GPU 功耗降低 282 倍
  • 4 种推理管线全面基准测试
swift-qwen3-tts

端侧文本转语音

Qwen3 TTS 0.6B 的原生 Swift 实现,支持实时端侧语音合成。

  • 67% 模型压缩 (2.35 GB → 808 MB)
  • 实时合成 (RTF 0.68x)
  • 支持 12 种语言
Gemma-Prune

端侧视觉语言模型

多阶段压缩管线,将 Gemma 3 4B VLM 部署到消费级硬件。

  • 25% 模型压缩 (2.8 GB → 2.1 GB)
  • 110 tok/s 文本生成
  • 3.4x 图像处理加速
OptMLX

MLX 内存优化研究

探索 Apple Silicon 上 MLX 框架的内存优化技术。

  • mmap 加载速度提升高达 20 倍
  • 零拷贝模型加载
  • 全面的性能基准测试