研究
端侧 AI 原创研究 — 模型压缩、硬件感知推理与个人数据整合。
MLXLayerStream
按层流式卸载:在 8GB 边缘设备上运行 9B+ 大模型
通过从 NVMe 存储按层流式加载权重,使超出设备内存的模型能在 iPad 和 iPhone 上推理。88% 峰值内存减少,带宽缩放在 Apple Silicon 设备上得到验证。
- ▶60–88% 内存减少:27B 模型仅需 1.7 GB 峰值内存即可运行
- ▶9B-6bit 在 8GB iPad 上 OOM 证明所有 9B+ 模型都需要流式加载
- ▶iPad/iPhone TPS 比值 = 1.92x 完美匹配 2x 带宽比
speculative-moe-research
推测解码对混合专家模型有帮助吗?
306 次实验的实证研究表明,尽管草稿接受率低于 4%,推测解码仍能为 Qwen3.5-35B-A3B MoE 模型提供 1.18–1.30× 加速,其机制是批量验证摊销减少了内存带宽开销。
- ▶0.8B 草稿模型在 γ=16 时实现 1.30× MoE 加速,接受率仅 0.2%
- ▶加速与总参数量(内存带宽)而非活跃参数量成正比
- ▶批量验证摊销:超越接受率的新 SD 加速机制
apple-silicon-llm-inference
Apple Silicon 端侧 LLM 推理:从量化到投机解码
对 Qwen3.5 在三台 Apple Silicon 设备(M2 Ultra、M1 Max、M2 Pro)上的 7 种 GGUF 量化级别和投机解码进行系统性基准测试,确立 Q6_K 为 Pareto 最优选择,≥2.5× 草稿/目标速比为 SD 可行性阈值。
- ▶Q6_K Pareto 最优:速度提升 1.68 倍,体积缩小 59%,PPL 损失 0.54%
- ▶投机解码吞吐量提升 +25.7%(0.8B→9B,k=4)
- ▶GGML_RPC 跨设备 SD:79% 开销——不适合生产部署
Prism
消费级硬件上的跨域个人数据整合
在消费级 Apple Silicon 上整合财务、饮食、情绪和阅读数据,产生涌现式跨域洞察,零数据泄漏。
- ▶1.48x 跨域洞察涌现增量 (IIR)
- ▶125.5x 联邦压缩比,零数据泄漏
- ▶49.9 TPS 实时推理 (35B on M2 Ultra)
hybird-batch-prefill-on-ane
ANE 批量预填充实现端侧并行 LLM 推理
通过融合批量矩阵-向量内核,在 Apple Silicon 上实现 ANE 预填充与 GPU 解码并发执行,批量调度吞吐量提升 11.3 倍。
- ▶批量调度加速 11.3 倍 (268 tok/s)
- ▶并发管线功耗降低 79%
- ▶多轮对话 TTFT 仅 27ms
hybrid-ane-mlx-bench
Apple Silicon 上的分离式 LLM 推理
基准测试 CoreML ANE 预填充 + MLX GPU 解码,在 Apple Silicon 上对比四种 Qwen3.5 推理策略。
- ▶ANE 预填充在约 410 token 处追平 GPU
- ▶预填充阶段 GPU 功耗降低 282 倍
- ▶4 种推理管线全面基准测试
swift-qwen3-tts
端侧文本转语音
Qwen3 TTS 0.6B 的原生 Swift 实现,支持实时端侧语音合成。
- ▶67% 模型压缩 (2.35 GB → 808 MB)
- ▶实时合成 (RTF 0.68x)
- ▶支持 12 种语言
Gemma-Prune
端侧视觉语言模型
多阶段压缩管线,将 Gemma 3 4B VLM 部署到消费级硬件。
- ▶25% 模型压缩 (2.8 GB → 2.1 GB)
- ▶110 tok/s 文本生成
- ▶3.4x 图像处理加速
OptMLX
MLX 内存优化研究
探索 Apple Silicon 上 MLX 框架的内存优化技术。
- ▶mmap 加载速度提升高达 20 倍
- ▶零拷贝模型加载
- ▶全面的性能基准测试