研究

端侧 AI 原创研究 — 模型压缩、硬件感知推理与个人数据整合。

MLXLayerStream

按层流式卸载：在 8GB 边缘设备上运行 9B+ 大模型

通过从 NVMe 存储按层流式加载权重，使超出设备内存的模型能在 iPad 和 iPhone 上推理。88% 峰值内存减少，带宽缩放在 Apple Silicon 设备上得到验证。

speculative-moe-research

306 次实验的实证研究表明，尽管草稿接受率低于 4%，推测解码仍能为 Qwen3.5-35B-A3B MoE 模型提供 1.18–1.30× 加速，其机制是批量验证摊销减少了内存带宽开销。

apple-silicon-llm-inference

对 Qwen3.5 在三台 Apple Silicon 设备（M2 Ultra、M1 Max、M2 Pro）上的 7 种 GGUF 量化级别和投机解码进行系统性基准测试，确立 Q6_K 为 Pareto 最优选择，≥2.5× 草稿/目标速比为 SD 可行性阈值。

Prism

在消费级 Apple Silicon 上整合财务、饮食、情绪和阅读数据，产生涌现式跨域洞察，零数据泄漏。

hybird-batch-prefill-on-ane

通过融合批量矩阵-向量内核，在 Apple Silicon 上实现 ANE 预填充与 GPU 解码并发执行，批量调度吞吐量提升 11.3 倍。

hybrid-ane-mlx-bench

基准测试 CoreML ANE 预填充 + MLX GPU 解码，在 Apple Silicon 上对比四种 Qwen3.5 推理策略。

swift-qwen3-tts

Qwen3 TTS 0.6B 的原生 Swift 实现，支持实时端侧语音合成。

Gemma-Prune

多阶段压缩管线，将 Gemma 3 4B VLM 部署到消费级硬件。

OptMLX

探索 Apple Silicon 上 MLX 框架的内存优化技术。