Ollama以MLX重建Apple Silicon推理引擎：decode速度近翻倍，已适配Claude Code_雷電財經

据 1M AI News 监测，Ollama 发布 0.19 预览版，以苹果机器学习框架 MLX 重建了 Apple Silicon 上的推理引擎，利用统一内存架构提升性能，并在 M5/M5 Pro/M5 Max 芯片上调用 GPU 神经网络加速器同时优化首 token 延迟和生成速度。3 月 29 日的基准测试在 M5 系列芯片上运行 Qwen3.5-35B-A3B 模型（英伟达 NVFP4 量化），与 Ollama 0.18 相比：prefill 速度从 1154 tokens/s 提升至 1810 tokens/s，decode 速度从 58 tokens/s 提升至 112 tokens/s，接近翻倍。改用 int4 精度时，prefill 可进一步达到 1851 tokens/s，decode 达 134 tokens/s。0.19 版同步新增对英伟达 NVFP4 量化格式的支持。NVFP4 是一种在降低内存带宽和存储占用的同时保持模型精度的量化方式，与英伟达 Model Optimizer 优化的模型兼容，也与主流云端推理服务商的生产环境保持格式一致。缓存系统同步升级，支持跨会话复用（使用 Claude Code 等工具时，共享系统提示词可获得更多缓存命中）、在提示词关键位置存储快照以减少重复处理，以及更智能的缓存淘汰策略。此预览版需要 32GB 以上统一内存的 Mac，当前专为编程任务调优的模型为 Qwen3.5-35B-A3B，可通过 ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 接入 Claude Code。

Ollama以MLX重建Apple Silicon推理引擎：decode速度近翻倍，已适配Claude Code

关联标签

市场行情 (24h)

恐惧贪婪指数

Ollama以MLX重建Apple Silicon推理引擎：decode速度近翻倍，已适配Claude Code