icon

Ollama以MLX重建Apple Silicon推理引擎:decode速度近翻倍,已适配Claude Code

据 1M AI News 监测,Ollama 发布 0.19 预览版,以苹果机器学习框架 MLX 重建了 Apple Silicon 上的推理引擎,利用统一内存架构提升性能,并在 M5/M5 Pro/M5 Max 芯片上调用 GPU 神经网络加速器同时优化首 token 延迟和生成速度。3 月 29 日的基准测试在 M5 系列芯片上运行 Qwen3.5-35B-A3B 模型(英伟达 NVFP4 量化),与 Ollama 0.18 相比:prefill 速度从 1154 tokens/s 提升至 1810 tokens/s,decode 速度从 58 tokens/s 提升至 112 tokens/s,接近翻倍。改用 int4 精度时,prefill 可进一步达到 1851 tokens/s,decode 达 134 tokens/s。0.19 版同步新增对英伟达 NVFP4 量化格式的支持。NVFP4 是一种在降低内存带宽和存储占用的同时保持模型精度的量化方式,与英伟达 Model Optimizer 优化的模型兼容,也与主流云端推理服务商的生产环境保持格式一致。缓存系统同步升级,支持跨会话复用(使用 Claude Code 等工具时,共享系统提示词可获得更多缓存命中)、在提示词关键位置存储快照以减少重复处理,以及更智能的缓存淘汰策略。此预览版需要 32GB 以上统一内存的 Mac,当前专为编程任务调优的模型为 Qwen3.5-35B-A3B,可通过 ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 接入 Claude Code。
雷電財經提醒:请广大读者理性看待区块链,切实提高风险意识,警惕各类虚拟代币发行与炒作,站内所有内容仅系市场信息或相关方观点,不构成任何形式投资建议。如发现站内内容含敏感信息,可通过 举报 联系我们 ,我们会及时处理。
15:35 , 2026-03-31

Ollama以MLX重建Apple Silicon推理引擎:decode速度近翻倍,已适配Claude Code