美团开源LongCat-Next：3B参数统一视觉理解、生成与语音_雷電財經

据 1M AI News 监测，美团龙猫团队开源 LongCat-Next，一个基于 MoE 架构、激活参数 3B 的原生多模态模型，在单一自回归框架下统一了文本、视觉理解、图像生成、语音理解和语音合成五种能力。模型及配套分词器以 MIT 许可证开源，权重已上线 HuggingFace。LongCat-Next 的核心设计是 DiNA（离散原生自回归）范式：通过为每种模态设计配对的分词器和解码器，将视觉和音频信号转化为离散 token，与文本共享同一嵌入空间，用统一的 next-token prediction 完成所有任务。视觉侧的关键组件 dNaViT（离散原生分辨率 Vision Transformer）将图像特征提取为「视觉词」，支持动态分词和解码，在 28 倍压缩比下仍保持较强的图像生成质量，尤其在文字渲染方面表现突出。在同等激活参数量级（A3B）的模型对比中，LongCat-Next 的主要基准表现：1. 视觉理解：MMMU-Pro 60.3（Qwen3-Omni 57.0，GPT5-minimal 62.7），MathVista 83.1（Qwen3-Omni 75.9，GPT5-minimal 50.9），MathVision 64.7（领先所有对比模型），DocVQA 94.22. 图像生成：GenEval 84.44，LongText-EN 93.15（FLUX.1-dev 60.70，Emu-3.5 97.60）3. 编程：SWE-Bench 43.0（Kimi-Linear-48B 32.8，Qwen3-Next-80B 37.6）4. Agent 工具调用：Tau2-Retail 73.68（Qwen3-Next 57.3），Tau2-Telecom 62.06（Qwen3-Next 13.2）在理解与生成统一模型的横向对比中，LongCat-Next 的 MMMU 得分 70.6 领先第二名 NEO-unify（68.9），大幅超过 BAGEL（55.3）和 Ovis-U1（51.1）等此前的统一模型方案。SWE-Bench 43.0 和 Tau2 系列工具调用基准的表现也说明，这一多模态统一架构并未牺牲纯文本和 Agent 能力。

美团开源LongCat-Next：3B参数统一视觉理解、生成与语音

关联标签

市场行情 (24h)

恐惧贪婪指数

美团开源LongCat-Next：3B参数统一视觉理解、生成与语音