icon

美团开源LongCat-Next:3B参数统一视觉理解、生成与语音

据 1M AI News 监测,美团龙猫团队开源 LongCat-Next,一个基于 MoE 架构、激活参数 3B 的原生多模态模型,在单一自回归框架下统一了文本、视觉理解、图像生成、语音理解和语音合成五种能力。模型及配套分词器以 MIT 许可证开源,权重已上线 HuggingFace。LongCat-Next 的核心设计是 DiNA(离散原生自回归)范式:通过为每种模态设计配对的分词器和解码器,将视觉和音频信号转化为离散 token,与文本共享同一嵌入空间,用统一的 next-token prediction 完成所有任务。视觉侧的关键组件 dNaViT(离散原生分辨率 Vision Transformer)将图像特征提取为「视觉词」,支持动态分词和解码,在 28 倍压缩比下仍保持较强的图像生成质量,尤其在文字渲染方面表现突出。在同等激活参数量级(A3B)的模型对比中,LongCat-Next 的主要基准表现:1. 视觉理解:MMMU-Pro 60.3(Qwen3-Omni 57.0,GPT5-minimal 62.7),MathVista 83.1(Qwen3-Omni 75.9,GPT5-minimal 50.9),MathVision 64.7(领先所有对比模型),DocVQA 94.22. 图像生成:GenEval 84.44,LongText-EN 93.15(FLUX.1-dev 60.70,Emu-3.5 97.60)3. 编程:SWE-Bench 43.0(Kimi-Linear-48B 32.8,Qwen3-Next-80B 37.6)4. Agent 工具调用:Tau2-Retail 73.68(Qwen3-Next 57.3),Tau2-Telecom 62.06(Qwen3-Next 13.2)在理解与生成统一模型的横向对比中,LongCat-Next 的 MMMU 得分 70.6 领先第二名 NEO-unify(68.9),大幅超过 BAGEL(55.3)和 Ovis-U1(51.1)等此前的统一模型方案。SWE-Bench 43.0 和 Tau2 系列工具调用基准的表现也说明,这一多模态统一架构并未牺牲纯文本和 Agent 能力。
雷電財經提醒:请广大读者理性看待区块链,切实提高风险意识,警惕各类虚拟代币发行与炒作,站内所有内容仅系市场信息或相关方观点,不构成任何形式投资建议。如发现站内内容含敏感信息,可通过 举报 联系我们 ,我们会及时处理。
11:57 , 2026-03-26

美团开源LongCat-Next:3B参数统一视觉理解、生成与语音