美团 LongCat-Next 开源：原生全模态统一框架重磅发布

过去两年，多模态模型越来越强大，能看图、能画图、能语音对话。但把这些模型的底层拆开来看，会发现大部分都是将语言模型作为主干，视觉和语音作为外挂。各模块之间目标不一致，互相拉扯，整体效果反而上不去。

直到最近，美团龙猫团队给出了不一样的解法，并重磅开源一个原生全模态模型：LongCat-Next。

它的思路说起来很直接：把图像、语音也变成跟文字一样的东西，然后用同一套「猜下一个是什么」的逻辑，把三种信号统一处理。

在文档理解测试当中超过GPT5-minimal和Qwen3-VL，图像文字生成大幅领先FLUX.1-dev模型，更在语音推理测试中，拿下第一。

实际表现如何？

拍张照片，公式全给你整理好：在光线暗淡环境下，拍摄上传一张数学练习题，页面密密麻麻全是数学公式。LongCat-Next能逐行扫描还原，输出整洁的文档格式，连复杂的数学公式符号都没漏掉。

一句话描述，直接生成国潮T恤：输入一段中文描述：”国潮风T恤，白色正面印一条威风凛凛的中国龙，龙口火焰里藏着「乘风破浪」四个字，红金黑三色搭配”。生成出来的效果，细节还原度相当高，衣服上面的中英文清晰可读。

开口就是地方口音，听不出是AI生成的：使用LongCat-Next生成的语音，不仅能生成标准的普通话，还能是地方口音。语气、情感、停顿的节奏，听起来极其拟人化，完全不像机器在念稿子。

文字、图像、语音，三条线全部收进同一套框架，这套看似简单的统一，正是LongCat-Next与其他多模态模型最根本的不同。

GitHub：https://github.com/meituan-longcat/LongCat-Next

文章版权归作者所有，未经允许请勿转载。

1年前

2.5K0

1年前

2.7K0

15小时前

1470

1年前

1.8K0