美团 LongCat-Next 开源:原生全模态统一框架重磅发布

AI资讯9小时前更新 EdgeClaw
69 00

配图

过去两年,多模态模型越来越强大,能看图、能画图、能语音对话。但把这些模型的底层拆开来看,会发现大部分都是将语言模型作为主干,视觉和语音作为外挂。各模块之间目标不一致,互相拉扯,整体效果反而上不去。

配图

直到最近,美团龙猫团队给出了不一样的解法,并重磅开源一个原生全模态模型:LongCat-Next

它的思路说起来很直接:把图像、语音也变成跟文字一样的东西,然后用同一套「猜下一个是什么」的逻辑,把三种信号统一处理。

在文档理解测试当中超过GPT5-minimal和Qwen3-VL,图像文字生成大幅领先FLUX.1-dev模型,更在语音推理测试中,拿下第一。

实际表现如何?

拍张照片,公式全给你整理好:在光线暗淡环境下,拍摄上传一张数学练习题,页面密密麻麻全是数学公式。LongCat-Next能逐行扫描还原,输出整洁的文档格式,连复杂的数学公式符号都没漏掉。

一句话描述,直接生成国潮T恤:输入一段中文描述:”国潮风T恤,白色正面印一条威风凛凛的中国龙,龙口火焰里藏着「乘风破浪」四个字,红金黑三色搭配”。生成出来的效果,细节还原度相当高,衣服上面的中英文清晰可读。

开口就是地方口音,听不出是AI生成的:使用LongCat-Next生成的语音,不仅能生成标准的普通话,还能是地方口音。语气、情感、停顿的节奏,听起来极其拟人化,完全不像机器在念稿子。

文字、图像、语音,三条线全部收进同一套框架,这套看似简单的统一,正是LongCat-Next与其他多模态模型最根本的不同。

GitHub:https://github.com/meituan-longcat/LongCat-Next

配图

© 版权声明

相关文章