youxihw下载站:汇聚最热门软件,安全、高速、放心的专业下载站!

您现在的位置:首页 > 资讯教程 > 资讯详情

美团推出并开源LongCat-Flash-Omni模型:可实现实时音视频交互,性能达到行业领先水平

2026-01-12作者:admin

11月3日消息,美团曾于9月1日正式推出LongCat-Flash系列模型,目前已开源LongCat-Flash-Chat与LongCat-Flash-Thinking两个版本,受到了开发者的关注。而在今日,LongCat-Flash系列迎来了新的家族成员——LongCat-Flash-Omni的正式发布。

IT之家从官方介绍了解到,LongCat-Flash-Omni 依托 LongCat-Flash 系列的高效架构设计(即 Shortcut-Connected MoE,包含零计算专家),并且创新性地整合了高效多模态感知模块与语音重建模块。即便其总参数达到 5600 亿(激活参数为 270 亿)的庞大规模,依然具备低延迟的实时音视频交互能力,能为开发者的多模态应用场景提供更高效的技术方案。

综合评估结果显示,LongCat-Flash-Omni 在全模态基准测试中处于开源领域的最先进水平(SOTA),并且在文本、图像、视频理解以及语音感知与生成等核心单模态任务上,都表现出了极强的竞争力。LongCat-Flash-Omni 是行业内首个集“全模态覆盖、端到端架构、大参数量高效推理”于一身的开源大语言模型,首次在开源范围内实现了全模态能力与闭源模型的对标,同时依靠创新的架构设计和工程优化,使得大参数模型在多模态任务中也能达成毫秒级响应,了行业内推理延迟的难题。

LongCat-Flash-Omni 继承了该系列出色的文本基础能力,并且在多个领域都展现出领先的性能表现。和 LongCat-Flash 系列的早期版本相比,这款模型不仅没有出现文本能力的下降,反而在部分领域取得了性能上的进步。这样的结果不仅证明了我们训练策略的有效性,更突出了在全模态模型训练过程中不同模态之间所蕴含的协同价值。

图像理解方面:LongCat-Flash-Omni 的性能(在RealWorldQA数据集上得分为74.8分)和闭源全模态模型 Gemini-2.5-Pro 不相上下,并且比开源模型 Qwen3-Omni 表现更好;它在多图像任务上的优势特别突出,这主要是因为在高质量的交织图文、多图像以及视频数据集上进行训练所取得的成果。

音频能力方面,我们从自动语音识别(ASR)、文本转语音(TTS)以及语音续写这几个维度展开评估。在指令模型层面,其表现十分亮眼:ASR任务上,在LibriSpeech、AISHELL-1等数据集的测试结果优于Gemini-2.5-Pro;语音到文本翻译(S2TT)在CoVost2数据集上展现出强劲实力;音频理解任务中,在TUT2017、Nonspeech7k等任务上达到了当前最优水平;音频到文本对话在OpenAudioBench、VoiceBench上表现优异,实时音视频交互的评分与闭源模型接近,类人性指标更是胜过GPT-4o,成功实现了从基础能力到实用交互的高效转化。

视频理解方面,LongCat-Flash-Omni在视频到文本任务上的性能目前处于最优水平,其中短视频理解效果显著超过现有参评模型,长视频理解能力则可与Gemini-2.5-Pro和Qwen3-VL相媲美。这一出色表现主要得益于其采用的动态帧采样、分层令牌聚合的视频处理策略,以及高效骨干网络对长上下文的良好支持。

跨模态理解方面:性能超越Gemini-2.5-Flash(非思考模式),与Gemini-2.5-Pro(非思考模式)不相上下;特别是在真实世界音视频理解的WorldSense基准测试中,对比其他开源全模态模型呈现出明显的性能领先性,这一表现验证了其高效的多模态融合能力,使其成为目前综合能力处于领先地位的开源全模态模型。

端到端交互表现方面,鉴于当下行业内缺乏成熟的实时多模态交互评估体系,LongCat团队针对性地搭建了一套专属的端到端评测方案。这套方案包含两部分:一是定量的用户评分(共250名用户参与评分),二是定性的专家分析(由10名专家对200个对话样本展开分析)。从定量结果来看,在端到端交互的自然度与流畅度维度上,LongCat-Flash-Omni在开源模型里优势明显,其评分比当前性能最优的开源模型Qwen3-Omni高出0.56分;而定性分析结果显示,LongCat-Flash-Omni在副语言理解、内容相关性以及记忆能力这三个维度上,已能与顶级模型相媲美,但在实时响应速度、交互类人性以及输出准确性这三个维度仍有提升空间,团队也计划在后续工作中对这些方面进行进一步优化。

Tags:责任编辑:admin

热门文章

  • 火环冰队的组队方法是什么

    在热门游戏里,火环冰队的搭配能带来别具一格的战斗体验。下面为大家分享一套实用的组队攻略。 核心角色选择 -火属性输出核心:挑选拥有高爆发火技能的角色,像可以瞬间施展大范围高伤害火环的角色就很合适。这类角色在战斗一开始就能对敌人造成强力攻击,快速降低敌方的生命值。 -冰属性控制型角色:拥有强力冰系控制技能的角色是队伍里必不可少的存在。这类角色可以是能将敌人冻结使其无法行动的,也可以是能制造出减速区域影响敌人移动的。借助冰属性控制效果,能够有效限制敌人的行动能力,从而为整个团队营造出良好的输出空间。 辅助型角色的作用十分关键,他们能够为队伍带来增伤、回血等各类辅助效果。举例来说,有的辅助角色可以增强火属性伤害输出,还有的能在队友生命值下降时迅速为其恢复血量。 组队搭配思路 -利用火环的高爆发伤害作为主要输出手段,在战斗开始时集中火力攻击敌方关键目标。 冰属性控制型角色可把握时机施展技能,通过冻结敌人或创造减速区域,既能阻挡敌人接近我方输出核心,又能扰乱敌方的进攻节奏。 辅助角色时刻留意队友的状态,及时为火属性输出核心提供增伤效果,助力其打出更高伤害;当队友受伤时,他们会迅速为队友回血,保障团队的生存能力。 战斗技巧 战斗开场阶段,火属性的核心输出角色率先施放大范围的火环技能,以此对敌方全体造成高额伤害;与此同时,冰属性的控制型角色同步释放冰系控制技能,将敌方前排单位或关键输出点冻结限制。 在战斗时,要依据敌方的行动来调整技能的释放时机。要是敌方冲破了我方的防线,冰属性的控制角色就得马上在他们的行进路径上释放减速或冻结技能,以此阻拦其继续前进。 -辅助角色要时刻留意队友血量,及时使用回血技能。同时,持续为火属性输出核心提供增伤效果,保持其输出能力。 -当敌方有强力技能准备释放时,提前预判,利用冰属性控制技能打断敌方技能释放,保护我方团队。 实战演练 在实际战斗里,依照上述的组队方式与战斗技巧来执行操作。持续借助实战来打磨团队之间的配合,熟练掌握每个角色技能的释放时机。经过多次战斗积累相应经验,就能让火环冰队在游戏里展现出强劲的实力,从容应对各类挑战,赢得胜利。
  • 伊瑟开服卡池该怎么选
  • 在洛克王国里怎样才能获得哭哭菇
  • 厉害的0516铃铛怎么样
  • 嘟嘟脸恶作剧里的小桃表现如何
  • 猴面小龙兰具有哪些特征?
  • 无主之地4里唱片骑师这把武器的具体效果是怎样的
  • 黑龙江全省事app养老金认证操作指南
  • 全民K歌里怎么才能只演唱歌曲的部分片段呢
  • 怎样使用台风路径查询app