当前位置: 首页 > 科技

智源发布原生多模态世界模型 Emu3,宣称实现图像、文本、视频大一统

感谢IT之家网友 HH_KK 的线索投递!

IT之家 10 月 21 日消息,智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测,无需扩散模型或组合方法,即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统

在图像生成任务中,基于人类偏好评测,Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中,对于 12 项基准测试的平均得分,Emu3 优于 LlaVA-1.6。在视频生成任务中,对于 VBench 基准测试得分,Emu3 优于 OpenSora 1.2。

据介绍,Emu3 提供了一个强大的视觉 tokenizer,能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时,该模型输出的离散 token 可以被转换为文本、图像和视频,为 Any-to-Any 的任务提供了更加统一的研究范式。

▲ Emu3 生成的图像▲ Emu3 生成的图像

Emu3 研究结果证明,下一个 token 预测可以作为多模态模型的一个强大范式,实现超越语言本身的大规模多模态学习,并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身,能在大规模训练和推理中释放巨大的潜力。

目前 Emu3 已开源了关键技术和模型,IT之家附链接如下:

  • 代码https://github.com/baaivision/Emu3

  • 项目页面https://emu.baai.ac.cn/

  • 模型:https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。

图像it之家 新浪众测 新浪众测 新浪科技公众号 新浪科技公众号

“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)

相关新闻
本文来源于网络,不代表贵州新闻热线立场,转载请注明出处
转发到:
拓展阅读
  • 快科技6月24日消息,近日,印度媒体《印度时报》报道称,上海海立集团(隶属上海电气)同意向印度塔塔集团旗下Voltas公司转让空调压缩机技术,并在合资企业中仅担任小股东。该消息传到国内后引发网民激烈批评,指责国企“倒贴技术”“养虎为患”,一[全文]
    2025-06-24 23:51
  • 新兴的AI智能体是人工智能革命的一个根本性转折点,从与您聊天到为您做事——AI智能体具备了前所未有的自主性。几十年来,与强大的企业系统进行交互需要具备专业知识,才能得以浏览由复杂接口组成的庞大网络。AI智能体降低了获得AI动力的门槛。通过对[全文]
    2025-06-24 23:48
  • 在全球科技竞争日益激烈的背景下,科研范式正向跨学科、智能化、高通量方向加速转型。上海交通大学以“重塑科研范式”为目标,提出建设全球领先的“超级科研平台”。6月23日,上海交通大学宣布启用超级科研平台。据介绍,该平台是一个以科学发现为目标,全[全文]
    2025-06-25 00:00
  • 近日,优派推出了一款新型显示器VX25G26,这款产品主打2K分辨率和250Hz刷新率,目前售价为999元。该显示器配备了一块24.5英寸的Fast IPS面板,原生刷新率为240Hz,通过超频可提升至250Hz。响应时间方面,灰阶响应时间[全文]
    2025-06-18 00:22
  • 探索本地游戏新乐趣!本文带你揭秘4人同乐的最佳选择,十大必玩的经典4人本地游戏悉数推荐。无论你是寻求策略深度还是欢乐互动,这里定能找到让你和朋友们聚会时笑声连连的游戏宝藏。立即翻开,让愉快的时光在桌游之夜翻倍欢愉!《小叮当赛车手》是一款迷你[全文]
    2025-06-18 00:43
阿里云服务器
腾讯云秒杀
Copyright 2003-2025 by 贵州新闻热线 gz.affnews.cn All Right Reserved.   版权所有