智源发布原生多模态世界模型 Emu3，宣称实现图像、文本、视频大一统

时间： 2024-10-22 03:41

感谢IT之家网友 HH_KK 的线索投递！

IT之家 10 月 21 日消息，智源研究院今日发布原生多模态世界模型 Emu3。该模型只基于下一个 token 预测，无需扩散模型或组合方法，即可完成文本、图像、视频三种模态数据的理解和生成。官方宣称实现图像、文本、视频大一统。

在图像生成任务中，基于人类偏好评测，Emu3 优于 SD-1.5 与 SDXL 模型。在视觉语言理解任务中，对于 12 项基准测试的平均得分，Emu3 优于 LlaVA-1.6。在视频生成任务中，对于 VBench 基准测试得分，Emu3 优于 OpenSora 1.2。

据介绍，Emu3 提供了一个强大的视觉 tokenizer，能够将视频和图像转换为离散 token。这些视觉离散 token 可以与文本 tokenizer 输出的离散 token 一起送入模型中。与此同时，该模型输出的离散 token 可以被转换为文本、图像和视频，为 Any-to-Any 的任务提供了更加统一的研究范式。

▲ Emu3 生成的图像

Emu3 研究结果证明，下一个 token 预测可以作为多模态模型的一个强大范式，实现超越语言本身的大规模多模态学习，并在多模态任务中实现先进的性能。通过将复杂的多模态设计收敛到 token 本身，能在大规模训练和推理中释放巨大的潜力。

目前 Emu3 已开源了关键技术和模型，IT之家附链接如下：

代码：https://github.com/baaivision/Emu3
项目页面：https://emu.baai.ac.cn/
模型：https://huggingface.co/collections/BAAI/emu3-66f4e64f70850ff358a2e60f

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

关键词 : 图像it之家新浪众测

新浪科技公众号

“掌”握科技鲜闻（微信搜索techsina或扫描左侧二维码关注）

相关新闻

本文来源于网络，不代表贵州新闻热线立场，转载请注明出处

上一篇 松下 Lumix S9 相机 + 18-40mm 镜头套机将于双 11 上市

下一篇 OPPO Reno12 5G手机仅售2279元

转发到:

拓展阅读

曝上海海立同意向印度转让空调压缩机技术官方回应：假的

快科技6月24日消息，近日，印度媒体《印度时报》报道称，上海海立集团（隶属上海电气）同意向印度塔塔集团旗下Voltas公司转让空调压缩机技术，并在合资企业中仅担任小股东。该消息传到国内后引发网民激烈批评，指责国企“倒贴技术”“养虎为患”，一[全文]

2025-06-24 23:51
迎接企业智能体时代：将AI应用于企业整体技术栈

新兴的AI智能体是人工智能革命的一个根本性转折点，从与您聊天到为您做事——AI智能体具备了前所未有的自主性。几十年来，与强大的企业系统进行交互需要具备专业知识，才能得以浏览由复杂接口组成的庞大网络。AI智能体降低了获得AI动力的门槛。通过对[全文]

2025-06-24 23:48
上海交通大学启用超级科研平台

在全球科技竞争日益激烈的背景下，科研范式正向跨学科、智能化、高通量方向加速转型。上海交通大学以“重塑科研范式”为目标，提出建设全球领先的“超级科研平台”。6月23日，上海交通大学宣布启用超级科研平台。据介绍，该平台是一个以科学发现为目标，全[全文]

2025-06-25 00:00
优派推出VX25G26显示器：2K 250Hz高刷，999元首发

近日，优派推出了一款新型显示器VX25G26，这款产品主打2K分辨率和250Hz刷新率，目前售价为999元。该显示器配备了一块24.5英寸的Fast IPS面板，原生刷新率为240Hz，通过超频可提升至250Hz。响应时间方面，灰阶响应时间[全文]

2025-06-18 00:22
海尔Haier W30Max嵌入式洗碗机大容量智能家用优惠价2063元

关键词 : 海尔haier洗碗机 [全文]

2025-06-17 23:59
4 人本地游戏哪个最好玩十大必玩4 人本地游戏推荐

探索本地游戏新乐趣！本文带你揭秘4人同乐的最佳选择，十大必玩的经典4人本地游戏悉数推荐。无论你是寻求策略深度还是欢乐互动，这里定能找到让你和朋友们聚会时笑声连连的游戏宝藏。立即翻开，让愉快的时光在桌游之夜翻倍欢愉！《小叮当赛车手》是一款迷你[全文]

2025-06-18 00:43

信息排行