AI系列跟踪(67)：GPT-4O上线原生图像生成功能阿里开源首个端到端全模态大模型

类别：行业机构：长江证券股份有限公司研究员：高超日期：2025-03-31

　　事件描述

    　　3 月26 日，OpenAI 推出GPT-4o 原生图像生成，该功能已在ChatGPT 全量开放。3 月27日，阿里发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni，可同时处理文本、图像、音频和视频等多种输入，并实时生成文本与自然语音合成输出。

    　　事件评论

    　　GPT-4o 原生图像生成功能上线，全量开放引发热潮。GPT-4o 图像生成功能依赖于原生嵌入在ChatGPT 内的自回归模型，意味着生成图片时不再需要单独调用DALL-E 3 模型，主要具有以下优势：1）更好的文本渲染能力：与过去难以生成清晰、恰当位置文字的AI 模型不同，GPT-4o 可以在图像上生成没有拼写错误的连贯文本，并准确地将文字嵌入图像中，能够制作logo、菜单、邀请函和信息图等；2）增强的上下文理解能力：GPT-4o 充分调用内置知识库和对话上下文，允许用户在互动中不断细化图像，基于先前的图像和文本进行扩展，并且确保多个交互之间的视觉一致性；3）强大的指令遵循能力：过去的模型难以正确定位场景中的多个不同物体，而GPT-4o 现在可以一次处理多达10 至20 个物体，并对物体、特征及关系绑定具备更强的控制力；4）支持多样化风格：该模型可以将图像转化为多种风格，支持从手绘草图到高清写实风格的转换。目前，该模型已经作为ChatGPT 的默认图像生成引擎，向ChatGPT 和Sora 平台的Plus、Pro、Team 和免费用户开放，企业版、教育版以及API 接口也将在不久后支持该功能。

    　　阿里开源首个端到端全模态大模型，全新架构赋能全模态性能优势。3 月27 日，阿里发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B，主要具备以下优势：1）全能创新架构：Qwen2.5-Omni 采用全新Thinker-Talker 双核架构，原生支持视频、图片、语音、文字等多模态输入，并能原生生成语音及文字等多模态输出，以接近人类的多感官方式“立体”认知世界并与之实时交互。2）全模态性能优势：在多模态融合任务OmniBench等测评中，Qwen2.5-Omni 刷新业界纪录，全维度超越Gemini-1.5-Pro 等同类模型。此外，Qwen2.5-Omni 在单模态任务中也表现优异，在语音理解/图片理解/视频理解/语音生成等领域的测评结果均领先于专门的Audio 或VL 模型，且4.51 的语音生成测评分数达到了与人类能力持平的水平。3）轻量模型易部署：Qwen2.5-Omni 以7B 的小尺寸提升了全模态大模型在产业上广泛应用的可能性，目前不仅开发者和企业可免费下载商用Qwen2.5-Omni，手机等终端智能硬件也可部署运行。4）通义已成为全球第一开源大模型：自2023 年起，通义团队陆续开发了200 多款全尺寸大模型，截至3 月27 日，海内外AI 开源社区中，千问Qwen 的衍生模型数量突破10 万，是公认的全球第一开源模型。

    　　AI 技术的快速发展正在不断推动行业创新和应用场景的拓展。模型能力的提升有助于强化专业领域的解决方案；而AI 技术在各行业中的深入应用亦将推动行业的智能和创新化发展。我们认为AI 技术及应用领域持续突破，建议持续关注AI 在IP、AI Agent、游戏、影视等领域的商业化落地。

    　　风险提示

    　　1、AI 技术发展不及预期风险；

    　　2、内容监管风险。

鏃�	涓€	浜�	涓�	鍥�	浜�	鍏�
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

AI系列跟踪(67)：GPT-4O上线原生图像生成功能 阿里开源首个端到端全模态大模型

数据推荐

AI系列跟踪(67)：GPT-4O上线原生图像生成功能阿里开源首个端到端全模态大模型