AI系列跟踪(67):GPT-4O上线原生图像生成功能 阿里开源首个端到端全模态大模型
事件描述
3 月26 日,OpenAI 推出GPT-4o 原生图像生成,该功能已在ChatGPT 全量开放。3 月27日,阿里发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni,可同时处理文本、图像、音频和视频等多种输入,并实时生成文本与自然语音合成输出。
事件评论
GPT-4o 原生图像生成功能上线,全量开放引发热潮。GPT-4o 图像生成功能依赖于原生嵌入在ChatGPT 内的自回归模型,意味着生成图片时不再需要单独调用DALL-E 3 模型,主要具有以下优势:1)更好的文本渲染能力:与过去难以生成清晰、恰当位置文字的AI 模型不同,GPT-4o 可以在图像上生成没有拼写错误的连贯文本,并准确地将文字嵌入图像中,能够制作logo、菜单、邀请函和信息图等;2)增强的上下文理解能力:GPT-4o 充分调用内置知识库和对话上下文,允许用户在互动中不断细化图像,基于先前的图像和文本进行扩展,并且确保多个交互之间的视觉一致性;3)强大的指令遵循能力:过去的模型难以正确定位场景中的多个不同物体,而GPT-4o 现在可以一次处理多达10 至20 个物体,并对物体、特征及关系绑定具备更强的控制力;4)支持多样化风格:该模型可以将图像转化为多种风格,支持从手绘草图到高清写实风格的转换。目前,该模型已经作为ChatGPT 的默认图像生成引擎,向ChatGPT 和Sora 平台的Plus、Pro、Team 和免费用户开放,企业版、教育版以及API 接口也将在不久后支持该功能。
阿里开源首个端到端全模态大模型,全新架构赋能全模态性能优势。3 月27 日,阿里发布并开源首个端到端全模态大模型通义千问Qwen2.5-Omni-7B,主要具备以下优势:1)全能创新架构:Qwen2.5-Omni 采用全新Thinker-Talker 双核架构,原生支持视频、图片、语音、文字等多模态输入,并能原生生成语音及文字等多模态输出,以接近人类的多感官方式“立体”认知世界并与之实时交互。2)全模态性能优势:在多模态融合任务OmniBench等测评中,Qwen2.5-Omni 刷新业界纪录,全维度超越Gemini-1.5-Pro 等同类模型。此外,Qwen2.5-Omni 在单模态任务中也表现优异,在语音理解/图片理解/视频理解/语音生成等领域的测评结果均领先于专门的Audio 或VL 模型,且4.51 的语音生成测评分数达到了与人类能力持平的水平。3)轻量模型易部署:Qwen2.5-Omni 以7B 的小尺寸提升了全模态大模型在产业上广泛应用的可能性,目前不仅开发者和企业可免费下载商用Qwen2.5-Omni,手机等终端智能硬件也可部署运行。4)通义已成为全球第一开源大模型:自2023 年起,通义团队陆续开发了200 多款全尺寸大模型,截至3 月27 日,海内外AI 开源社区中,千问Qwen 的衍生模型数量突破10 万,是公认的全球第一开源模型。
AI 技术的快速发展正在不断推动行业创新和应用场景的拓展。模型能力的提升有助于强化专业领域的解决方案;而AI 技术在各行业中的深入应用亦将推动行业的智能和创新化发展。我们认为AI 技术及应用领域持续突破,建议持续关注AI 在IP、AI Agent、游戏、影视等领域的商业化落地。
风险提示
1、AI 技术发展不及预期风险;
2、内容监管风险。