传媒行业点评报告：多模态发展提速 CHATGPT“文生图”效果大幅提升

类别：行业机构：浙商证券股份有限公司研究员：冯翠婷/陈磊日期：2025-03-31

　　投资要点

    　　3 月25 日，OpenAI 对ChatGPT 的图像生成功能进行了升级，用户可以通过其多模态大模型GPT-4o 来生成和修改图像，效果较之前的效果有了巨大的提升。

    　　我们认为这有可能成为新一轮多模态板块行情的催化剂。

    　　OpenAI CEO 山姆·奥特曼演示“吉卜力风”图片生成带动“病毒式”传播

    在3 月26 日的直播中，OpenAI CEO 山姆·奥特曼和团队展示了如何在ChatGPT 中把一张自拍照转换为动漫风格的图片，观众随即发现其画风与日本吉卜力动画工作室极为相似，并开始在互联网上自发体验、传播，山姆·奥特曼也将自己的头像改为“吉卜力风”。特别是在3 月29-30 日的周末期间，更多场面、人物的“吉卜力风”图片在网上传播，导致ChatGPT 的“文生图”应用需求过高，造成GPU 超负荷，ChatGPT 图片生成功能被暂时限制速率。我们看到，此次“文生图”的效果要远好于之前各大模型厂商的相关功能，首先是生成风格较人类制作动漫已差异较小，其次我们看到转换准确，在人物、物件识别的识别上准确率较高，且文字类信息表述准确，未出现乱码。

    　　多模态已完成“0 到1”的起步，现正重新出发从“1 到100”自2023 年初ChatGPT 3.5 发布来，我们已经看到了多模态的快速发展，从“文生图”到视频、游戏等均由不同厂商下的大模型进行过展示，但是实用性较小。

    　　我们看到此次“吉卜力风”的AI 生成图片已经与人类制作动漫已差异较小，同时，OpenAI 发言人还表示，ChatGPT 拒绝“以个别活跃艺术家的风格进行生成”，但允许生成“更广泛的工作室风格”，显示出了未来“文生图”功能或仍有其他风格发展的可能，有望进一步带动“文生图”的工业应用。

    　　除OpenAI 外，其他互联网大厂持续布局多模态在几乎同一时间，谷歌也发布了自己的多模态进展，在2025 年3 月25 日推出的Gemini 2.5 系列，作为原生多模态大模型，可以处理来自文本、音频、图像、视频和大型数据集的多模态输入，还能够理解编码项目的整个代码存储库。该模型具有高达100 万个tokens 的超长上下文窗口，并很快会扩展到200 万个。实验版Gemini 2.5 Pro 在测试中超越了Grok 3 和GPT 4.5。谷歌强调，Gemini 2.5 系列最大的突破在于构建了“思维链”机制，能在生成答案前通过多轮逻辑推演提升响应质量，显著增强处理复杂问题的准确性。

    　　投资建议

    　　我们认为多模态已完成“0 到1”的起步，现正走向“1-100”之路，在这样的背景下，我们推荐重点关注相关公司，包括：布局AI 驱动“小说+漫画”生态的果麦文化（301052.SZ），AI 技术赋能经典动画IP 的上海电影（601595.SH），拥有自研模型和5 万小时版权库的华策影视（300133.SZ），AI 视频工具出海先锋的万兴科技（300624.SZ）和内容资源覆盖小说、漫画、音频等多模态形式的中文在线（300364.SZ），已推出并将持续更新其AI 陪伴玩具，具备多模态处理经验的汤姆猫（300459.SZ）和较早布局AI 动画的光线传媒（300251.SZ）。

    　　风险提示

    　　大模型发展不及预期，相关投资未收到预期投资率或使用效果等。

閺冿拷	娑撯偓	娴滐拷	娑擄拷	閸ワ拷	娴滐拷	閸忥拷
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

传媒行业点评报告：多模态发展提速 CHATGPT“文生图”效果大幅提升

数据推荐