传媒行业点评报告:多模态发展提速 CHATGPT“文生图”效果大幅提升

类别:行业 机构:浙商证券股份有限公司 研究员:冯翠婷/陈磊 日期:2025-03-31

  投资要点

      3 月25 日,OpenAI 对ChatGPT 的图像生成功能进行了升级,用户可以通过其多模态大模型GPT-4o 来生成和修改图像,效果较之前的效果有了巨大的提升。

      我们认为这有可能成为新一轮多模态板块行情的催化剂。

      OpenAI CEO 山姆·奥特曼演示“吉卜力风”图片生成带动“病毒式”传播

    在3 月26 日的直播中,OpenAI CEO 山姆·奥特曼和团队展示了如何在ChatGPT 中把一张自拍照转换为动漫风格的图片,观众随即发现其画风与日本吉卜力动画工作室极为相似,并开始在互联网上自发体验、传播,山姆·奥特曼也将自己的头像改为“吉卜力风”。特别是在3 月29-30 日的周末期间,更多场面、人物的“吉卜力风”图片在网上传播,导致ChatGPT 的“文生图”应用需求过高,造成GPU 超负荷,ChatGPT 图片生成功能被暂时限制速率。我们看到,此次“文生图”的效果要远好于之前各大模型厂商的相关功能,首先是生成风格较人类制作动漫已差异较小,其次我们看到转换准确,在人物、物件识别的识别上准确率较高,且文字类信息表述准确,未出现乱码。

      多模态已完成“0 到1”的起步,现正重新出发从“1 到100”自2023 年初ChatGPT 3.5 发布来,我们已经看到了多模态的快速发展,从“文生图”到视频、游戏等均由不同厂商下的大模型进行过展示,但是实用性较小。

      我们看到此次“吉卜力风”的AI 生成图片已经与人类制作动漫已差异较小,同时,OpenAI 发言人还表示,ChatGPT 拒绝“以个别活跃艺术家的风格进行生成”,但允许生成“更广泛的工作室风格”,显示出了未来“文生图”功能或仍有其他风格发展的可能,有望进一步带动“文生图”的工业应用。

      除OpenAI 外,其他互联网大厂持续布局多模态在几乎同一时间,谷歌也发布了自己的多模态进展,在2025 年3 月25 日推出的Gemini 2.5 系列,作为原生多模态大模型,可以处理来自文本、音频、图像、视频和大型数据集的多模态输入,还能够理解编码项目的整个代码存储库。该模型具有高达100 万个tokens 的超长上下文窗口,并很快会扩展到200 万个。实验版Gemini 2.5 Pro 在测试中超越了Grok 3 和GPT 4.5。谷歌强调,Gemini 2.5 系列最大的突破在于构建了“思维链”机制,能在生成答案前通过多轮逻辑推演提升响应质量,显著增强处理复杂问题的准确性。

      投资建议

      我们认为多模态已完成“0 到1”的起步,现正走向“1-100”之路,在这样的背景下,我们推荐重点关注相关公司,包括:布局AI 驱动“小说+漫画”生态的果麦文化(301052.SZ),AI 技术赋能经典动画IP 的上海电影(601595.SH),拥有自研模型和5 万小时版权库的华策影视(300133.SZ),AI 视频工具出海先锋的万兴科技(300624.SZ)和内容资源覆盖小说、漫画、音频等多模态形式的中文在线(300364.SZ),已推出并将持续更新其AI 陪伴玩具,具备多模态处理经验的汤姆猫(300459.SZ)和较早布局AI 动画的光线传媒(300251.SZ)。

      风险提示

      大模型发展不及预期,相关投资未收到预期投资率或使用效果等。