传媒行业周报:即梦3.0文生图开启灰度测试 VAST开源两大3D生成模型
即梦3.0 文生图开启灰度测试,文生图领域进展不断4 月2 日字节开启即梦3.0 文生图模型灰度测试。从测评结果来看,模型性能提升体现在:1)中文文字生成:中文生成的准确性、艺术感提升,尤其是小字生成的稳定性较即梦2.1 实现较大优化;2)影视级画质:支持2K 分辨率图片生成;3)多场景适配:可生成如电商海报、电影分镜等图片,并生成适配于场景的光影效果。同时,近期海内外文生图进展不断:1)Gemini 2.0 Flash 和GPT-4o 相继上线原生多模态生图功能,实现通过多轮对话逐步完善图像并保持多次生成一致。其中GPT-4o 生图还具备准确将文字嵌入图像、多样化风格适应等功能,吉卜力画风生成全球风靡;2)Midjourney V7 进入最后测试阶段并计划于近期上线,新版本有望实现图像质量与一致性提升、对复杂提示词处理能力增强等。
VAST 开源两大3D 生成模型,3D 生成模型屡有突破国内3D 生成大模型公司VAST 于3 月启动技术开源月计划,从3 月至4 月连续开源8 大项目,覆盖从基础生成模型、核心功能组件到创新思路探索的全技术链路。其中,3 月28 日公司开源两大基础3D生成模型:1)TripoSG:首度实现3D 生成领域MoE Transformer 架构,具备生成结果泛化性强、生成复杂组合物体稳定性高的优势;2)TripoSF:首次实现3D 模型内部结构生成,并且模型测评结果超过已有的开源和闭源3D 生成模型,实现3D 生成SOTA。同时,近期海内外3D 生成模型屡有突破:1)Roblox:推出3D 开源模型工具Cube,通过简单提示词实现3D 物体生成;2)腾讯:发布5 个全新3D 生成开源模型,Turbo 系列在保证高精度和高质量的基础上,提高生成速度,轻量级mini 系列通过模型架构优化与运行效率提升,降低算力成本;3)Meshy.AI:公开Meshy-5-Preview,支持文本、图像生成3D 模型并自动生成贴图和绑定动画,较Meshy-4 实现细节生成精度提升等。
核心观点
我们认为,近期AI 文生图、3D 生成领域在模型性能、跨模态生成等方面不断突破,持续推动AI 多模态技术逐渐成熟。未来,多模态技术仍存在持续迭代空间,且随技术迭代有望进一步降低内容创作门槛,重塑相关应用场景工作流。建议关注:1)AI+营销:因赛集团、天娱数科;2)AI+游戏:恺英网络、巨人网络、电魂网络;3)AI+影视:博纳影业等。
风险提示
AI 技术发展不及预期、政策监管、行业竞争加剧的风险。