信息服务行业跟踪报告:艾伦人工智能研究所发布UNIFIED-IO2 多模态AI大模型持续发展
艾伦人工智能研究所发布AI 模型Unified-IO 2,能够完成多种多模态任务。
Unified-IO 2 是第一个能够理解和生成图像、文本、音频和动作的自回归多模态模型。它可以生成图像,包括图像编辑、图像生成、深度估计、表面法线估计和未来帧预测等;可以生成文本,包含查询的长格式答案、关键点估计、视觉音频定位、机器人操作的预测动作等;可以从图像或文本中生成音频。为了统一不同的模态,研究人员将输入和输出(图像、文本、音频、动作、边界框等)标记到一个共享的语义空间中,然后使用单个编码器-解码器转换器模型对其进行处理。Unified-IO 2 包含70 亿个参数,并在各种多模态数据上进行预训练,包括10 亿个图像-文本对、1 万亿个文本标记、1.8 亿个视频剪辑、1.3 亿个交错图像和文本、300 万个3D 资产和100 万个机器人代理运动序列。研究团队通过组合120 多个数据集,涵盖220 个视觉、语言、音频和动作任务,进一步使用大规模的多模态语料库对模型进行指导调整。为了有效地促进跨多种模态的自监督学习信号,研究人员开发了一种新型的去噪器目标的多模态混合,结合了跨模态的去噪和生成。研究人员还开发了动态打包,可将训练吞吐量提高4倍,以处理高度可变的序列。为了克服训练中的稳定性和可扩展性问题,研究人员在感知器重采样器上做了架构更改,包括2D 旋转嵌入、QK 归一化和缩放余弦注意力机制。对于指令调整,研究人员确保每个任务都有一个明确的提示,无论是使用现有任务还是制作新任务,另外还包括开放式任务,并为不太常见的模式创建合成任务,以增强任务和教学的多样性。
Unified-IO 2 采用编码器-解码器架构,模型训练架构创新。统一任务表示方面,Unified-IO 2 使用单个统一的编码器-解码器转换器处理所有模态。例如,文本输入和输出使用LLaMA 中的字节对编码进行标记化,边界框、关键点和相机姿势等稀疏结构被离散化,然后使用添加到词汇表中的1000 个特殊标记进行编码。图像使用预先训练的视觉转换器(ViT)进行编码,生成图像时,使用VQ-GAN将图像转换为离散标记。音频编码为频谱图,然后使用预先训练的音频频谱图转换器(AST)对频谱图进行编码。稳定训练的模型架构和技术方面,研究人员观察到,随着其他模式集成,使用U-IO 之后的标准实现会导致训练越来越不稳定。为了解决这个问题,研究人员进行了各种架构更改,如在每个Transformer层应用旋转位置嵌入(RoPE)。效率优化方面,对大量多模态数据进行训练,会导致转换器输入和输出的序列长度高度可变。研究人员使用打包来解决这个问题,多个示例的标记被打包到一个序列中,并屏蔽注意力以防止转换器在示例之间交叉参与。在训练过程中,使用启发式算法来重新排列流式传输到模型的数据,以便将长样本与可以打包的短样本相匹配。指令调优方面,多模态指令调优是使模型具备各种模态的不同技能和能力,甚至适应新的和独特的指令的关键过程。研究人员通过结合广泛的监督数据集和任务来构建多模态指令调优数据集。指令调优组合包括60%的提示数据、30%从预训练中继承下来的数据(为了避免灾难性的遗忘)、6%使用现有数据源构建的任务增强数据、以及4%自由格式文本(以实现类似聊天的回复)。
Unified-IO 2 在众多基准测试中表现良好,多模态AI 有望加速落地。Unified-IO2 在超过35 个基准测试中表现良好,包括图像生成和理解、自然语言理解、视频和音频理解以及机器人操作;在GRIT 评估中创下了新的基准,其中包括关键点估计和表面法线估计等多种任务;在视觉和语言任务中,它与许多最近提出的视觉语言模型相匹敌甚至表现更好;在图像生成方面,它优于利用预先训练的稳定扩散模型的最接近的竞争对手,尤其是在忠诚度方面。它还显示了在视频、自然语言、音频和嵌入式人工智能任务方面的有效性。此外,Unified-IO2 可以遵循自由形式的指令,包括新颖的指令。我们认为,Unified-IO2 的发布是人工智能处理和整合多模态数据方面的显著进步,未来AI 赋能多业态应用或将加速落地。
建议关注:海康威视、金山办公、新国都、大华股份、福昕软件、万兴科技。
风险提示:AI 技术发展不及预期,AI 商业落地不及预期。