计算机行业点评:奇点之跃:CHATGPT即将推出图生文

类别:行业 机构:国盛证券有限责任公司 研究员:刘高畅 日期:2023-09-26

  ChatGPT 即将开放图生文及语音对话功能。9 月25 日,根据OpenAI 官网信息,ChatGPT 即将在两周内对Plus 和Enterprise 用户开放一系列新功能,包括图像读取与理解(即图生文),以及语音对话能力。其中与ChatGPT 语音对话的能力仅对ios 及安卓客户端开放,而图生文能力对全平台开放。用户可以通过语音直接对ChatGPT 对话,而ChatGPT 也可以直接以语音的方式回复用户,使用一种新的文生语音模型,其中可选的五种声音由chatgpt 向配音演员特别定制而来。

      图像读取理解能力背后由GPT-3.5 或GPT-4 多模态模型支持,用户可以上传一张或者多张图片给系统,甚至可以用画笔标注重点内容。

      图生文能力打开GPT 广阔应用方向,并催生更大算力需求。1)语音对话能力使得用户可以更直接灵活地与ChatGPT 互动,增强客户体验的便捷性,同时图生文能力也让智能助理能更好地与现实交互,有利于未来基于GPT 的智能助理类产品在手机、耳机、音箱等智能终端上落地。2)图生文能力也有望在AIGC 方向打开更多应用。9 月13 日,Adobe 发布新的Firefly 生成式AI 模型和Web 应用程序为AI 生成内容实施新的点数计费,Adobe Creative Cloud 亦有提价,或主要彰显了以Firefly 为核心的AIGC 能力。3)图生文及语音对话相比纯文本交互将催生更大算力需求。多模态数据复杂度远超纯文本数据,将不同模态的特征进行融合,找到不同模态间的内在关联和交互关系也需要更复杂的模型架构。同时下游应用用户增长将让应用厂商在模型推理侧需要更多算力,进一步催生算力需求。

      三、大语言模型领军更新图生文能力有望加速机器人产业发展。大语言模型结合图生文能力是机器人能理解指令、完成任务规划并与世界交互的核心。7 月28日,谷歌DeepMind 发布的VLA 模型RT-2 使用预训练的PaLI-X 和PaLM-E 模型作为支柱,输出机器人控制指令,提高了机器人任务的泛化能力。9 月24 日,特斯拉公布人形机器人Optimus 最新进展,它的神经网络是完全端到端训练的,从视频输入到控制输出。只靠视觉和关节位置编码器,Optimus 就能在空间中精确定位四肢,并有效地学习各种任务,比如在被干扰的情况下排序各种颜色块。我们认为本次ChatGPT 教用户如何维修自行车的示例,展示了其强大的视觉理解与任务规划能力,如果结合硬件执行侧的控制输出就能实现具身智能,OpenAI 早在3 月投资了挪威人形机器人公司1X Technologies。作为目前的领军大语言模型,ChatGPT 此次更新展示的图生文能力有望大幅加速机器人产业发展,进而带动包扩软件算法、机械组件、机器人整机等在内的产业链共振。

      建议关注:

      1)多模态应用:

      大华股份、海康威视、中科创达、千方科技、虹软科技、当虹科技等。

      2)办公应用:

      金山办公、万兴科技、福昕软件、科大讯飞等。

      3)落地快&估值性价比:

      大华股份、漫步者、传音控股、海康威视、新国都、赛意信息、紫天科技等。

      4)算力侧:

      英伟达、中科曙光、浪潮信息、中际旭创、工业富联、云赛智联、神州数码、拓维信息、四川长虹、烽火通信、海光信息、恒润股份、新易盛、恒为科技、易华录、阿尔特、润建股份、寒武纪、景嘉微、中贝通信、创业黑马等。

      5)机器人:

      硬件供应商:三花智控、拓普集团、鸣志电器、绿的谐波、峰岹科技等。

      潜力方案厂商:大华股份、海康威视、千方科技、中科创达、中科信息、云从科技、亿嘉和、萤石网络、商汤科技等。

      风险提示:AI 技术迭代不及预期风险;经济下行超预期风险;行业竞争加剧风险。