中国人工智能行业研究 人工智能行业系列(一):智能数据标注技术三大实现路径

类别:行业 机构:头豹信息科技南京有限公司 研究员:谢子博 日期:2021-07-21

  数据标注是人工智能项目开发的核心工作流程之一,成本压力推动智能数据标注技术发展人工智能项目的开发可分为以数据采集、清洗、标注、增强等流程为主体的数据准备工作,以模型构建、训练、调优、部署为主体的算法开发工作。其中,由于数据准备工作可用的自动化辅助工具较为匮乏,数据准备工作对人力劳动的依赖程度较高,整体所需的工作时间占人工智能项目开发流程的80%。

      数据标注工作指对模型训练所需的数据样本中的特征要素进行标识与区分。由于目前人工智能技术的发展仍处于监督学习阶段,以深度学习为代表的Al算法模型在训练过程中对数据内涵信息及数据之间逻辑的学习及验证基于数据的特征标识实现,数据的标注工作具有必要性,是数据准备乃至人工智能项目开发的核心工作之一。与数据准备其余工作流程类似,数据的标注工作高度依赖人力劳动。冗长的工作周期及庞大的人力成本成为制约人工智能行业发展的主要因素之一。数据标注服务供给侧的痛点催生市场对自动化工具的需求,推动智能数据标注技术的发展与规模化应用。

      数据集服务行业商业模式逐渐固化,定制化服务市场需求占比较高数据标注行业较为成熟的商业模式可分为定制化服务及标准化服务。定制化服务根据客户需求可分为全定制化服务及标注定制化服务。全定制化服务指客户仅针对A项目开发需求提出数据集需求,由数据厂商完成从数据集构建.

      数据采集到数据处理、质检等多个流程。标注定制化服务指厂商对客户提供的未标注数据集进行标注。标准化服务包括数据集服务与智能标注服务。数据集服务指厂商根据市场需求,自主生产具备较高通用性的数据集,并统一定价出售。智能标注服务搭载于Al开发平台,为Al开发者提供基于平台云计算能力的智能标注服务。

      从市场需求层面来看,相对于定制化服务,标准化服务的市场需求较小。造成该需求差异的主要原因来自于Al开发的重心逐渐由数据通用性较高的互联网等领域逐渐倚向数据通用性较低的新兴领域或专业领域。从短期来看,定制化服务的市场需求占比将保持持续增长的趋势。

      智能数据标注服务基于成熟A1算法模型实现,尚未实现对人工标注的完全剥离智能数据标注指利用成熟的A1算法模型对数据进行自动化标注,从而降低人工标注在数据标注服务中的占比。智能数据标注实现路径的差异主要来自于对选用模型的区别及人工标注参与的占比:首次标注:智能标注服务用户对部分未标注数据进行标注,以其作为智能标注工作的指引。在需求方完成部分标注工作后,智能标注服务可采用进一步人工标注,增加智能标注样本参考量以提高A算法模型标注准确率;或是直接采用监督模型或半监督模型对剩余未标注数据进行标注。Al算法模型在完成第一次标注的过程中会对难以标注的数据样本进行筛选;二次标注:难例数据样本交由用户或标注团队完成剩余标注工作,或进行人工优化再交由A算法模型进行二次智能标注。该过程将循环数次,直到数据的标注满足用户需求。