人工智能行业应对AI数据困境:恰当的数据集成方法、治理和工具

类别:行业 机构:国际商业机器(中国)有限公司 研究员:—— 日期:2021-09-17

要点

    要从 AI 中获得最大价值,就一定要从业务问题入手。然后寻找多种数据类型 — 结构化和非结构化数据、内部和外部数据、定性和定量数据,以解决问题并丰富解决方案。

    融入基于权限的强有力治理,建立数据溯源能力,以形成对数据和 AI 洞察的信任。

    制定计划,应对严格的数据准备挑战以及合并不同数据源带来的复杂性。复用数据,自动执行流程并采用适当的工具。

      AI 的独特数据挑战

      人工智能 (AI) 不再是新生事物 — 量子计算才是。AI 正广泛应用于各种商业和社会用途。在疫情初期,84% 的组织预计将保持或提高对 AI 的关注度,近三分之一的组织因疫情直接增加 AI 投资。1

      最近的一项调研表明,AI、物联网 (IoT) 和云计算是受访 CEO们认为最有助于实现成果的 3 项技术。2 43% 的 IT 专业人员表示,他们的企业受疫情影响而加快部署 AI 解决方案。3这转化为企业对建立战略性 AI 能力(包括战略、运营模式、人才)以及将该能力整合到企业的迫切需求。

      但即使在完成有前景的概念验证 (PoC) 阶段之后,许多 AI 项目仍处于停滞状态。90% 的企业难以在整个企业中扩大 AI 的应用范围。4 大约一半的 AI 项目归于失败也就不足为奇了。5为什么?一言蔽之,数据使然。超过半数的 AI 战略负责人承认,他们不清楚自己的 AI 数据需求。6 39% 的 IT 专业人员表示,分析数据以建立和扩展可信的 AI 是组织 AI 之旅中最困难的部分,32% 表示数据复杂性和数据孤岛是采用 AI 的最大障碍。

      难怪超过一半的组织将数据视为 AI 项目停滞的罪魁祸首,他们将数据质量问题视为最主要的因素 (58%),其次是缺乏整理有序的数据 (45%),接下来是数据治理问题 (40%)。8 事实上,即便是高级数据能力的常见最佳实践对 AI 而言也是远远不够的。虽然 AI 可能只是数据的一个用例 — 尽管是重要用例,但需要将汲取的经验教训广泛应用于 AI 领域。

      AI 有几个特殊的数据考虑因素,会对实践起到重要作用:

      AI 规模: 一般来说,对于 AI 而言,可用数据越多,结果的质量和准确性就越好。因此,AI 所需的数据量可能远高于某些高级分析。

      AI 速度: 必须使用最新数据,才能达到某些 AI 洞察和最佳预测所需的响应速度。有时甚至需要实时数据或非常接近实时的数据。

      数据种类: 数据越多,而且是可增添背景信息的数据越多,AI结果通常越好。然而,AI 模型的结果可通过操纵数据(恶意或无意)甚至只是广义的“数据漂移”来改变,因此确保所有数据得到正确处理至关重要。

      数据质量: AI 对数据高度敏感,因此数据必须能够准确反映基本现实。 在某些情况下,AI 密切关注其他传统分析方法可能认为是异常情况的峰值,因此准确性非常重要。

      人类观点: 人类如何看待数据 — 包括我们自己经验中的偏见和大脑“黑盒”中的不透明性 — 通常会影响数据使用方法。数据具有背景意义,因此必须结合背景查看和理解数据。

      如果没有适当的背景信息,可能会无意误用或误解数据。

      然而,企业常常被这些复杂性所淹没,在应对数据挑战时受困于动机虽好但不一致的方法。 为了满足 AI 的独特数据需求,组织首先必须对试图解决的业务问题有着清晰的认识,然后运用务实的方法来解决这些问题。

      密切关注业务问题

      一些经过传统培训的数据专家仍然难以应付 AI,他们过分关注数据科学和工程的细节,也就是如何使用 AI。如果无法充分理解和考虑较大的业务问题,例如企业为什么使用 AI,那么概念证明和研究型项目可能会激增,但不会带来效益。此外,数据科学家和工程师往往倾向于采用“大数据解决方案”来解决业务问题,而这些问题有时可通过高质量、定位精确甚至定性式的“小数据解决方案”来解决。

      团队首先需要回答两个基本问题:试图解决什么业务问题?如何最恰当地解决?有时,最复杂的 AI 可能并不是最佳答案。根据数据揭示的洞察以及 AI 建议或采取的行动,就可以明确何时以及如何干预业务工作流程。