提升业务价值的人工智能方法
人工智能 (AI) 已经在变革业务、降低成本、最大限度地提高收入并增强客户体验。许多组织开始注意到:到 2025 年,AI 市场规模预计将增长到 3909 亿美元,而且该领域的行业也呈现出类似的发展趋势——例如,到 2023 年,汽车 AI 预计将同比增长 35%,而制造业 AI 可能会增长 72.2 亿美元。我们看到各组织也在加速采用 AI 项目。据研究机构 Gartner 报告称,企业平均采用的 AI 项目数预计从 2019 年的 4 个上升至 2022 年的 35 个。 即使有如此巨大的增长,部署 AI 的挑战依然存在。根据顶级行业分析师的说法,大多数(约 80%)的 AI 项目在试验阶段或概念验证阶段就止步不前,从未进入生产阶段。在许多情况下,是由于缺乏高质量数据所致。在这一 AI 所作决策将具有越来越深远影响的时代,许多企业仍然难以实现合乎道德和负责任的 AI,而他们面临的障碍,往往是缺乏资源或内部人才来建立公正的模型。企业在扩展和自动化方面也面临着艰巨的挑战。尽管技术主管热衷于将开发运维 (DevOps) 应用于 AI,但他们仍要费力地设计一种解决方案来实现端到端机器学习 (ML) 管道的自动化。 预先开发正确的工具和策略将有助于克服这些挑战,使企业获得开展部署的信心和扩展的潜力。
训练、部署和调整 ML 模型的技术和工具
如果说自信地部署 AI 有什么关键要点的话,那就是:一切在于数据。您深知,您需要高质量的训练数据来推出有效的模型。因此,预先定义数据策略(包括数据管道)对于成功至关重要。为了说明这一点,让我们一步一步来了解什么是合理的 ML 管道:
采集和标注数据
许多数据科学家和机器学习工程师表示,他们花费约 80% 的时间来整理数据。这是个沉重的负担,但如果没有训练数据,模型将无法正常工作。随后是模型构建过程,从收集和标注训练数据开始。 您需要从制定明确的数据采集策略开始。思考您的目标使用场景,并确保您的数据集可代表各个使用场景。制定一个用于收集各种数据集的明确计划。例如,如果您要为自动驾驶汽车构建 AI,则可能需要能够代表不同地理位置、天气和一天中不同时段的数据。 接下来,您要实施数据标注流程,在大多数情况下,这个流程需要来自不同人群的人工标注者。标签越准确,最终模型的预测就会越精确。多样的视角将使您能够涵盖更广泛的用途和边缘案例。 在数据采集和标注阶段,制定正确的工具计划至关重要。确保将质量保证检查也整合到您的流程当中。鉴于此步骤占用 AI 项目的大部分时间,因此与该领域的数据合作伙伴开展合作尤为有益。
训练和验证模型
准备好训练数据后,您要使用该数据来训练模型。大多数 ML 模型利用监督式学习方式,这意味着您需要使用人工来进行实地监测。人工监测员将通过检查来确保模型做出准确的预测。这个阶段通常很关键,但工作负担较轻。如果在此阶段发现模型不能正常工作,您要返回之前的步骤并确保您的训练数据确实是您需要的数据。进行优化,重点关注该模型应带来的业务价值。
自信地部署并调整模型
模型达到所需的准确程度后,即可启动。部署后,模型将开始面对真实世界的数据。继续评估模型的输出;如果模型无法输出正确的数据,再将数据转回到验证阶段。有益的做法是坚持使用人机协同来手动检查模型的准确性,并在出现低置信度预测或错误时提供校正后的反馈。 请记住,部署后要定期调整模型。据咨询机构麦肯锡 (McKinsey) 报告,有 33% 的实时 AI 部署需要进行“至关重要的”每月数据更新,以便随着市场条件的变化保持准确性阈值。我们在 2020 年《AI 全景报告》中报告过,75% 的组织表示,他们必须至少每季度更新一次 AI 模型。无论如何,应该持续监测每个模型的数据偏差,以确保模型不会随着时间的流逝而降低效率甚至过时。
真实成功案例
企业正在利用 AI 开展许多非常有趣的工作。以下示例表明,拥有集成数据管道对自信地部署尤为重要。
农业
2017 年,约翰·迪尔 (John Deere) 收购了蓝河科技 (Blue River Technologies),准备与之联手进行农药使用方式的彻底变革。他们的 AI 模型使用无人机和计算机视觉算法来识别农田中的杂草。这样做可以使农药只喷洒在杂草上而避开田间的所有农作物。他们以往的农药支出约为每年 200 亿美元,但通过这些努力,有望将农药成本减少 90%。 该 AI 项目采用的方法是精确图像分割。该方法需要在像素级别上标注数据,以确定图像的哪个部分是杂草,哪个部分是农作物。可以想象,这个标注过程非常复杂,并且要耗费很多时间。该过程既需要全面的工具界面,又需要具有深厚的图像分割专业知识的人工校正员。
制造业
制造业正在使用 AI 来实现物流和供应链的自动化。例如,诺基亚使用机器学习技术提醒装配操作员注意质量偏差。具体来说,就是指出生产过程中存在的不一致之处。AI 还可以作为智能工厂监测系统的一部分来监测和跟踪包裹,从而缩短交货时间并防止库存过多,它还可以监测吞吐量和停机时间等从成本角度来看非常重要的因素。 制造业中的数据工作流高度依赖制造业的类型和供应链的性质。可能需要从各种机器和传感器收集数据并进行汇总,以创建易于人类理解的分析。
汽车行业
汽车 AI 有许多值得强调的趋势,包括自动化和安全性,语音帮助,以及个性化,等等。自动驾驶汽车可能是最受关注的领域,因为它们能够极大地改变我们的日常生活。 当我们考察那些与构建 AI 赋能的全自动车辆有关的 ML 工作流时,会发现它们变得越来越复杂。要有效地训练算法,需要有大量的传感器数据(例如摄像机、LIDAR 和 RADAR)。在这一领域,工具增强对于构建安全、高效的 AI 至关重要。 不过,这一点不仅限于自动驾驶汽车。日产汽车尼桑 (Nissan) 使用机器学习增加从试驾体验中转化的人数,通过不断分析 1,000 多个数据点,将试驾体验的转化数量增加了 900% 以上。 这些示例表明,许多 AI 使用场景需要复杂的数据管道来支持准确的模型。对于此类案例,成功与失败的差别很可能在于预先制定了正确的数据策略。