为什么需要重新考虑模型开发
当人们想到人工智能时,他们的脑海中常常充满对未来世界幻想的画面,在这个世界中,算法为机器人提供动力,这些机器人负责处理他们的日常职责。他们的虚拟助手为他们提供建议并管理他们的日程安排;当他们小睡或看电影时,汽车会载着他们四处走动。数据科学家和机器学习工程师思考开发下一个模型或发现算法更改以提高性能。大多数人没有立即想到的这是构建AI或ML模型最重要的部分,这就是用于训练它的数据。
每个人都想做模型工作,而不是数据工作
专家一致建议数据科学家和AI开发人员从项目一开始就专注于获取、清理和准备他们的数据集。大多数AI团队仍然跳到构建或选择他们的算法、选择他们的ML平台以及确定最适合AI的编程语言。数据被搁置一旁,经常被遗忘。
您的问题可能出在数据中,而不是模型中
当数据科学团队的模型遇到问题时,他们很快就会归咎于计算能力、缺乏数据、算法架构存在问题或缺乏工具和资源。因此,投资往往被错误地投入到这些桶中,而数据科学家则在修补算法并改变模型。
在这种情况下,通常不是模型问题会阻止您的AI目标并拖累模型性能。是您的数据导致了问题。
从一开始就考虑您的数据,否则会浪费宝贵的时间
我们必须花时间挖掘数据并找出导致性能不佳的原因。这是一种常见的情况,会导致时间延长和挫败感增加。专家们已经确定了这些问题的一些原因,包括“从业者、领域专家和领域合作伙伴之间的激励和优先事项不一致,以及数据收集的预算有限”。在某些情况下,数据问题的原因是“跨组织文档导致丢失元数据,导致从业者做出假设,最终导致数据集丢弃或重新收集数据的代价高昂。”考虑到这一点,数据成为初始项目规划至关重要的一部分。数据收集和准备会影响模型部署。
粗红色箭头表示数据级联开始变得可见后的复合效应;红色虚线箭头表示放弃或重新启动ML数据处理。
数据科学家可能不是数据准备专家
许多数据问题可能源于低质量的标注、数据集中的偏差或缺乏适合您的模型目标的专门数据。在某些情况下,“人工智能从业 者 负责在他们没有领域专业知识的社会和科学环境中进行数据意义构建(定义基本事实、识别必要的特征集和解释数据)。”显然,不完全理解数据的背景会导致质量问题。 更糟糕的是,它不仅会导致数据质量不佳, 根据对数据科学家的一项调查,他们80% 的时间最终都可能用于数据准备。 这意味着很多时间都花在了糟糕的结果上。
将数据置于AI计划的最前沿
要在您的AI项目中取得成功,从一开始就了解您的需求至关重要。展望未来,听取所有专家的建议,站在模型开发的最前沿。
考虑选择专业的数据标注公司来为您提供最高质量的数据来训练您的模型。这不仅可以让您的科学家腾出时间专注于他们想做的模型开发工作,还可以减少必要的返工量,并加快模型的生产时间。
景联文科技|AI基础数据服务|数据采集|数据标注|假指纹制作|指纹防伪算法
助力人工智能技术加速数字经济相关产业质量变革,赋能传统产业智能化转型升级