如何制定数据采集解决方案?

news2024/12/24 20:23:09

数据采集仍是人工智能(AI)构建团队的主要瓶颈。原因各不相同:用例数据可能不足,深度学习等新机器学习(ML)技术需要更多数据,或者团队并未建立获取所需数据的适当流程。但无论如何,对准确且可扩展数据解决方案的需求在不断增加。  

 

高质量数据采集最佳方法

作为一名AI从业人员,您需要在制定数据采集计划时提出一些正确的问题。

我需要怎样的数据?

您选择解决的问题表明您所需的数据类型。例如,对于语音识别模型,您需要收集能够代表全部期望客户的语音数据。也就是说,语音数据涵盖目标客户的所有语言、口音、年龄和特征。

我可以从哪里获取数据?

首先,了解内部已有哪些可用数据,以及这些数据能否用于解决现有问题。如需更多数据,可以利用一些公开的在线数据集。您也可以与数据伙伴合作,通过众包资源生成数据。还可以创建合成数据填补数据集中的空白。 但请谨记一点,在模型投产后的很长一段时间内,您需要稳定的数据来源,以确保在模型投产后,可以持续为模型优化提供数据。

我需要多少数据?

数据量取决于您想要解决的问题和预算,但通常而言,数据越多越好。刚开始构建机器学习模型时,通常不会有太多数据。您需要确保拥有足够的数据,可以覆盖模型的所有潜在用例(包括边缘用例)。

如何确保我的数据是高质量的?

在使用数据集训练模型前,请先清理数据集。也就是说,第一步是删除不相关或不完整的数据(并检查确认您是否真的不需要这类数据)。接着,就是要准确标注数据。很多公司转向众包来获得大量的标注员;数据标注员越多元化,数据标注的包容性就越高。如果您的数据标注需要特定领域的知识,需要找到该领域的专家来标注您的数据。 明确上述问题的答案后,您可以开始构建数据管道,使您能够高效地收集高质量、准确标注的数据。最后,要确保数据管道的可重复性、一致性,以帮助您进行扩展。  

负责任AI的用武之地

您要坚持从负责任AI的视角来采集数据,这是因为构建合乎伦理道德的AI要从数据开始。干净的数据来源应是重中之重,这意味着您需要以合乎道德的方式获取数据。处理安全且机密信息(例如医疗记录或财务状况)时,尤是如此。请遵守您所在地区和行业的数据保护法规,并在选择数据合作伙伴时,确认这些合作伙伴是否也遵守这些法规。您的数据合作伙伴应该和您一起制定安全协议,以确保客户数据得到尊重和负责任的对待。  

解决方案与高级研究组副总裁David Brudenell的专业洞察

包容优于偏见

在过去的18个月里,澳鹏发现,客户与澳鹏的互动方式发生了巨大转变。随着AI的不断发展及日益普遍,它在构建方式上的差距也已明显显现。训练数据在减少AI中的偏见方面发挥着重要作用,我们建议客户组织一批具有代表性、有包容性的标注员来采集数据,构建更快、更好、更具经济效益的AI模型。由于几乎所有的训练数据均由人员采集,所以我们建议客户在样品设计时首先注重包容性。这会增加工作量和实验设计次数,但和简单的样品设计相比,投资回报率会显著提高。简言之,您会得到更多样化、更准确的机器学习/人工智能模型,这些模型拥有更具体的人口统计数据,而且从长远来看,这比试图通过消除生产机器学习/人工智能模型中的偏见来“填补空白”要好得多。

优先考虑用户

精心设计的数据采集方案由多个部分组成。虽然一个包容性的样本框架是基础,但是推动生产量和数据质量的关键是,将以用户为中心的方法引入到整个参与过程中:项目邀请、资格鉴定、新用户引导(包括信任和安全)实验体验。很多时候,团队会忘记完成这些项目的人。如果您忘记这一点,则会因为低于平均水平的书面实验和用户体验而导致项目的吸收率和数据不佳。 设计实验和用户流时,问问如果是自己是否愿意进行这项工作。此外,还要确保您始终亲自对实验进行端到端测试。如果您陷入困境或结果不尽如人意,则需做出改进。

互锁配额——从六千到六万

如果您以美国人口普查为例,围绕6个数据点进行实验:年龄、性别、州、种族和手机拥有量,您有超过6万个配额要管理吗? 这是因为受到互锁配额的影响。互锁配额即实验中所需的访谈/参与者数量在要求多个特征的单元格中。以上述美国人口普查为例,有一个单元需要n个用户,具有以下特征:男性,55岁以上,怀俄明州,非裔美国人,拥有2021年一代的Android智能手机。这是个极端的、低发生率的示例,但通过在定价、编写实验或进入现场前,创建自己的互锁矩阵,您可以发现难以组合的特征或无意义的特征组合,这些组合可能会影响项目的成功。

报酬比以往任何时候都重要

最后,也是最重要的就是审查您为用户完成实验而付的报酬。在设计数据采集实验时,衡量商业利益是很常见的事情,但您不能因此削减对用户的激励。用户是团队中最重要的部分,可以为您提供合适的、高质量的数据。如果您选择向用户支付更少报酬,则会导致项目的吸收率较低且数据不佳,从长远来看,您不得不支付更多。 如果预算有限,请寻求有关全球购买力平价(PPP)方面的建议;您的资金能否在世界各地区获得更高的效益?减少您的配额要求——您能把24-40岁的人分成一组而不是两组吗?这些只是您可以采用一些方法,以便为您的项目获得最大的商业价值。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/792434.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

xmind latex【记录备忘】

xmind latex 换行 换行必须要有\begin{align}和\end{align},此时再在里面用\才能换行,如果只写112\224是不能换行的

2023第五届全国生物资源提取与应用创新论坛即将举办

01、会议背景 为进一步加强生物资源提取行业交流与合作,促进业“产学研用”融合,提升行业科技创新水平,增强行业国际竞争力,中国生物发酵产业协会、浙江科技学院、浙江工业职业技术学院、浙江省农业生物资源生化制造协同创新中心&…

JS算法之递归

含义 递归函数是指能够直接或间接调用自身的方法或函数。 // 直接 function do() {do(); }// 间接 function do() {do2(); } function do2() {do() } 每个递归函数必须有基线条件(即停止点,一个不再递归调用的条件。)否则将无限递归下去。 因…

每天一个电商API分享:淘宝/天猫获取商品销量详情 API(月销总销)

淘宝/天猫获取商品销量详情API(月销总销)是一种用于获取电商平台上商品销量数据的接口。通过这个API,用户可以方便地获取到商品的月销量以及总销量等详细信息,快速了解商品的销售情况。 随着电商行业的快速发展,不少卖…

pytest study

pytest 测试用例的识别与运行 测试文件:test_*.py 和 *_test.py 以test开头或结尾的文件 测试用例:Test*类包含的所有 test_*的方法(测试类不能带有__init__方法), 不在class中的所有test_*的方法 def func(x):r…

RunnerGo性能测试怎么做?

性能测试—计划管理 新建计划: 在左侧导航栏中,选择“性能测试”,点击“计划管理”进入计划管理界面,点击右上角新建计划来新建测试计划。任务类型选择后不可再更改。定时模式下, 该计划内最多只能创建一个场景。 普通任务&…

如何往MySQL中插入100万条数据?

需求 现在有一个 数据量 为100万的数据样本 100w_data.sql 其数据格式如下,截取最后十条数据 999991,XxGdnLZObA999991,XxGdnLZObA,XxGdnLZObA,2020-3-18,1 999992,TBBchSKobC999992,TBBchSKobC,TBBchSKobC,2020-9-8,2 999993,rfwgLkYhUz999993,rfwgLkYhUz,rfwgLk…

APISIX 安全评估

背景 有大佬已经对 [apisix攻击面](https://ricterz.me/posts/2021-07-05-apache-apisix-attack- surface-research.txt)做过总结。 本文记录一下自己之前的评估过程。 分析过程 评估哪些模块? 首先我需要知道要评估啥,就像搞渗透时,我得…

【三维重建】【深度学习】Windows10下NeRS官方代码Pytorch实现

【三维重建】【深度学习】Windows10下NeRS官方代码Pytorch实现 提示:最近开始在【三维重建】方面进行研究,记录相关知识点,分享学习中遇到的问题已经解决的方法。 文章目录 【三维重建】【深度学习】Windows10下NeRS官方代码Pytorch实现前言NeRS模型运行下载源码并安装环境安装…

体制内裸辞,她用云端地球实现了自己的乡村梦

追逐田园的“诗与远方” “我最初的梦想,就是有一个亲手打造的、能装进个人喜好的小院子。”为完成自己的梦想,吕春萍毅然放弃了体制内的工作,来到秦岭脚下的桥南镇曹峪村,践行自己的“乡村梦”。 起初,吕春萍做了五…

「开源项目」开源企业级问答系统-Danswer

danswer 基本介绍 开源企业级问答系统,可以对内部文档进行自然语言提问,并返回可靠的答案、引用和参考资料,可以连接到多种常见工具,如Slack、GitHub和Confluence。 在线预览 暂无在线预览地址,不过可以自行部署使用…

【error】svn 清理以下路径失败 原始内容不存在

前言 目前我们这边的内网代码是通过 TortoiseSVN 进行版本管理的,平时用着也挺好的,没碰到什么大问题。 但是,今天碰到了一个比较棘手的问题,在这里做一下记录,以方便自己和有需要的朋友在之后碰到该类问题时有个参考…

[php-cos]ThinkPHP项目集成腾讯云储存对象COS

Cos技术文档 1、安装phpSdk 通过composer的方式安装。 1.1 在composer.json中添加 qcloud/cos-sdk-v5: >2.0 "require": {"php": ">7.2.5","topthink/framework": "^6.1.0","topthink/think-orm": "…

为什么中小企业数字化转型这么难?_光点科技

随着科技的飞速发展和数字化时代的到来,数字化转型已成为现代企业发展的必然趋势。大型企业普遍拥有雄厚的资源和资金,能够较为顺利地进行数字化转型。然而,对于中小企业来说,数字化转型却面临着诸多挑战和困难。 资金限制&#x…

5个步骤完成Linux 搭建Jdk1.8环境

1:首先,在Linux系统中创建一个目录,用于存放JDK文件。可以选择在/opt目录下创建一个新的文件夹,例如/opt/jdk。 sudo mkdir /opt/jdk 2:将下载的jdk-8u381-linux-x64.tar.gz文件复制到新创建的目录中。 sudo cp jdk…

如何理解token?

token在项目中的大概流程: 1.客户端使用用户名和密码请求登录 2.服务端收到请求,验证用户名和密码 3.验证成功后,服务端会生成一个token,然后把这个token发送给客户端 4.客户端收到token后把它存储起来,可以放在cookie…

汇编调用C语言定义的全局变量

在threadx移植中,系统的systick通过了宏定义的方式定义,很难对接库函数的时钟频率,不太利于进行维护 所以在C文件中自己定义了一个systick_Div的变量,通过宏定义方式设定systick的时钟频率 在汇编下要加载这个systick分频系数 …

扬州市 自动挡C2 道路驾驶技能考试 电子路要点

先上车把身份证给安全员,验证身份,然后下车逆时针绕车一周,在车头前站立三秒拍照,然后上车 科三基本注意事项 起步不管要不要变道,都必须先打左转向灯,但是也要记得关灯 操作顺序:打左转向灯、…

flutter:BottomNavigationBar和TabBar

区别 BottomNavigationBarr和TabBar都是用于创建导航栏的组件,但它们有一些区别。 位置不同:BottomNavigationBar通常位于屏幕底部,用于主要导航;而TabBar通常位于屏幕顶部或底部,用于切换不同的视图或页面。 样式不…

【2023】java数据结构-时间、空间复杂度分析

1、算法效率 算法效率分析分为两种:第一种是时间效率,第二种是空间效率。时间效率被称为时间复杂度,而空间效率被称作空间复杂度。 时间复杂度主要衡量的是一个算法的运行速度,而空间复杂度主要衡量一个算法所需要的额外空间 2、…