以人为本的AI技术升级

news2024/10/22 16:27:30
  • 我们需要以人为本的技术来提高生产力和投资回报率。
  • 通过在数据标注流程中融合机器学习辅助技术,可以减少数据标注所需的时间、资金和人力。
  • 有很多方法可以防止标注员被模型的预测误导。

  在传统的机器学习(Machine Learning)方法下,人工负责标注模型所需的每一行数据。这个任务通常很耗时而且成本高昂,因为成功的人工智能(AI)模型需要数千甚至数百万个准确标注的训练数据。 随着我们不断改进人工智能的构建方法,我们不得不思考如何改进数据标注中的高密度人工作业情况。 现在,澳鹏拥有诸多最先进的预标注模型,用来改善人工智能部署的流程。例如,我们已经开发使用了用于自动驾驶像素级标注、用于图像和文档转录、用于音频分割的预标注模型,以及其他几个预标注或分类模型。在我们不断迭代工具的过程中,我们发现以人为本的技术改进既可以提高生产力,又能实现更大的投资回报率。这种“以人为本的技术”充分考虑操作员的技能、知识、灵活性以及创造力,将其作为一种资产加入了整个人工智能构建流程。 在构建“以人为本的技术”时,我们的目标有两方面:一方面是在保证数据质量的情况下优化标注流程,另一方面是减少重复性的无意义操作,来减轻标注员的负担。 在进行视频标注时,通常需要对视频的各个帧单独进行标注,而每一帧中标注内容的变化非常小;例如,一段很多汽车进行路面行驶的视频包含很多帧,而每一帧中不同车辆的位置变化很小;如果需要对每一帧的每一辆车进行纯手工标注,会非常消耗时间和精力。通过机器学习辅助技术,我们可以对每一帧进行自动预标注,标注员只需要进行关键帧的调整,就可以完成原本无意义重复的标注工作。在这之中,机器学习辅助工具必不可少。 在减轻标注员工作繁复性之外,机器学习辅助工具还可以帮助实现数据标注的质检和交付的自动化。在澳鹏,我们将其称为“智能标注”。智能标注的辅助功能可以在标注前、标注中和标注后,帮助人工标注员提高工作效率和保证标注质量。  

接触点一:标注开始之前

在开始标注作业之前,可以利用平台内置的模型进行预标注,提供一个基础模板。与纯手动标注过程不同,标注员只需检查预测的准确性,而无需从头开始进行标注。例如,如果想标注道路上的汽车,就可以使用我们提供的模型进行预分类和标注。 各种模型可以完成特定任务,应用于不同的标注需求:从审查色情内容,到掩盖个人详细信息,再到在对象周围添加边界框。使用现有模型提供初始数据标注,可以通过自动化部分标注过程来节省时间和成本。其准确性将取决于所选的模型或模型组合。 但您可能会问,如何防止标注员被模型的预测偏见所误导? 事实上,我们通过对几个标注项目进行大规模 A/B 测试进行了检验,结果发现:预标注数据提高了标注质量。换言之,与没有进行初始标注的数据相比,在移交给标注员进行最终标注之前由机器学习模型完成初始标注的数据产生的标注质量更高。 在自动驾驶汽车的一个图像像素标注项目中,使用机器学习模型进行初始标注后,我们所有试验的标注员生产力提高了91.5%,标注质量提高了10%。 如果您的团队仍然担心偏见误导,在生产线的后续两个阶段还有进一步的调整机会。  

接触点二:标注期间

开始标注作业后,可以利用机器学习模型来辅助人工评判。例如,如果作业包括视频标注,则手动过程可能是这样的:首先将视频分成逐帧序列,再由标注员在每一帧中标注每个目标对象。 根据每秒 24 帧的标准帧速率,这项标注任务很快就会变成一项艰辛的重复作业。使用机器学习辅助技术,标注员只需标注一次目标对象,模型就可以跟踪并预测其在后续帧中的位置。以标注道路上的汽车为例,标注员只需在第一帧中标注每辆车,模型就将跟踪其位置并在其余帧中标注这些汽车。然后,标注员只需对其余帧进行审查,根据需要进行更正即可。 在标注作业期间借助机器学习辅助技术,标注员可以提高工作速度和准确性。在不牺牲质量的情况下,使用这种方法最高可以将标注速度提升至手动操作的 100 倍。这种方法的好处还会延伸到标注员身上,它可以减轻认知压力,使标注员在整个任务期间感觉更轻松自在。  

最终接触点:标注完成后

在模型和标注员对数据做出评判之后,即可进入验证阶段。在此阶段,可以使用机器学习模型来验证所做的评判,并在标注员的输入未达到预期质量阈值范围时对标注员做出提醒。 这种方法有几个显著的好处。最显著的好处是,它可以减轻对测试或同行评审的需求,并且降低客户付费进行数据评判,最终却达不到质量要求的风险。在模型验证之后,标注员即可提交作业。

我们不仅需要投资 AI 解决方案,还需要投资 AI 支持流程的相关改进。 —Wilson Pang

假设有一个文本语音项目,就可以使用机器学习辅助的验证工具,并结合设置连贯性或语种等指标。模型将标记出任何不符合这些指标准确性要求的数据标注,然后由人工标注员检查并更正标注。澳鹏在一个涉及聊天机器人训练的文本语音项目中测试了机器学习辅助验证工具。我们发现使用实时模型后,错误率降低了35%。

“这不仅仅可以推进  AI ,还可以改进  AI  流程”

通过以人为本的技术将机器学习与人的操作结合起来,是 AI 创新的前进方向。 数据标注生产线中的机器学习辅助功能对企业和标注员都有帮助:企业可以花费更少的资源更快地推出高质量 AI 解决方案,而标注员可以减少工作的压力和重复性。后者对于为所有从事 AI 项目的个人提升 AI 实践的公平性尤为重要。 我们不仅需要在 AI 解决方案上投入资金,也需要投资于改进 AI 支持的流程。只有这样,才可以改进我们的 AI 伦理方法,并提升使用机器驱动型解决方案来解决全球问题的能力。 AI 并不意味着完全依赖于机器或人;相反,将二者充分结合可以增强彼此的优势并促进成功部署。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1498634.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一篇长文教你进行全方位的使用appium【建议收藏】

随着移动应用的日益普及,移动应用的测试成为了软件开发的重要组成部分。Python,作为一种易于学习,功能强大的编程语言,特别适合进行这种测试。本文将详细介绍如何使用Python进行APP测试,并附带一个实例。 Python 和 A…

Docker快速入门和部署项目

1,Docker是一个,快速构建、运行、管理应用的工具 。 2,前面我们了解过在Linux操作系统的常见的命令以及如何在Linux中部署一个人单体的项目。感受如何呢??? 命令太多了,记不住 软件安装包名字复…

网络学习:数据的封装与解封装

目录 一、数据的封装与解封装 1. 数据的封装过程 2. 数据的解封装过程 二、数据的传输过程 1. 相关概念 2. 网络传输过程中数据封装和解封装模拟 一、数据的封装与解封装 1. 数据的封装过程 数据封装过程,在这里我们举例说明,以两台主机的通信为…

【docker基础学习之】镜像构建

下面是在工作过遇到的一些实际例子,谨以此作为笔记参考 目录 1.背景2. 寻找方案3. 如何解决4.解决步骤4.1 DockerFile4.2 现在要做的 5. 镜像相关命令 1.背景 部署(迁移)项目时发现,项目的excel导出功能报错,错误如下…

ChatGPT数据分析应用——同期群分析

ChatGPT数据分析应用——同期群分析 ​ 同期群分析在一定程度上属于分组分析的一个变种。顾名思义,同期群就是相同时期的群体,同期群分析就是针对相同时期的群体展开分析。接下来我们让ChatGPT解释这个方法的概念并提供相应的案例。发送如下内容给ChatG…

chrome插件webRequest拦截请求并获取post请求体requestBody数据raw内容,解决中文乱码问题

详细使用说明可以看官方文档:https://developer.chrome.com/docs/extensions/reference/api/webRequest?hlzh-cn 拦截操作 想要通过浏览器插件拦截请求的话,需要在manifest.json里面添加webRequet权限: 拦截请求代码放在background.js里面…

力扣--从前序与中序遍历序列构造二叉树

题目: 思想: 首先先序遍历能确定根节点的值,此时查看该值在中序遍历中的位置(如果索引为i),那么i左侧为左子树,i 右侧为右子树。从中序数组中即可看出左子树结点个数为 i,右子树节点…

王道机试C++第 3 章 排序与查找:排序问题 Day28(含二分查找)

查找 查找是另一类必须掌握的基础算法,它不仅会在机试中直接考查,而且是其他某些算法的基础。之所以将查找和排序放在一起讲,是因为二者有较强的联系。排序的重要意义之一便是帮助人们更加方便地进行查找。如果不对数据进行排序,…

ACM题解Day10|总结篇|进制转化,GCD ,LCM ,二分答案

🔥博客介绍: 27dCnc [Cstring中find_first_not_of()函数和find_last_not_of()函数-CSDN博客] 方差,期望 概率 今日打卡: 算法周总结 ACM题解Day3| To Crash or not To Crash,Integer Prefix ,I don’t want to pay for the Late Jar-CSDN博客 第3题:…

【LeetCode:2917. 找出数组中的 K-or 值 + 模拟+位运算】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持,因为它具有很高的价值,算法就是这样✨ 🌲 作者简介:硕风和炜,…

如何将 ONLYOFFICE 协作空间部署到 Kubernetes / OpenShift 集群中

需要 ONLYOFFICE 协作空间的可扩展实例吗?使用 Helm 轻松将其安装到 Kubernetes 或 OpenShift 集群中。阅读本文了解详情。 ONLYOFFICE 协作空间是什么 ONLYOFFICE 协作空间是一个协同办公平台,能够帮助用户更好地与客户、业务合作伙伴、承包商及第三方…

驱动调试第013期-G120XA驱动同步电机应用案例

概述 SINAMICS G120XA是西门子SINAMICS系列变频器的新成员, 功率范围覆盖0.75 kW~560 kW,内置风机和水泵行业应用功能,汇集了优异的高性能矢量控制算法,可以轻松的驱动风机、水泵及压缩机等负载。胜任各种应用场合,专…

【python基础学习11课_异常机制】

一、异常 1、异常的定义 异常:程序无法继续执行异常会中断程序执行异常处理,是为了不中断程序执行。而不是避免错误。有些代码是报错就是要暴露出来有了异常机制,错误的代码报错后抛出异常,代码从上到下,报错代码后面…

触发HTTP preflight预检及跨域的处理方法

最近在做需求的过程中,遇到了很多跨域和HTTP预检的问题。下面对我所遇到过的HTTP preflight和跨域的相关问题进行总结: 哪些情况会触发HTTP preflight preflight属于cors规范的一部分,在有跨域的时候,在一定情况下会触发preflig…

字节开启新一轮期权回购,价格又涨了(含算法原题)

字节期权 近日,字节跳动开启新一轮期权回购,价格微涨至 170 美元。 之前我们就写过 文章,分享历年来字节跳动的期权变化情况,这里再贴一下: 18年:10 19年:30 20年:60-70 21年&#x…

Linux系统编程(六)高级IO

目录 1. 阻塞和非阻塞 IO 2. IO 多路转接(select、poll、epoll) 3. 存储映射 IO(mmap) 4. 文件锁(fcntl、lockf、flock) 5. 管道实例 - 池类算法 1. 阻塞和非阻塞 IO 阻塞 IO:会等待操作的…

决定马里兰州地区版图的关键历史事件

1. 马里兰殖民地的建立: - 1632年,英国国王查理一世将一大片土地赐予塞西尔卡尔弗特男爵,这片土地是为了纪念国王的妻子亨丽埃塔玛丽亚而命名为“马里兰”。卡尔弗特和他的儿子随后建立了马里兰殖民地,这标志着马里兰作为一个独立…

车辆伤害VR安全教育培训复用性强

VR工地伤害虚拟体验是一种新兴的培训方式,它利用虚拟现实技术为参与者提供身临其境的体验。与传统的培训方式相比,VR工地伤害虚拟体验具有许多优势。 首先,VR工地伤害虚拟体验能够模拟真实的工作环境和事故场景,让参与者在安全的环…

hdu-2059(dp)

hdu-2059 龟兔赛跑 dp[i] 表示到第i个站所花费的最少时间,t[j][k]表示在第j个站充满电,直接开到第k个站所花的时间,那么状态转移为: dp[i] min(dp[i], dp[j] t[j][i]) 含义为,假设我们当前想知道到达第i个站的最少时间&#xff…

虽说主业搞前端,看到如此漂亮的网页UI,也是挪不开眼呀。

漂亮的网页UI能够吸引人的眼球,给人留下深刻的印象。作为前端开发人员,可以通过不断学习和掌握设计技巧和工具,提升自己的UI设计能力,为用户提供更好的视觉体验。 以下是一些提升网页UI设计能力的建议: 学习设计基础知…