贯穿AI生命周期各阶段的道德问题:数据标注部分

news2024/10/5 18:31:45

随着AI在市场上得到更广泛的采用并被作为各种用例中的工具实现,更多的挑战也应势而生。AI项目遇到了一个长期的关键问题,即合乎道德的AI以及数据中的偏见处理。在AI发展初期,这个问题并不明显。 数据偏见是指数据集中某个元素的代表权重过大或不足。如果使用有偏见的数据来训练AI或机器学习模型,就会导致有偏差、不公正、不准确的结果。澳鹏正在深入研究AI生命周期各个阶段合乎道德的AI数据是什么样的。 在数据旅程的每一步,都有可能出现导致数据偏见的常见错误。值得庆幸的是,有一些方法可以避免这些隐患。在本系列文章中,我们将探索AI生命周期以下四个阶段中的数据偏见:

  • 数据获取
  • 数据准备
  • 模型训练和部署
  • 人工模型评估

并非所有的数据集都是平等的,但我们希望帮助您驾驭AI生命周期中复杂的数据道德问题,这样您就可以为AI模型创建最好、最有用且最可靠的数据集。  

数据准备中的偏见

在使用数据训练AI模型之前,必须保证这些数据可读并可用。AI数据生命周期的第二阶段是数据准备,即获取一组原始数据,对其进行排序、标注、清理和复核。澳鹏为客户提供人工标注、AI自动数据标注等数据准备服务。这两者结合应用,则能以尽可能低的偏见交付高质量的数据。 在数据准备阶段,首先由标注员检查每条数据,并为其提供标签或标注。根据不同的数据类型,可能有以下标注方式:

  • 在图像中的对象周围加边界框
  • 转录音频文件
  • 将书面文本从一种语言翻译成另一种语言
  • 标注文本文件或图像文件

我们世界各地的人工标注员完成数据标注后,数据便进入数据准备的下一环节:质量保证。质量保证过程需要人工标注员和机器学习模型来检查数据的准确性。如果数据不适合项目或数据标注错误,则会从数据集中删除相应数据。 在数据准备阶段的最后,数据集接着进入模型训练阶段。在数据集进入这个阶段之前,必须保证它一致、完整并且干净。高质量的数据造就高质量的AI模型。 偏见可以通过多种方式引入数据准备过程,并产生道德问题,这些问题随后又被带进AI模型。数据准备中最常见的数据偏见类型包括:

  • 数据缺口
  • 数据标注员训练不当
  • 标注不一致
  • 个人偏见
  • 数据过多或过少

数据中有缺口

AI数据集中潜入偏见的一种最常见情况是,数据缺口和数据代表性不足。如果数据集中缺少某些分组或类型的数据,就会导致在数据和生成的AI模型输出中出现偏见。常见的数据缺口包括少数群体代表性不足。数据缺口也可能是某类数据或罕见用例示例的代表性不足。 数据缺口通常是无意造成的,因此在准备阶段检查数据,查出这些数据缺口非常必要。如果不能通过添加更多代表性数据来解决数据缺口问题,用于训练AI模型的数据就会存在数据缺口,模型随之就会生成不太准确的结果。

数据标注员没有经过良好的训练

数据准备阶段引入偏见的另一种常见情况是,使用未经训练的数据标注员标注数据。如果数据标注员训练不足,不了解其工作的重要性,则标注过程中更有可能出现标注错误或是偷工减料的情况。 为数据标注员提供全面的训练和支持性监督,能够限制数据准备过程中出现的错误数。在数据标注过程中,未经训练的数据标注员可能通过几种方式引入偏见,其中包括标注不一致和个人偏见。

标注不一致

如果由多个标注员标注一个数据集,务必要训练所有标注员在标注每个数据点时保持一致性。当相似类型的数据标注不一致时,就会产生回忆偏见,导致AI模型的准确性降低。

个人偏见

在标注过程中,数据标注员引入偏见的另一种情况是,夹杂他们自己的个人偏见。我们每个人对周围的世界都有一套独特的偏见和理解。虽然标注员对世界的独特理解能够帮助其标注数据,但却可能会在数据中引入偏见。 例如,如果标注员标注带有面部表情的、流露情绪的图像,则来自两个不同国家的标注员可能会提供不同的标注。这类偏见是数据准备中所固有的,但可以通过全面质量保证流程加以控制。此外,企业还可为数据标注员提供避免无意识偏见的训练,设法减少偏见对数据标注的影响。

只使用人工标注或只使用机器标注

过去,标注数据的唯一方法是,由人工检查每一条数据,并用标签标注。近来,机器学习程序已经能够标注数据并创建训练数据集。 围绕两种标注方法的争论总是很激烈:哪个方法更好呢?我们想要双管齐下,既使用人工标注员标注数据,同时也使用机器学习程序对数据标注进行质量保证检查。这样做才能构建一流质量的数据集。

数据过多或过少

在准备阶段评估数据时,还需要考虑的重要一点是,要确保拥有适量的数据。训练数据可能太少,也可能太多。 如果训练数据太少,算法将无法理解数据中的模式。这被称为欠拟合。如果训练数据太多,模型的输出会不准确,因为它不能确定哪些是噪声,哪些是真实数据。为模型提供的数据过多称为过拟合。 为AI模型创建大小合适的数据集,将能提高模型输出的质量。 排除无关紧要的数据 在数据准备过程中,认真检查数据并从数据集中删除不适用于未来模型的数据很重要。在删除数据之前一定要反复检查,因为最初或对某人来说看似“无关紧要的”数据实际上可能并非如此。在这个阶段删除“无足轻重”的数据会导致排除方面的偏见。数据集的某个部分很小或是不常见,并不意味着它不重要。  

数据准备中偏见问题的解决方案

虽然在数据准备过程中有多种方式可能会在数据集中引入偏见,但解决方案也有很多。下面介绍了一些可以在数据准备过程中避免偏见的方法。

雇佣多元化和有代表性的员工

在数据准备过程中消除偏见的一种最重要的方法是,确保决策者和参与者具有广泛的代表性。雇佣多元化的员工对减少AI训练数据集中的偏见大有帮助。 雇佣多元化的员工才是第一步,我们还可以再进一步,为所有员工提供无意识偏见训练。无意识偏见训练能帮助员工更好地识别自己的个人偏见,并有意识地在所标注的数据中寻找偏见。

在质量保证流程中增加偏见检查环节

如果只能做一件事来减少数据准备中的偏见,那应该是在质量保证流程中增加偏见检查环节。大多数偏见都是无意的。这意味着因为没有人察觉,或是没有人想去查找,导致偏见潜入到数据中。 通过在质量保证流程中增加偏见检查环节,可以有意识地进行偏见检查。这样有助于提醒员工明确查找数据中的偏见,批判性地思考数据中应该和不应该代表什么。为员工提供无意识偏见训练,将使他们更容易在数据准备过程中查找和消除偏见。

为标注员提供优厚的报酬和公平的待遇

偏见在AI数据中普遍存在。识别数据缺口需要敏锐的眼光和全面的训练。为解决AI训练数据集中的偏见问题,企业的一个简单做法是,确保其数据标注员获得优厚的报酬和公平的待遇。 工作报酬优厚的员工更有可能关注生产高质量的内容。企业善待员工,员工就更有可能以高质量的工作作为回报。本质而言,合乎道德的AI始于那些为训练AI模型而标注数据和清理数据的人。这些人的工作报酬不令人满意,偏见扩散的可能性就更大。 要为AI模型建立一个更合乎道德的美好世界,就应该回归起点:从数据开始。AI生命周期包括四个数据处理阶段,它们都有可能给训练数据集引入偏见。在数据准备阶段,至关重要的是要有训练有素、享有优厚报酬的员工,他们可以识别无意识的偏见,就能帮助尽可能多地消除偏见。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/745426.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Sui开发者网络、测试网和主网的异同之处

Sui在主网正式上线前,发布了两波测试网以及独立的开发者网络供开发者和项目方进行测试。主网与这些网络在部分功能和参数方面有些许不同,本文盘点了这三个网络在功能和参数方面的异同。查看网络信息及更新计划 验证节点集 Sui网络由一组独立的验证节点…

apk反编译检测代码是否混淆

把 apk 当成 zip 并解压,得到 classes.dex 文件(有时可能不止一个 dex 文件,但文 件名大多类似) 使用 dex2jar 执行如下命令: dex2jar.bat classes.dex 文件路径 得到 classes.dex.jar 然后使用 jd-gui 打开 jar 文件&…

CAN总线

目录 1. 总体概述  1.1 基本概念 1.2 通讯方式 1.3 为什么使用CAN? 1.4 CAN的协议及组成 2. 上帝视角看CAN的通讯过程 2.1 数据传输原理实现 2.3 通信的整个过程 2.2.1 空闲状态 2.2.2 开始数据传输 2.2.3 仲裁机制 2.2.4 位时序 2.2.5 一次数据传输的例子 3.…

【C/C++ 力扣leetcode】4道简单题

文章目录 前言一、寻找正序数组的中位数中位数的概念C语言版C版 二、寻找无序数组的中位数冒泡排序的概念C语言版C版 三、整数反转代码实现原理详解 四、字符串转整数原理详解代码实现 总结 前言 刷题之——Leetcode道简单题,通过这4道简单题,C/C有新的…

MachineLearningWu_12_BuildNNUsingNumpyOrTF

x.1 咖啡机的例子 我们以煮咖啡为例子来做一个判断煮的咖啡是否符合自己预期的实验。假设煮咖啡的好坏有两个因素决定,温度和煮的时间,图中x表示煮的咖啡很好,o表示煮的咖啡不好,我们根据这个实验来建模,并将模型通过…

简述DHCP服务器获取IP地址的过程

简述DHCP服务器获取IP地址的过程 如何搭建DHCP服务 要在Linux系统上搭建DHCP服务器,你可以按照以下步骤进行操作: 1.安装DHCP服务器软件包: sudo yum install dhcp2.配置DHCP服务器: 打开/etc/dhcp/dhcpd.conf文件&#xff0c…

前向传播之——得分函数

前向传播之-得分函数 1.1 得分函数: 剧透:深度学习必备的两个大知识点分别是前向传播和反向传播啦,这里节课我们会先着手把前方传播的所涉及的所有知识点搞定!我相信这部分对于咱们即便没有什么基础的同学来说也是很容易理解的。 得分函数&#xff1a…

Vue从小白到入门

文章目录 🍋Vue是什么?🍋MVVM思想 🍋vue2快速入门🍋注意事项 🍋数据单向渲染🍋数据双向渲染🍋作业布置 🍋事件绑定🍋事件处理机制🍋注意事项和细节&#x1f…

Android屏幕适配方案

方案一: 安卓app禁止跟随系统字体大小,显示大小而改变。 1、定义工具类 public final class DisplayUtil {/*** 禁用7.0(23)以上显示大小改变和文字大小*/public static Resources disabledDisplayDpiChange(Resources res) {C…

openGauss学习笔记-07 openGauss 语法

文章目录 openGauss学习笔记-07 openGauss 语法7.1 帮助7.2 SQL语句格式7.3 SQL语法ABORTALTER AUDIT POLICYALTER DATA SOURCEALTER DATABASEALTER DEFAULT PRIVILEGESALTER DIRECTORYALTER EXTENSIONALTER FOREIGN TABLEALTER FUNCTIONALTER GROUPALTER INDEXALTER LARGE OBJ…

APB 3

一. APB3概述 APB协议是AMBA总线协议系列的一部分,其接口简单、功耗较低,常用于连接低带宽的高性能外设,每次数据传输至少需要两个时钟周期,且无法同时进行读写操作。 APB作为系统中的从机,可以通过AHB、AHB-Lite、AXI…

RPC分布式网络通信框架(二)—— moduo网络解析

文章目录 一、框架通信原理二、框架初始化框架初始化 三、调用端(客户端)调用端框架调用端主程序 四、提供端(服务器)提供端主程序提供端框架NotifyService方法Run方法muduo库的优点网络代码RpcProvider::OnConnection业务代码Rpc…

go 爬虫速度控制

go 爬虫速度控制 使用go语言用原生net/http写爬虫如何优雅的控制并发和请求速度控制并发限流并发和限流的区别简单说明有了并发控制为什么还要限流 最总代码 使用go语言用原生net/http写爬虫如何优雅的控制并发和请求速度 go程序的执行效率相对python要快的多,且占…

如何在半年内找到理想的数据库内核开发工作?

学习和提升技能:着重学习数据库原理、数据结构、算法和数据库内核开发相关的知识。掌握SQL语言和数据库设计,了解常见的数据库系统和底层技术。参加培训、在线课程或自学,不断提升自己的技术能力。 我这里刚好有嵌入式、单片机、plc的资料需…

三、CAS认证流程

一、相关概念 TGC(Ticket-granting cookie):存放用户身份认证的cookie,在浏览器和CAS server用来明确用户身份的凭证;ST(Service Ticket):CAS服务器通过浏览器分发给客户端服务器的票据,一个特定服务只能有一个唯一的…

微信小程序开发学习之页面导航(声明式导航和编程式导航)

微信小程序之页面导航(声明式导航和编程式导航) 1.0 页面导航1.1. 声明式导航1.1.1. 导航到tabBar页面1.1.2. 导航到非tabBar页面1.1.3. 后退导航 1.2. 编程式导航1.2.1. 导航到tabBar页面1.2.2. 导航到非tabBar页面1.2.3. 后退导航 1.3. 导航传参1.3.1.…

手把手教你用 NebulaGraph AI 全家桶跑图算法

前段时间 NebulaGraph 3.5.0 发布,whitewum 吴老师建议我把前段时间 NebulaGraph 社区里开启的新项目 ng_ai 公开给大家。 所以,就有了这个系列文章,本文是该系列的开篇之作。 ng_ai 是什么 ng_ai 的全名是:Nebulagraph AI Sui…

安装RabbitMQ 详细步骤

我这里是在Linux系统里面安装的按照步骤即可 1. 安装Socat🍉 在线安装依赖环境: yum install gcc yum install socat yum install openssl yum install openssl-devel2. 安装Erlang🍉 去官网下载一下安装包,将安装包拉到Linux系…

苹果APP安装包ipa如何安装在手机上

苹果APP的安装比安卓复杂且困难,很多人不知道如何将ipa文件安装到手机上。以下是几种苹果APP安装在iOS设备的方式,供大家参考。 一、上架App Store 这是最正规的方式。虽然审核过程复杂、时间较长,且审核条件较为苛刻,但借助第三…

【UE C++】蓝图调用C++函数

目录 一、蓝图调用其继承的C类的函数 二、蓝图调用全局C函数 一、蓝图调用其继承的C类的函数 首先新建一个C类 父类选择“Actor” 这里命名为“MyActorFromC”,然后点击创建类,等待编译完成。 在头文件中申明函数 UFUNCTION(BlueprintCallable, Categ…