负责任的训练数据:三个重要方面

news2024/9/29 3:26:45

毫无疑问,人工智能(Artificial Intelligence)技术一定会在接下来的几年中持续快速发展,并与我们的日常生活愈发密切地联系在一起。现在,企业必须要承担起责任,实施负责任的AI,以最大限度地提高透明度,减少偏见,并指导AI技术的道德应用。毕竟,运行良好的AI应该公平地为每个人提供服务。 有关负责任的政策和协议,当前制定的决策将决定AI的未来,进而决定AI将如何塑造我们的未来。数据是这些工作的基础;它是直接影响模型性能的各项AI技术的核心。模型的好坏取决于训练所使用的数据,这就是为什么数据是AI从业者在确定治理实践时可以真正有所作为的关键领域。 在AI项目中,数据科学家将大部分时间花在数据采集和标注上。完成这些任务时,有三个最重要的方面:保护数据隐私,减少数据偏见,和合乎道德地获取数据。  

 

数据隐私

作为一名AI从业者,最关心的应该是数据隐私和安全。在这一领域已有相关立法,组织的数据处理协议应符合相关规定。例如,有关个人信息保护存在国际公认的ISO标准,欧盟的《通用数据保护条例》(General Data Protection Regulation,简称GDPR)等,世界各地也存在其他要求。您的企业必须遵循与其客户所在的所有地区的数据标准。 在全球某些地区,可能不存在数据保护法规,或有数据保护法规不统一的情况;无论如何,致力于负责任的AI意味着采取数据安全管理措施,并可保护您的数据供应商。在使用个人数据前,应先征求个人同意,并采取保护措施,防止任何个人身份信息的不正当使用。 如果不清楚应将哪类安全协议纳入到数据管理实践中,则可考虑与第三方数据提供商合作进行数据采集。这些第三方数据供应商已具备安全协议,并从专业的角度出发,指导您安全地处理数据。  

数据偏见

偏见的数据会导致偏见的结果,这是AI开发的一个简单事实。但仔细想想,所有方法都有可能会无意中将偏见引入AI模型,情况就变得复杂多了。举例来说,假如您正在构建一个语音识别模型,也许是用于汽车。语音本身就有不同的音调、口音、填充词和语法(更不用说不同的语言和方言)。假设您希望语音识别模型适用于不同人口特征和背景的驾驶员,那么您就需要能够代表每一个用例的数据。 如果您收集的数据大多是男性声音,则语音识别模型通常会很难识别到女性声音。事实上,目前市场主流的基于语音的产品都存在这个问题,因为模型在训练期间并没有接触到足够多的数据类型。因此,我们面临的挑战是如何整理完整且公平的数据集,去涵盖所有用例和边缘用例。如果要创建对每个用户都有效的AI产品,首先要确保训练数据涵盖所有用户。  

数据获取

提到数据获取,我们讨论的是与数据提供和准备人员待遇相关的合乎道德的方法。理想情况下,如果您提供了数据,那么您应该获得补偿(并且要意识到您是数据提供者)。补偿可以是金钱或服务的交换形式。 事实上,很多数据都是在我们不知情的情况下获取的,而且数据所有权的界限也很模糊。例如,如果您正在为进行工作视频通话,那么谁将拥有该通话产生的语音数据的使用权?贵公司吗?视频通话提供商吗?通话参与者?数据所有权的界限很非常模糊。在任何情况下,致力于负责任的AI的公司都应该公开他们收集的数据对象、类型和时间,并尽可能给予提供数据的个人适当的补偿。 不过,数据获取并不总是问题所在,让数据变得易于使用通常更加麻烦。您需要大量人员来清理和过滤数据,以确保数据对项目有价值,还需要更多的人使用准确的标签标注数据。这些人必须得到公平的待遇:包括公平的薪酬、开放的沟通渠道、隐私保护和舒适的工作条件。这一领域的立法主要是关于禁止现代奴隶制的法律和雇佣法,但企业还可以更进一步,确保其数据标注人员受到道德的待遇。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/853115.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL的第一篇文章——了解数据库、简单的SQL语句

目录 学习目标 第一章 介绍数据库 1. 数据库概述 2. MySQL概述 第二章 MySQL的使用 1. MySQL服务的启动 2. 客户端连接MySQL 2.1 命令行客户端 第三章 SQL的介绍 1. 什么是SQL 2. SQL的分类 3. MySQL的语法规范和要求 第四章 DDL操作数据库 1. 创建数据库 2. 查…

《使用 VMware 在 Windows 上搭建 Linux 系统的完整指南》

《使用 VMware 在 Windows 上搭建 Linux 系统的完整指南》 1、准备工作1.1 安装 VMware 软件1.2 下载 Linux 发行版镜像文件1.3 安装SSH工具 2、创建新的虚拟机2.1 VMware页面2.2 打开VMware页面并点击创建新的虚拟机,选择自定义2.3 选择系统兼容性,默认…

PHP Mysql查询全部全部返回字符串类型

设置pdo属性 $pdo->setAttribute(PDO::ATTR_EMULATE_PREPARES, true);

图片制作成动态图如何在CSDN中插入动图gif

如何在CSDN中插入动图gif (1)方法一:在线制作多图合成gif动画 在线制作gif动画链接:https://www.matools.com/gif ①选择需要制作gif动画的图片将其添加 ②调整时间间隔,图片宽高等设置 ③一键生成gif将其下载到本地就可以了~ 在这…

Vantage透明屏的工作原理是什么?应用、展示、显示

Vantage透明屏是一种新型的显示技术,它能够将图像和视频直接投影到透明的屏幕上,使得观众可以同时看到屏幕上的内容和背后的实物。 这种技术在广告、展览、零售和娱乐等领域有着广泛的应用前景。 Vantage透明屏的工作原理是利用透明的显示面板和背后的…

电视盒子哪个牌子好?拆机达人揭晓电视盒子品牌排行榜

老赵每天会对各种类型的数码产品进行拆机,对硬件、品控这块非常熟悉,近期很多朋友问我电视盒子哪个牌子好,我整理了目前市面上硬件、软件都表现不错的电视盒子品牌排行榜,看看目前最值得入手的电视盒子都有哪些。 第一&#xff1a…

医疗保健中的 NLP:实体链接

一、说明 HEalthcare和生命科学行业产生大量数据,这些数据是由合规性和监管要求,记录保存,研究论文等驱动的。但随着数据量的增加,搜索用于研究目的的必要文件和文章以及数据结构成为一个更加复杂和耗时的过程。例如,如…

Hadoop理论及实践-HDFS四大组件关系(参考Hadoop官网)

NameNode(名称节点,Master主节点) NameNode主要功能 1、NameNode负责管理HDFS文件系统的元数据,包括文件,目录,块信息等。它将元数据Fsimage与Edit_log持久化到硬盘上。一个是Fsimage(镜像文件&#xff09…

c++遍历当前windows目录

前言 设置vs的高级属性为使用多字节字符集&#xff0c;不然会报char类型的实参与LPCWSTR类型的形参类型不兼容的错误 代码 #include <iostream> #include <cstring> #include <windows.h>void listFiles(const char* dir);int main() {using namespace st…

APT80DQ60BG-ASEMI快恢复二极管APT80DQ60BG

编辑&#xff1a;ll APT80DQ60BG-ASEMI快恢复二极管APT80DQ60BG 型号&#xff1a;APT80DQ60BG 品牌&#xff1a;ASEMI 芯片个数&#xff1a;双芯片 封装&#xff1a;TO-3P 恢复时间&#xff1a;≤80ns 工作温度&#xff1a;-55C~150C 浪涌电流&#xff1a;600A 正向电…

企业如何挑选适合自己需求的文件传输软件

随着科技的日新月异&#xff0c;文件传输已成为我们生活中不可或缺的一部分。无论是在工作场合还是在日常生活中&#xff0c;我们经常需要传输各种格式和大小的文件&#xff0c;如文档、照片、音频和视频等。然而&#xff0c;在选择适合自己需求的文件传输软件时&#xff0c;很…

postgresql|数据库|角色(用户)管理工作---授权和去权以及usage和select两种权限的区别

前言&#xff1a; postgresql做为一个比较复杂的关系型的重型数据库&#xff0c;不管是安装部署&#xff0c;还是后期的运行维护&#xff0c;都还是有比较多的细节问题需要引起关注。 例如&#xff0c;用户权限的合理分配&#xff0c;那么&#xff0c;什么是权限的合理分配呢…

使用js开发交互式地图应用

引言&#xff1a; 如今&#xff0c;地图应用已经成为我们日常生活中重要的一部分。无论是寻找路线、查看附近的商店还是探索未知的地区&#xff0c;地图应用都帮助我们轻松实现这些需求。在本文中&#xff0c;我们将学习使用js开发一个交互式地图应用&#xff0c;并加入代码示例…

小红书种草笔记怎么写标题更吸引人?

小红书作为我国领先的社交电商平台&#xff0c;种草笔记更是以其独特的形式和内容吸引了大量用户。如何写好一篇种草笔记的标题&#xff0c;成为了许多小红书用户关注的焦点。如何在小红书上写出一篇高质量的种草笔记&#xff0c;吸引万千粉丝关注&#xff1f;本文伯乐网络传媒…

nginx部署本地umi build项目

一、安装 brew install nginxBrew 安装可以参考网上教程 https://juejin.cn/post/6986190222241464350 安装后启动nginx服务查看是否成功 brew services start nginx启动报错 Error: undefined method launchd_service_path‘ for xxx 解决&#xff1a;更新brew brew updat…

基于vue-admin-template的动态路由的问题解决

基于vue-admin-template的动态路由的问题解决 1.问题一&#xff1a;页面无法显示 控制台报如下错误&#xff1a; 首先经过一番网上搜索&#xff0c;有说是webpack的原因&#xff0c;调试后发现不是&#xff0c;然后再排查后台返回的组件地址。 由于我的前端拼接组件地址的代…

使用威胁情报源可为大家提供更好的DDoS防护

DDoS&#xff08;分布式拒绝服务&#xff09;攻击已成为各种企业&#xff08;小到区域性小公司大到各种跨国公司&#xff09;的主要威胁&#xff0c;DDoS 攻击可能会对企业造成重大损害和破坏&#xff0c;比如对目标公司的声誉产生不利影响并导致收入损失。这也是为什么现在许多…

c++map和set剖析

文章参考文献&#xff1a;cplusplus 博主&#xff1a;拖拉机厂第一代码手 gitee:拖拉机厂第一代码手 c专栏&#xff1a;C 目录 &#x1f9d9;&#x1f3fc;‍♂set剖析&#x1f9da;&#x1f3fc;set简介&#x1f9da;&#x1f3fc;set模板参数列表&#x1f9da;&#x1f3fc;s…

大模型中常用的分词器Tokenizer学习总结记录与代码实现

最近大模型领域内如火如荼&#xff0c;很多企业、个人组织都陆续进入这个领域&#xff0c;笔者最近也是在接触大模型相关的技术领域&#xff0c;本文的主要目的就是想记录总结汇总大模型常用到的分词器算法&#xff0c;总结记录&#xff0c;学习备忘&#xff01;由于博主本身知…

巨人互动|Google海外户Google Analytics的优缺点是什么?

Google Analytics是一个由谷歌开发的网站分析工具&#xff0c;旨在帮助网站和移动应用程序运营者收集和分析数据&#xff0c;以更好地了解用户行为和改进业务。虽然Google Analytics具有许多优势&#xff0c;但也存在一些缺点。在本文中&#xff0c;我们将探讨Google Analytics…