偏见将如何扼杀你的人工智能/机器学习策略以及如何应对

news2024/11/24 16:16:02

在这里插入图片描述
任何类型的模型中的“偏差”都描述了模型对提示或输入数据的响应不准确的情况,因为它没有接受足够的高质量、多样化的数据训练来提供准确的响应。一个例子是 苹果的面部识别手机解锁功能对于肤色较深的人来说失败率明显高于肤色较浅的人。 该模型没有接受过足够多的深色皮肤人的图像训练。这是一个风险相对较低的偏见例子,但这正是欧盟人工智能法案提出要求在进入市场之前证明模型功效(和控制)的原因。输出影响业务、财务、健康或个人状况的模型必须值得信赖,否则将不会被使用。

用数据解决偏见

海量高质量数据

在许多重要的数据管理实践中, 克服和最小化人工智能/机器学习模型中的偏差的关键部分是获取大量高质量、多样化的数据。这需要与拥有此类数据的多个组织进行协作。传统上,数据获取和协作受到隐私和/或知识产权保护问题的挑战——敏感数据无法发送给模型所有者,模型所有者也不能冒险将其知识产权泄露给数据所有者。一种常见的解决方法是使用模拟或合成数据,这可能很有用,但与使用真实的全上下文数据相比也有局限性。这就是隐私增强技术 (PET) 提供急需答案的地方。

合成数据:接近,但不完全一样

综合数据 是为了模仿真实数据而人工生成的。这很难做到,但通过人工智能工具变得稍微容易一些。高质量的合成数据应该具有与真实数据相同的特征距离,否则它不会有用。高质量的合成数据可以通过填补较小的边缘化人群或人工智能提供商根本没有足够数据的人群的空白,有效地提高训练数据的多样性。合成数据还可用于解决现实世界中可能难以找到足够数量的边缘情况。此外,组织可以生成合成数据集,以满足阻止访问真实数据的数据驻留和隐私要求。这听起来很棒;然而,合成数据只是拼图的一部分,而不是解决方案。

合成数据的明显局限性之一是与现实世界的脱节。例如,仅根据合成数据进行训练的自动驾驶汽车将难以应对真实的、不可预见的路况。此外,合成数据继承了用于生成它的现实世界数据的偏见——这几乎违背了我们讨论的目的。总之,合成数据是微调和解决边缘情况的有用选择,但模型功效和偏差最小化的显着改进仍然依赖于访问现实世界数据。

更好的方法:通过支持 PET 的工作流程获取真实数据

PET 在使用时保护数据。当涉及到AI/ML模型时,他们还可以保护正在运行的模型的IP——“二鸟一石”。利用 PET 的解决方案提供了在真实、敏感的数据集上训练模型的选项,而这些数据集以前由于数据隐私和安全问题而无法访问。将数据流解锁为真实数据是减少偏差的最佳选择。但它实际上是如何运作的呢?

目前,主要的选择是从机密计算环境开始。然后,与基于 PET 的软件解决方案集成,使其可以开箱即用,同时满足标准可信执行环境 (TEE) 中未包含的数据治理和安全要求。通过该解决方案,模型和数据在发送到安全的计算环境之前都经过加密。该环境可以托管在任何地方,这在解决某些数据本地化要求时非常重要。这意味着模型 IP 和输入数据的安全性在计算过程中都会得到维护,即使可信执行环境的提供者也无法访问其中的模型或数据。然后,加密结果将被发回以供审核,并且日志可供审核。

无论数据位于何处或由谁拥有,此流程都可以解锁最优质的数据,从而创建一条我们可以信任的偏差最小化和高效模型的路径。这一流程也是欧盟人工智能法案在人工智能监管沙箱的要求中所描述的。

促进道德和法律合规

获取高质量的真实数据非常困难。数据隐私和本地化要求立即限制了组织可以访问的数据集。为了实现创新和增长,数据必须流向那些能够从中获取价值的人。

欧盟人工智能法案第 54 条规定了“高风险”模型类型的要求,即在将其推向市场之前必须经过验证。简而言之,团队需要在内部使用真实世界的数据 人工智能监管沙箱 以证明足够的模型有效性以及对第三章第 2 章中详述的所有控制的合规性。这些控制包括监控、透明度、可解释性、数据安全、数据保护、数据最小化和模型保护——想想 DevSecOps + Data Ops。

第一个挑战是找到要使用的真实数据集,因为这对于此类模型类型来说本质上是敏感数据。如果没有技术保证,许多组织可能会犹豫是否信任模型提供商及其数据,或者不会被允许这样做。此外,该法案定义“人工智能监管沙盒”的方式本身就是一个挑战。其中一些要求包括保证模型运行后数据从系统中删除,以及治理控制、执行和报告来证明这一点。

许多组织已尝试使用开箱即用的数据洁净室 (DCR) 和可信执行环境 (TEE)。但是,就其本身而言,这些技术需要大量的专业知识和工作才能实施并满足数据和人工智能监管要求。
DCR 使用起来更简单,但还无法满足更强大的 AI/ML 需求。 TEE 是安全的服务器,仍然需要一个集成的协作平台才能快速发挥作用。然而,这为隐私增强技术平台提供了与 TEE 集成的机会,以消除这项工作,从而简化人工智能监管沙箱的设置和使用,从而简化敏感数据的获取和使用。

通过以保护隐私的方式使用更加多样化和全面的数据集,这些技术有助于确保人工智能和机器学习实践符合与数据隐私相关的道德标准和法律要求(例如欧洲的 GDPR 和欧盟人工智能法案)。总之,虽然需求常常伴随着可听见的咕噜声和叹息来满足,但这些需求只是指导我们构建更好的模型,我们可以信任和依赖这些模型来进行重要的数据驱动决策,同时保护用于模型开发的数据主体的隐私和定制。

结论

在我们共同探索了广阔的知识海洋、领略了丰富多元的信息世界后,我诚挚地邀请并强烈推荐每一位读者,将您的在线探索之旅延伸至我的官方网站。这不仅是一个信息集散地,更是一个知识共享、互动交流、价值共创的数字化平台,它承载着我对专业领域的深度洞察,对时代脉搏的敏锐捕捉,以及对提升公众认知、服务社会进步的热忱初心。
访问我的网站,您将享受到以下几大独特价值:
首先,深度与广度并重的专业内容。网站精心筛选并呈现了我所在领域的前沿资讯、深度解析、实用教程等各类高质量内容,无论是行业动态的即时追踪,还是专业知识的系统梳理,皆力求以严谨的态度、生动的笔触,满足您对专业知识的求知欲与提升需求。无论您是初入门槛的新手,还是寻求进阶之道的资深人士,都能在这里找到适配您成长路径的知识养料。
其次,互动交流的开放社区。网站搭建了用户友好、氛围活跃的互动板块,鼓励用户分享见解、提问解惑、交流心得。在这里,您的声音会被倾听,您的观点会被尊重,您的疑惑将得到同行或专家的及时回应。这种跨越地域、时间限制的即时交流,无疑将极大地拓宽您的思维边界,深化对知识的理解与应用能力,同时也能让您结识志同道合的朋友,共享学习的乐趣与挑战的激情。
再者,个性化定制的服务体验。网站充分考虑用户的个体差异与需求多样性,提供定制化的内容推荐、个性化学习计划等功能,确保您在海量信息中精准定位所需,实现高效学习。此外,定期举办的线上讲座、专题研讨会等活动,更能让您与业界翘楚面对面交流,把握行业趋势,提升实战能力。
最后,持续更新与优化的承诺。我深知知识世界的瞬息万变与用户需求的日益提升,因此,我将持续投入资源,对网站进行内容更新、功能升级,确保其始终紧跟时代步伐,为您提供最新、最实用、最具价值的信息服务。
总而言之,访问我的网站,您收获的将不仅仅是一次点击带来的信息获取,更是一段深度参与、持续成长的学习旅程,一个连接知识、连接他人、连接未来的智慧桥梁。在此,我满怀期待地邀请您,即刻启程,一同踏入这片充满机遇与启迪的网络空间,让知识的力量照亮我们的前行之路。您的每一次访问,都是对我们工作的最大肯定与激励;您的每一份收获,都是我们不懈努力的最佳回馈。期待在网站上与您相遇,共赴知识探索之约!---------IT英雄。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1626481.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

分享8款安全监控/日志记录工具

安全监控工具的作用是实时监控和分析系统的安全状态,而日志记录工具的作用主要是记录系统的运行过程及异常信息。 关于安全监控工具,它通过对计算机系统、网络、应用程序和数据进行实时监控和分析,帮助发现和防止安全威胁和攻击。这种监控不…

2024全网最火的接口自动化测试,一看就会

🔥 交流讨论:欢迎加入我们一起学习! 🔥 资源分享:耗时200小时精选的「软件测试」资料包 🔥 教程推荐:火遍全网的《软件测试》教程 📢欢迎点赞 👍 收藏 ⭐留言 &#x1…

2024信息系统、信号处理与通信技术国际会议(ICISPCT2024)

2024信息系统、信号处理与通信技术国际会议(ICISPCT2024) 会议简介 2024国际信息系统、信号处理与通信技术大会(ICISPCT2024)将在青岛隆重开幕。本次会议旨在汇聚全球信息系统、信号处理和通信技术领域的专家学者,共同探索行业…

全网最全的接口测试教程

🍅 视频学习:文末有免费的配套视频可观看 🍅 关注公众号【互联网杂货铺】,回复 1 ,免费获取软件测试全套资料,资料在手,涨薪更快 其实我觉得接口测试很简单,比一般的功能测试还简单&…

组合模式【结构型模式C++】

1.概述 组合模式又叫部分整体模式属于结构型模式,是用于把一组相似的对象当作一个单一的对象。组合模式依据树形结构来组合对象,用来表示部分以及整体层次。 2.结构 组件(Component):定义了组合中所有对象的通用接口&#xff0c…

信号的调幅(AM)、调频(FM)与调相(PM)对频谱结构的影响(找找复刻电赛D题的伙伴)

0.目录 (1)调制与解调的基本概念 (2)调幅对频谱结构的影响 (3)调频信号幅值变化对频谱结构的影响 (4)调频信号频率变化对频谱结构的影响 (5)调幅调频信号…

Java Web 网页设计(3)

3.servlet JavaWeb——Servlet(全网最详细教程包括Servlet源码分析)-CSDN博客 servlet java不支持 只有Tomcat支持 使用时添加一下 servlet中最常用的两个(固定)方法: 下面我们创建一个servlet类 package com.oracle…

PE文件(三)节表

节表引入 PE文件的结构是由DOS头PE标记标准PE头可选PE头节表多个节构成的,如下便是一个pe文件结构图,它的每一段都可以被称作节 图中这么多的节在硬盘上和内存中的存储位置都由节表去管理和记录,而不是随意的存储。 节表相当于是一个对各个…

论文解读:Label Hallucination for Few-Shot Classification

文章汇总 动机 本文的一个思想就是:尽管新类的标签并不能“恰如其分”地表示基数据集中的样本,但是很多基数据集的样本会包含与新类中相似的对象,例如,基数据集中的老虎和新类中的猫有相似的特征,那么就有60%的概率将…

补充centos7软件包的方式/编译安装源码包软件/企业案例/linux进程管理/企业管理进程系列命令(企业经验)--8820字详谈

cenros7软件包的安装方式 软件包分类安装方式优缺点rpm包软件开发商编译打包,安装简单,快速软件版本可能偏低,安装路径是固定好的源码包自己手动编译安装并且复杂软件爸爸随意选,可以定制安装路径二进制包解压就可以使用不能进行…

new String和直接赋值的一些问题

分析1 我们先看以下代码: String str1 "abc"; // 在常量池中String str2 new String("abc"); // 在堆上System.out.println(str1 str2)以上结果的输出是什么? 输出:false 前置知识: 在JVM中&#xff0c…

PTA 天梯赛 L1-010 比较大小【C++】 L1-011 A-B 【C++ vector动态数组】【Python 字符串replace函数】

L1-010 比较大小 判断顺序很重要 #include<iostream> using namespace std; int main() {int a, b, c;cin >> a >> b >> c;int temp;if (a > b) {temp a;a b;b temp;}if (a > c) {temp a;a c;c temp;}if (b > c) {temp b;b c;c te…

从零开始的软件测试学习之旅(二)测试方法及禅道使用篇

测试方法bug统计以及禅道使用 按是否要运行程序进行划分测试方法测试计划和测试方案测试方案包含:测试用例设计方法一.等价类划分法二.边界值法三.判定表法四.因果图: 输入条件或输入条件组合较多,组合使用判定表与因果图五.正交法:基于数学概率学,设计最经济的实验路径六.场景…

Vue面试经验

Vue部分 Vue编译时声明周期的执行顺序 Vue中父子组件渲染顺序&#xff08;同步引入子组件&#xff1a;import Son from ‘/components/son’ &#xff09; 父子组件编译时的生命周期执行顺序 这里修改data数据时也修改了dom&#xff0c;如过知识通过按钮对数据进行操作&…

Veeam配置备份oracle实例

Veeam是一家专门提供数据管理和数据保护解决方案的软件公司。他们的产品主要包括备份、复制和虚拟化管理等功能&#xff0c;旨在帮助企业保护其数据、应用程序和系统&#xff1b;NBU&#xff0c;COMMVALT&#xff0c;Veeam 国际三大知名备份软件厂商。本文介绍使用Veaam 备份Li…

数据结构——二叉树的操作 (层序遍历)(C++实现)

数据结构——二叉树的操作&#xff08;2&#xff09;&#xff08;C实现&#xff09; 统计叶子结点个数统计结点个数层序遍历非递归方式递归方式 我们今天接着来看二叉树的操作&#xff0c;如果还没有看过上一篇的可以点击这里&#xff1a; https://blog.csdn.net/qq_67693066/a…

ezplot--Matlab学习

目录 一、代码 二、效果 ​编辑 三、ezplot讲解 四、如何自定义一个函数 一、代码 clc; clear; t0:32; x4(t) cos(2*pi*t/4).*sin(2*pi*t/4); x8(t) cos(2*pi*t/8).*sin(2*pi*t/8); x16(t) cos(2*pi*t/16).*sin(2*pi*t/16); subplot(3,1,1) ezplot(x4,[0,32]); subplot…

怎样选购内衣洗衣机?2024年5款最新推荐机型种草

随着科技的不断发展&#xff0c;内衣洗衣机成为了家家户户必备的小家电之一&#xff0c;为我们的生活带来了极大的便利。但面对市场上众多的内衣洗衣机品牌&#xff0c;如何选择一款质量好的内衣洗衣机呢&#xff1f;本文将为您推荐5款最新的内衣洗衣机品牌&#xff0c;从而帮助…

冯唐成事心法笔记 —— 知人

系列文章目录 冯唐成事心法笔记 —— 知己 冯唐成事心法笔记 —— 知人 冯唐成事心法笔记 —— 知世 冯唐成事心法笔记 —— 知智慧 文章目录 系列文章目录PART 2 知人 人人都该懂战略人人都该懂战略第一&#xff0c;什么是战略第二&#xff0c;为什么要做战略第三&#xff0…

【GitHub】如何在github上提交PR(Pull Request) + 多个pr同时提交、互不干扰

【GitHub】如何在github上提交PR(Pull Request 写在最前面1. 准备工作1.1 注册 GitHub 账号1.2 了解 Git 基础1.3 找到一个项目 2. 创建你的 PR2.1 Fork 和克隆仓库2.2 创建一个新的分支2.3 进行更改2.4 推送更改到 GitHub2.5 创建 Pull Request 3. 优化你的 PR3.1 保持提交清晰…