什么是合成数据?

news2024/10/5 13:16:08

合成数据是在计算机上生成的信息,用于增强或替换真实数据,以改进 AI 模型、保护敏感数据并减轻偏见。

将大量数据对准人类,你会得到信息过载。但是,如果你对计算机做同样的事情,你会得到机器学习模型,当你在医学扫描中输入或检测肿瘤时,这些模型可以学习完成句子,这些肿瘤通常太微小了,人眼无法看到。

数据是推动当今人工智能进步的原材料,产生了新的见解、新的发现和更多证据支持的决策。数据现在对现代经济至关重要,对真实、高质量数据的需求呈指数级增长。与此同时,更严格的数据隐私规则和越来越大的人工智能模型使得收集和标记真实数据变得越来越困难或不切实际。

虚幻合成数据生成器生成大规模训练合成数据是用于测试和训练AI模型的计算机生成信息,在我们数据驱动的时代,它已成为不可或缺的。它生产成本低廉,自动贴标签,并避开了在真实示例上训练深度学习模型带来的许多后勤、道德和隐私问题。

无限量供应带注释的数据

在计算机上合成数据的美妙之处在于,它可以按需采购,根据您的确切规格进行定制,并且几乎无限量地生产。计算机模拟是创建合成数据集的一种流行方式。在图形引擎的帮助下,您可以制作出在虚拟世界中创建的无穷无尽的逼真图像和视频。

创建人工数据的第二种方法是使用人工智能本身,使用虚幻合成数据生成器来创建逼真的文本、图像、表格和其他数据类型。属于生成式 AI 保护伞的模型架构包括基于转换器的基础模型、扩散模型和 GAN,它们学习基础数据的表示以生成类似风格的版本。DALL-E 是用于生成图像和用于文本的 GPT 的最知名模型之一。

合成数据的主要优势之一是它是预先标记的。收集真实数据并手动注释非常耗时、昂贵,而且通常不可能。让机器制作数字传真的好处是,它已经理解了数据,无需人类费力地描述每个图像、句子或音频文件。

确保敏感数据安全

合成数据的另一个优点是,它允许公司回避处理个人数据所涉及的一些监管问题。医疗保健记录、财务数据和网络上的内容都受到隐私和版权法的保护,这使得公司难以对其进行大规模分析。

金融服务通常依靠敏感的客户数据进行内部工作,例如测试软件、检测欺诈和预测股票市场趋势。为了确保这些信息的安全,公司遵循严格的内部程序来处理数据。因此,员工可能需要几个月的时间才能访问匿名数据。匿名化也可能引入错误,严重损害最终产品或预测的质量。

更快地训练 AI 模型

训练十亿参数基础模型需要时间和金钱。借助虚幻合成数据生成器生成大规模训练数据集,可以使训练和部署各种规模的人工智能模型变得更快、更便宜。

使用生成式 AI 可以更快地制作合成图像。麻省理工学院和IBM的研究人员最近结合了数千个小型图像生成程序,以简单的颜色和纹理制作出假图像。他们发现,在这些基本图像上预训练的分类器比在更详细的合成数据上训练的模型更准确。

用更多的合成数据抵消真实数据也可以减少在从互联网上抓取的原始数据上预先训练的模型在种族主义或性别歧视切线上偏离的可能性。定制人工数据经过预先审查,偏差更少。

“在我们实际开始使用真实世界的数据之前,尽可能多地使用合成数据有可能清理我们所处的狂野西部模式,”麻省理工学院-IBM Watson AI 实验室联合主任兼探索性 AI 研究负责人 David Cox 说。

为数据集注入更多多样性

自动驾驶汽车行业很早就接受了合成数据。收集道路上所有潜在场景的样本,包括罕见的所谓边缘情况,是不切实际的,甚至是不可能的。可以借助虚幻合成数据生成器生成大规模训练数据集来不全这方便的空白。

客户服务聊天机器人也看到了变化——人们说话的口音、节奏和风格。聊天机器人可能需要数年时间才能了解每个客户请求的细微差别以及如何有效响应。因此,合成数据对于提高聊天机器人性能至关重要。

IBM研究院开发的一种名为LAMBADA的算法生成假句子,旨在填补聊天机器人的知识空白。LAMBADA 使用 GPT 生成句子,然后审查它们的准确性。“你需要非常有创造力才能想象所有的边缘情况,”IBM的自然语言处理专家Ateret Anaby-Tavor说。“相反,你可以使用一台机器,只需按一下按钮,就能给你数千个句子。你只需要评估和过滤它们。

但是,有时没有足够的数据来创建假句子。对于全世界相对较少的人使用的数千种语言来说,情况确实如此。为了在这些所谓的低资源语言上训练AI模型,IBM研究人员尝试在基于图像的乱码上预训练语言模型。

他们最近表明,在完全无意义的预训练中,一个在完全无意义的模型上的表现几乎与在西班牙语上预训练的模型一样好。IBM研究员Chuang Gan说,无论我们说什么语言,我们的视觉世界变化很小,这为自然语言创造了一个共同的基础。

“首先教模型一种新兴语言可以使学习非印欧语言更容易,同时避免西方语言预训练带来的一些文化偏见,”他说。

减少脆弱性和偏见

合成数据也常用于测试 AI 模型的安全漏洞和偏差。在基准测试上表现良好的人工智能模型通常很容易被对抗性示例所欺骗——图像和文本被巧妙地改变以触发错误。

利用公开数据,IBM研究人员最近构建了一个工具,在Twitter上制作引用推文,以测试股票预测模型的稳健性,这些模型在社交媒体上寻找提示。在摄取了虚假推文后,一个可能预测股价下跌并建议投资者卖出的人工智能选股者可能会改变其决定,而是推动投资者购买。

大型模型几乎总是包含隐藏的偏见,这些偏见是从他们摄取的文章和图像中获取的。IBM研究人员最近创建了一个工具,可以发现这些缺陷并创建虚假文本来撤销模型的歧视性假设。它的工作原理是根据您要测试的类(主题、时态或情绪)生成反事实条件,以推翻模型的决定。

以这样一句话为例:“我的老板是个男人。该工具生成一个性别颠倒的假设陈述:“我的老板是女性。这种微小的变化不应导致分类器将其“正面”情绪评级更改为“负面”,但在这种情况下确实如此。为了减轻偏差,可以在使用反事实增强的数据集上重新训练模型,以便它了解到这些陈述是等效的,应该进行类似的分类。

“真实世界的数据很少是没有问题的,”IBM的Inkit Padhi说。“合成数据使我们能够发现并修复人工智能模型中的问题,使它们更加公平、健壮,并可转移到其他任务中。

原文链接:什么是合成数据? (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1142764.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络协议--TCP:传输控制协议

17.1 引言 本章将介绍TCP为应用层提供的服务,以及TCP首部中的各个字段。随后的几章我们在了解TCP的工作过程中将对这些字段作详细介绍。 对TCP的介绍将由本章开始,并一直包括随后的7章。第18章描述如何建立和终止一个TCP连接,第19和第20章将…

J2EE项目部署与发布(Windows版本)->会议OA单体项目Windows部署,spa前后端分离项目Windows部署

会议OA单体项目Windows部署spa前后端分离项目Windows部署 1.会议OA单体项目Windows部署(以实施的角度) 将项目放入webapp,项目能够访问: 首先拿到war包和数据库脚本,并检查是否有什么问题。 如何查看项目报错信息(当你…

2015年亚太杯APMCM数学建模大赛B题城市公共交通服务水平动态评价模型求解全过程文档及程序

2015年亚太杯APMCM数学建模大赛 B题 城市公共交通服务水平动态评价模型 原题再现 城市公共交通服务评价是城市公共交通系统建设和提高公共交通运营效率的重要组成部分。对于公交企业,管理和规划部门,传统公交车站、线路和换乘枢纽的规划数据只是基于主…

切割后面积最大的蛋糕

切割后面积最大的蛋糕 题记: 矩形蛋糕的高度为 h 且宽度为 w,给你两个整数数组 horizontalCuts 和 verticalCuts,其中: horizontalCuts[i] 是从矩形蛋糕顶部到第 i 个水平切口的距离verticalCuts[j] 是从矩形蛋糕的左侧到第 j …

探秘Spring的设计精髓,深入解析架构原理

序员与平庸的程序员之间的区别,是在于认为自己的代码重要还是数据结构更加重要。平庸的程序员眼里只有代码,优秀的程序员则关注数据结构及之前的关系。” 1、spring的设计理念 spring提供了一个轻量级的开发框架,抽象了实际开发中的很多共…

解决大模型“裸”奔,恒生打通落地金融“最后一公里”

大数据产业创新服务媒体 ——聚焦数据 改变商业 在数字化的21世纪,技术的每一次进步都能引发行业的巨大变革。进入2023年,大模型无疑是金融数智化升级的关键变革力量。无论是高频交易、风险管理,还是金融咨询和客户服务,大模型都…

【Linux】虚拟机项目部署与发布

目录 一、Linux部署单机项目 1.1 优缺点 1.2 将项目共享到虚拟机 1.3 解压后将war包放入tomcat 1.4 数据库导入脚本 1.5 Tomcat启动项目 二、部署前后端分离项目 2.1 准备工作 2.2 部署SPA项目 2.2.1 nginx反向代理 2.2.2 SPA项目宿主机访问 一、Linux部署单机项目…

【Unity精华一记】特殊文件夹

👨‍💻个人主页:元宇宙-秩沅 👨‍💻 hallo 欢迎 点赞👍 收藏⭐ 留言📝 加关注✅! 👨‍💻 本文由 秩沅 原创 👨‍💻 收录于专栏:uni…

CMMI/ASPICE认证咨询及工具服务

服务概述 质量专家戴明博士的名言“如果你不能描述做事情的过程,那么你不知道你在做什么”。过程是连接有能力的工程师和先进技术的纽带,因此产品开发过程直接决定了产品的质量和研发的效率。 经纬恒润可结合多体系要求,如IATF16949\ISO26262…

S7-200 SMART与ABB ACS580变频器进行MODBUS RTU通信的具体方法示例

S7-200 SMART与ABB ACS580变频器进行MODBUS RTU通信的具体方法示例 1. ABB ACS580变频器一侧的设置:

[17]JAVAEE-HTTP协议

目录 一、什么是HTTP协议 什么时候会用到HTTP协议? HTTP协议的工作流程 二、HTTP的报文格式 抓包 HTTP请求报文格式 1.首行 2.header 常见键值对: 3.空行 4.正文(body)(有的时候可以没有) HTTP…

数据挖掘神器Orange初步使用

文章目录 安装示例项目展示鸢尾花数据 安装 可以在官网下载,地址为Orange,如果已经装了Anaconda,则可在Anaconda Navigator中找到一个非常猥琐的图标,下面写着Orange3,可以点击Install,装完之后点Launch就…

软考系统架构师知识点集锦六:项目管理

一、考情分析 二、考点精讲 2.1进度管理(时间管理) 进度管理:为了确保项目按期完成所需要的管理过程。 2.1.1过程 [WBS分解的基本要求] WBS的工作包是可控和可管理的,不能过于复杂。任务分解也不能过细,一般原则WBS的树形结构不超过6层。每个工作包要…

文件上传预览下载

文件上传的表单必须满足三个条件: 1.表单组件标签只能用:<input type"file" value"xxx">会自动弹框让用户选择文件 2.请求方式只能用post 3.表单编码格式只能用:mutipart/form-data 根据HTTP协议规定,浏览器每次向后台提交参数,都会对参数进行统一…

selenium工作原理和反爬分析

一、 Selenium Selenium是最广泛使用的开源Web UI(用户界面)自动化测试套件之一&#xff0c;支持并行测试执行。Selenium通过使用特定于每种语言的驱动程序支持各种编程语言。Selenium支持的语言包括C#&#xff0c;Java&#xff0c;Perl&#xff0c;PHP&#xff0c;Python和Ru…

编程实例:多人同时计时计费管理系统软件,可适用于钓场计时等管理

编程实例&#xff1a;多人同时计时计费管理系统软件&#xff0c;可适用于钓场计时等管理 编程系统化课程总目录及明细&#xff0c;点击进入了解详情。https://blog.csdn.net/qq_29129627/article/details/134073098?spm1001.2014.3001.5502 1、使用该编程工具开发的多人计时计…

Kafka - 3.x 副本不完全指北

文章目录 kafka 副本的基本信息Leader选举过程Kafka Controllerkafka 分区副本Leader的选举流程实际演示① 查看first的详细信息&#xff0c;注意观察副本分布情况② 停掉hadoop103上的kafka进程③ 再次查看first的相信信息&#xff0c;观察副本分布④ 处理分区leader分布不均匀…

吴恩达《机器学习》1-4:无监督学习

一、无监督学习 无监督学习就像你拿到一堆未分类的东西&#xff0c;没有标签告诉你它们是什么&#xff0c;然后你的任务是自己找出它们之间的关系或者分成不同的组&#xff0c;而不依赖于任何人给你关于这些东西的指导。 以聚类为例&#xff0c;无监督学习算法可以将数据点分成…

第八节——Vue渲染列表+key作用

一、列表渲染 vue中使用v-for指令进行列表 <template><div><!-- item 代表 当前循环的每一项 --><!-- index 代表 当前循环的下标--><!-- 注意&#xff1a;必须要加key--><div v-for"(item, index) in arr" :key"index"…

vue源码分析(三)——new Vue 的过程(详解data定义值后如何获取的过程)

文章目录 零、准备工作1.创建vue2项目2.修改main.js 一、import Vue from vue引入的vue是哪里来的&#xff08;看导入node_modules包&#xff09;1&#xff1a; 通过node_modules包的package.json文件2&#xff1a; 通过配置中的main入口文件进入开发环境的源码&#xff08;1&a…