合成数据及其在AI领域中的作用

news2025/1/11 4:20:15

什么是合成数据?

合成数据是由人工创建而非从现实生活中获得的数据,它从机器学习对数据的需求发展而来。最初,为了精确训练AI模型,必须获得涵盖所有可能场景的训练数据。如果某个场景没有发生或未被获得,就没有相应的数据,机器理解该场景的能力就会存在巨大的缺口。通过计算机程序创建相应的合成数据,就能弥补应用场景中的这些缺口。通过创建类别更广的数据集,就可以更自由地为众多行业的产品和服务训练涵盖更广的模型。 虽然合成数据的概念听上去很新颖,但实际上它已出现了很久。据说,这一概念由Donald Rubin在1993年的一篇文章中提出,文章题为《讨论统计披露的限制》,发表在《官方统计》杂志上。该文章的重点是数据私有化,其中指出,“本文提供的建议是,不发布实际的微观数据,而只发布使用多重插补构建的合成微观数据,这样就可以使用标准统计软件对其进行有效的分析。”最终结果是数据不包含任何来自现实世界的数据,这点仍然是当今合成数据的主要优势。 对合成数据的需求集中在多个行业,尤其是由自动驾驶驱动(双关语)的行业。  自动驾驶行业已证明使用合成数据的诸多好处。合成数据现在已经推广到所有利用计算机视觉的行业,如无人机、监控摄像头、零售和消费电子产品。  

 

合成数据如何助力AI?

随着对AI训练数据需求的增长,对合成数据的需求也在增长,其旨在帮助企业获得可靠的训练数据,以改善其产品和服务。现实世界的数据具有局限性,它基于已经发生的场景,并且包含个人身份信息(PII)。虽然,在用于训练目的之前,很容易就能从数据中删除PII。但是,在现实世界中,编排可用于训练目的的特定场景并不容易。这些场景(也称为边缘情况)是合成数据相较于人工采集的数据的真正优势所在。

合成数据如何帮助您?

使用合成数据的主要优势包括:

  • 降低成本;
  • 提高数据采集速度;
  • 数据不受PII影响;
  • 数据集具有包容性;
  • 获取罕见事件的数据(边缘情况);
  • 先进、准确的标注。

所有这些因素都是采用合成数据的重要原因,但同样重要的是,我们需要认识到,人类仍然在AI生命周期的数据中发挥作用。现实世界的数据要与合成数据结合使用,才能确保模型的正常运行。现实世界的数据还包含合成数据无法自然解释的异常值。虽然您可以对合成数据进行编程,以说明某些场景或边缘情况,但它并不会包含那些自然产生的异常值。 合成数据始终需要结合人为数据才能成功。人为数据是用于生成合成数据的计算机程序的起点。由于这些人为数据用于初始生成目的,因此需要确保其高质量,以便生成的数据具有相同的质量。创建数据后,需要实施质量监控,以确保没有错误。为此,需要根据高质量的人工标注数据对数据进行测试。结合使用人为数据与合成数据还有两个好处:能够以较少的资源和时间以及较低成本数据增加样本量。由于部分数据由计算机生成,因此成本较低,这就使公司能够将节约的资金投入进一步研究。快速完成的人工标注数据可以节省时间。 同样值得注意的是,这样得到的数据集将更具包容性。使用合成数据可以确保生成的数据来自中立的统一观点,不受偏见和其他影响因素的影响,并包含适当的多样性。PII也不太会成为一个困扰,因为所有合成数据均包含模拟数字。 合成数据还有一个不太明显但却非常重要的好处是安全性。除了保护隐私,使用合成数据还能保护人类的身份安全,生成的边缘情况也有利于安全。例如,这些场景可以帮助智能汽车在不需要司机的情况下提高驾驶和停车能力。这意味着通过年度测试,会减少道路上发生的事故。银行也可以对模拟欺诈程序进行测试,以确保其所有的安全设置能够防范任何潜在的攻击,让客户安心。  

未来一片光明——合成AI预测

虽然目前合成数据的使用率很低,但Gartner预测,到2030年,它将变得更为普遍。目前,合成数据仅占所有市场数据的1%,到2025年,预计它将占到约10%。这一增长将扩大AI应用的用例,进而增加AI行业的就业机会。到2027年,数据市场预计将增长至11.5亿美元,即复合年增长率达到48%。正因为如此,在我们《关于AI和数据未来的5大趋势》中,合成数据的崛起成为其中一大趋势。 综上所述,利用合成数据的主要市场是任何利用AI助力计算机视觉的市场。随着合成数据变得越来越普遍,它的用例将扩展到防止金融欺诈、医疗保健诊断模型和营销,帮助确保让客户获得正确的信息或产品。  

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/886475.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

23.8.16日总结

原先写的评论是每级评论用缩进来区分,所以最多设置的是九级评论,修改了排版和格式: 还有管理员页面,查看文章时可以进行点赞,收藏的操作,现在进行了修改,将相关操作隐藏。 还有点击查看未发布…

UE4/UE5 照明构建失败 “Lightmass crashed”解决“数组索引越界”

在构建全局光照时,经常会出现“Lightmass crashed”的错误,导致光照构建失败。本文将分析这一问题的原因,并给出解决建议。 UE4 版本4.26 报错如下: <None> === Lightmass crashed: === Assertion failed: (Index >= 0) & (Index < ArrayNum) [File:d:\build…

Android Studio 新建module报错:No signature of method

android平台uni原生插件开发过程中&#xff0c;使用Android Studio 新增 module 报错 选择app --> create new module &#xff0c;填写相关信息 Android Studio 新建module报错&#xff1a; 原因&#xff1a;Android Studio 版本过高&#xff0c;新增了namespace&#x…

Redis——hash类型详解

概述 Redis本身就是键值对结构&#xff0c;而Redis中的value可以是哈希类型&#xff0c;为了区分这两个键值对&#xff0c;Redis中的键值对是key-value&#xff0c;而value中的哈希键值对则是field-value&#xff0c;其中value必须是字符串 下面介绍一些Redis的hash类型的常用…

数据可视化和数字孪生相互促进的关系

数据可视化和数字孪生是当今数字化时代中备受关注的两大领域&#xff0c;它们在不同层面和领域为我们提供了深入洞察和智能决策的机会&#xff0c;随着两种技术的不断融合发展&#xff0c;很多人会将他们联系在一起&#xff0c;本文就带大家浅谈一下二者之间相爱相杀的关系。 …

软件工程模型-架构师之路(四)

软件工程模型 敏捷开发&#xff1a; 个体和交互 胜过 过程和工具、可以工作的软件 胜过 面面俱到的文件、客户合作胜过合同谈判、响应变化 胜过 循序计划。&#xff08;适应需求变化&#xff0c;积极响应&#xff09; 敏捷开发与其他结构化方法区别特点&#xff1a;面向人的…

chromedriver、geckodriver、MicrosoftWebDriver、IEDriverServer和operadriver之间的恩怨纠葛

测试环境&#xff1a;操作系统为Windows10-64位 具体目标&#xff1a;安装五大浏览器及其驱动 目录 一、谷歌浏览器1.Google Chrome的安装2.chromedriver的下载 二、火狐浏览器1.Firefox的安装2.geckodriver的下载 三、Edge浏览器1.Microsoft Edge的安装2.MicrosoftWebDriver的…

563.二叉树的坡度(递归)

一、题目 563. 二叉树的坡度 - 力扣&#xff08;LeetCode&#xff09; 二、代码 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* …

Spring的简介ioc容器及注入方式

一.Spring的简介 1.Spring的特性 Spring是一个开源框架&#xff0c;它由Rod Johnson创建。它是为了解决企业应用开发的复杂性而创建的。 Spring使用基本的JavaBean来完成以前只可能由EJB完成的事情。 然而&#xff0c;Spring的用途不仅限于服务器端的开发。从简单性、可测试性…

Shell编程——弱数据类型的脚本语言快速入门指南

目录 Linux Shell 数据类型 变量类型 运算符 算术运算符 赋值运算符 拼接运算符 比较运算符 关系运算符 控制结构 顺序结构 条件分支结构 if 条件语句 case 分支语句 循环结构 for 循环 while 循环 until 循环 break 语句 continue语句 函数 函数定义 …

Matplotlib绘图知识小结--Python数据分析学习

一、Pyplot子库绘制2D图表 1、Matplotlib Pyplot Pyplot 是 Matplotlib 的子库&#xff0c;提供了和 MATLAB 类似的绘图 API。 Pyplot 是常用的绘图模块&#xff0c;能很方便让用户绘制 2D 图表。 Pyplot 包含一系列绘图函数的相关函数&#xff0c;每个函数会对当前的图像进行…

线上问题排查: jmap mat 工具排查生产环境占用内存过大问题

一. 背景 线上任务内存占用居高不下, 机器load较高. 排查问题原因. 二. 操作 2.1. 工具文件下载清单. mat 工具 linux版本. ( dump文件太大了有20多G, 只能在服务器上解析. 所以下载linux版本. ) 下载地址: https://eclipse.dev/mat/downloads.php 下载高版本的jdk , 目前…

Spark第二课RDD的详解

1.前言 RDD JAVA中的IO 1.小知识点穿插 1. 装饰者设计模式 装饰者设计模式:本身功能不变,扩展功能. 举例&#xff1a; 数据流的读取 一层一层的包装&#xff0c;进而将功能进行进一步的扩展 2.sleep和wait的区别 本质区别是字体不一样,sleep斜体,wait正常 斜体是静态方法…

数学 容斥原理

全都是mn-1&#xff0c;下图都写成m-n-1了&#xff0c;没有脑子o(╥﹏╥)o 题目链接&#xff1a;214. Devu和鲜花 - AcWing题库 #include <bits/stdc.h> #define ll long long using namespace std; const int mod 1e97; ll A[25]; ll Pow(ll a, ll k){ll ans 1;while…

538页21万字数字政府智慧政务大数据云平台项目建设方案WORD

导读&#xff1a;原文《538页21万字数字政府智慧政务大数据云平台项目建设方案WORD》&#xff08;获取来源见文尾&#xff09;&#xff0c;本文精选其中精华及架构部分&#xff0c;逻辑清晰、内容完整&#xff0c;为快速形成售前方案提供参考。 根据业务的不同属性&#xff0c…

爱校对:公文材料的新时代伙伴

在这个数字化、智能化日益增强的新时代&#xff0c;公文材料处理方式也在发生着巨大的变化。传统的人工校对方式逐渐被智能化的工具所替代&#xff0c;而在这其中&#xff0c;爱校对正以其卓越的性能和便捷的使用体验&#xff0c;崭露头角&#xff0c;成为公文材料处理的新时代…

利用高级定时器产生PWM

这个图中阐述了利用高级定时器产生PWM的原理&#xff0c;其中 ARR是自动重装载寄存器(TIMx_ARR)的值 CNT是定时器计数器当前的值 CCRx是捕获/比较寄存器 x(TIMx_CCRx)的值 每经过一次定时器时钟周期就会1&#xff0c;通过设置定时器的输出模式&#xff0c;可以实现&#xff0c…

编译工具:CMake(四)|安装目标文件、普通文件、脚本、目录

编译工具&#xff1a;CMake&#xff08;四&#xff09;|安装目标文件、普通文件、脚本、目录 如何安装目标文件的安装普通文件的安装&#xff1a;非目标文件的可执行程序安装(比如脚本之类)目录的安装 如何安装 安装的需要有两种&#xff0c;一种是从代码编译后直接 make inst…

【C++11保姆级教程】新的函数声明(trailing return type)、右值引用(rvalue references)

文章目录 前言一、新的函数声明&#xff08;trailing return type&#xff09;1.1新的函数声明&#xff08;trailing return type&#xff09;概念1.2新的函数声明的使用 二、右值引用&#xff08;rvalue references&#xff09;2.1右值引用&#xff08;rvalue references&…

[机器学习]特征工程:特征降维

特征降维 1、简介 特征降维是指通过减少特征空间中的维度&#xff0c;将高维数据映射到一个低维子空间的过程。 在机器学习和数据分析中&#xff0c;特征降维可以帮助减少数据的复杂性、降低计算成本、提高模型性能和可解释性&#xff0c;以及解决维度灾难等问题。特征降维通…