合成数据的被需要的5 个重要原因

news2024/11/24 6:58:47

若要训练机器学习模型,需要数据。数据科学任务通常不是 Kaggle 竞赛,在竞赛中,你有一个很好的大型策划数据集,并预先标记。有时,您必须收集、组织和清理自己的数据。在现实世界中收集和标记数据的过程可能非常耗时、繁琐、昂贵、不准确,有时甚至很危险。此外,在这个过程结束时,你最终可能会得到你在现实世界中遇到的数据,而不一定是你在质量、多样性(例如,阶级不平衡)和数量方面想要的数据。以下是处理真实数据时可能遇到的常见问题:

  • 实际数据收集和标记不可扩展
  • 手动标记真实数据有时是不可能的
  • 真实数据存在隐私和安全问题
  • 真实数据不可编程
  • 仅基于真实数据训练的模型性能不够(例如,开发速度慢)

幸运的是,这样的问题可以通过合成数据来解决。您可能想知道,什么是合成数据?合成数据可以定义为人工生成的数据,通常使用模拟真实世界过程的算法创建,从其他道路使用者的行为一直到光与表面相互作用时的行为。这篇文章介绍了真实世界数据的局限性,以及合成数据如何帮助克服这些问题并提高模型性能。

真实数据收集和标记不可扩展

对于小型数据集,通常可以收集和手动标记数据;然而,许多复杂的机器学习任务需要大量的数据集进行训练。例如,为自动驾驶汽车应用训练的模型需要从连接到汽车或无人机的传感器收集大量数据。这个数据收集过程很慢,可能需要数月甚至数年的时间。一旦收集了原始数据,就必须由人工手动标注,这也是昂贵且耗时的。此外,不能保证返回的标记数据作为训练数据是有益的,因为它可能不包含告知模型当前知识差距的示例。

标记这些数据通常涉及人工在传感器数据之上手绘标签。这是非常昂贵的,因为高薪的ML团队经常花费大量时间来确保标签是正确的,并将错误发回给标签商。合成数据的一个主要优势是您可以根据需要生成任意数量的完美标记数据。您所需要的只是一种生成高质量合成数据的方法。

用于生成合成数据的开源软件: UnrealSynth虚幻合成数据生成器

手动标记真实数据有时是不可能的

您需要合成数据的 5 个原因

有些数据是人类无法完全解释和标记的。以下是合成数据是唯一选择的一些用例:

  • 从单张图像中准确估计深度和光流
  • 利用人眼不可见的雷达数据的自动驾驶应用
  • 生成可用于测试人脸识别系统的深度伪造

真实数据存在隐私和安全问题

您需要合成数据的 5 个原因

合成数据对于无法轻松获取真实数据的域中的应用程序非常有用。这包括某些类型的车祸数据和大多数具有隐私限制的健康数据(例如,电子健康记录)。近年来,医疗保健研究人员一直对使用ECG和PPG信号预测心房颤动(心律不齐)感兴趣。开发心律失常检测器不仅具有挑战性,因为这些信号的注释既繁琐又昂贵,而且还因为隐私限制。这就是为什么有研究模拟这些信号的原因之一。

需要强调的是,收集真实数据不仅需要时间和精力,而且实际上可能很危险。自动驾驶汽车等机器人应用的核心问题之一是它们是机器学习的物理应用。您不能在现实世界中部署不安全的模型,并且由于缺乏相关数据而崩溃。使用合成数据扩充数据集可以帮助模型避免这些问题。

真实数据是不可编程的

您需要合成数据的 5 个原因

一个骑自行车的被遮挡的孩子从校车后面出现,在加州郊区风格的环境中骑自行车过马路的合成图像。

自动驾驶汽车应用通常处理相对“不常见”(相对于正常驾驶条件)的事件,例如夜间行人或骑自行车的人在路中间骑行。模型通常需要数十万甚至数百万个示例来学习场景。一个主要问题是,收集的真实世界数据在质量、多样性(例如,阶级不平衡、天气条件、位置)和数量方面可能不是您想要的。另一个问题是,对于自动驾驶汽车和机器人来说,与具有固定数据集和固定基准的传统机器学习任务不同,你并不总是知道你需要什么数据。虽然一些系统或随机地改变图像的数据增强技术是有帮助的,但这些技术可能会带来自己的问题。

这就是合成数据的用武之地。合成数据生成 API 允许您设计数据集。这些 API 可以为您节省大量资金,因为在现实世界中构建机器人和收集数据非常昂贵。尝试使用合成数据集生成生成数据并弄清楚工程原理要好得多,速度也快得多。

仅根据真实数据训练的模型性能不够

您需要合成数据的 5 个原因

在工业中,有很多因素会影响机器学习项目在开发和生产中的可行性/性能(例如,数据采集、注释、模型训练、扩展、部署、监控、模型重新训练和开发速度)。最近,18 名机器学习工程师参加了一项访谈研究,旨在了解跨组织和应用程序(例如,自动驾驶汽车、计算机硬件、零售、广告、推荐系统等)的常见 MLOps 实践和挑战。该研究的结论之一是开发速度的重要性,它可以粗略地定义为快速原型设计和迭代想法的能力。

影响开发速度的一个因素是需要有数据来进行初始模型训练和评估,以及频繁的模型重新训练,因为模型性能会随着时间的推移而下降,这是由于数据漂移、概念漂移,甚至是训练训练服务偏差。

您需要合成数据的 5 个原因

该研究还报告说,这种需求导致一些组织成立了一个团队来频繁标记实时数据。这既昂贵又耗时,并且限制了组织频繁重新训练模型的能力。

您需要合成数据的 5 个原因

请注意,此图并未涵盖如何将合成数据也用于推荐器中的 MLOps 测试等操作。

合成数据有可能与机器学习生命周期中的真实数据一起使用(如上图所示),以帮助组织更长时间地保持其模型的性能。

结论

合成数据生成在机器学习工作流程中变得越来越普遍。事实上,Gartner 预测,到 2030 年,合成数据将比现实世界的数据更多地用于训练机器学习模型。

转载:合成数据的被需要的5 个重要原因 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1178501.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

手拿5份offer,最高18k! 95后艺术生转行后台网优,这个火花有点大!

当艺术生碰上理工科,会有怎样的火花?在大众的刻板认知里,艺术和理工科就像两条很少重合的平行线,双方从业者在自己的行业下按部就班,规划未来。 来自东北长春的W同学却打破了常人的认知,身为美术老师的他却…

沿面闪络放电测量装置中的真空度精密控制解决方案

摘要:针对现有低气压环境下沿面闪络测试中存在真空度无法精确控制所带来的一系列问题,特别是针对用户提出的对现有沿面闪络试验装置的真空控制系统进行技术改造要求,本文提出了相应的技改方案,技改方案采用基于动态平衡法的电动针…

民生银行与CRM系统的无代码开发集成,助力用户运营

连接民生银行与CRM系统的无代码开发集成 中国民生银行股份有限公司,成立于1996年,是一家全国性股份制商业银行。民生银行拥有强大的技术实力和丰富的业务经验,通过与各类企业进行深度合作,帮助企业实现财务管理和客服系统的优化运…

BUUCTF easycap 1

BUUCTF:https://buuoj.cn/challenges 题目描述: 下载附件,解压得到一个.pcap文件。 密文: 解题思路: 1、这道题和它的名字一样,真的很easy。双击easycap.pcap文件,打开Wireshark。在Wireshark中&#xf…

【软件工程】程序流程图之绘图工具和教程推荐

2023年11月6日,周一晚上 目录 绘图工具推荐教程推荐 绘图工具推荐 我推荐使用开源免费的draw.io要绘制程序流程图 draw.io网页版地址:Flowchart Maker & Online Diagram Software draw.io桌面版下载地址:GitHub - jgraph/drawio-desk…

MySQL的备份恢复

数据备份的重要性 1.生产环境中,数据的安全至关重要 任何数据的丢失都会导致非常严重的后果。 2.数据为什么会丢失 :程序操作,运算错误,磁盘故障,不可预期的事件(地震,海啸)&#x…

使用cpolar配合Plex搭建私人媒体站并实现远程访问

文章目录 1.前言2. Plex网站搭建2.1 Plex下载和安装2.2 Plex网页测试2.3 cpolar的安装和注册 3. 本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 1.前言 用手机或者平板电脑看视频,已经算是生活中稀松平常的场景了,特别是各…

Nginx默认会自动忽略请求头Headers里带下划线_的参数

起因:该接口设置了必须要传送app_code和app_secret才能正常访问。实际我在本地环境测试中,发现该接口是正常访问的,但是部署到正式系统之后发现,该接口一直提示app_code和app_secret不能为空。 后续排查:发现正式系统…

德博能源、西门子能源、霍尼韦尔等出席2023中国可持续生物燃料峰会

会议背景 可持续燃料是由可再生和/或替代原料生产的,如植物、蔬菜或工业废料的燃料总称。与传统化石燃料相比,可持续燃料可以帮助减少温室气体和碳排放,这有助于保护自然环境。采用可持续燃料可以为航空、重型公路货运和海运等脱碳更复杂的部…

广联达OA存在信息泄露漏洞复现

文章目录 广联达OA存在信息泄露漏洞复现0x01 前言0x02 漏洞描述0x03 影响版本0x04 漏洞环境0x05 漏洞复现1.访问漏洞环境2.复现 0x06 修复建议 广联达OA存在信息泄露漏洞复现 0x01 前言 免责声明:请勿利用文章内的相关技术从事非法测试,由于传播、利用…

二叉平衡搜索树-AVL树

目录 1. avl树的概念2. 树结点的定义3. 结点的插入3.1 左单旋3.2 右单旋3.3 右左双旋3.4 左右双旋 4. 结点的删除(了解)5. 整体代码 1. avl树的概念 前面学习过二叉搜索树,理想状态下虽可以缩短查找的效率,但如果数据有序或接近有序依次插入后二叉搜索树…

C++基础——类与对象

1 概述 C是面向对象的语言,面向对象语言三大特性:封装、继承、多态。 C将万事万物抽象为对象,对象上有其属性和行为。 2 封装 2.1 封装的意义 封装是面向对象的三大特性之一,封装将属性和行为作为一个整体,对属性和…

顺丰函证通API集成,无代码开发连接CRM和电商平台

1. 顺丰:全球第四大快递公司的无代码开发连接 顺丰是全球第四大快递公司,秉承 “以用户为中心,以需求为导向,以体验为根本” 的产品设计思维。顺丰不仅在国内市场深耕,而且横向拓展多元业务领域,纵深完善产…

Node Sass version 9.0.0 is incompatible with ^4.0.0.

1.错误产生原因: node、 node-sass 和sass-loader的版本对应问题 2.解决方案: 删除之前的 npm uninstall node-sass sass-loader 安装指定的 npm i node-sass4.14.1 sass-loader7.3.1 --save -dev

业绩持续增长,“创新与变革”是云南白药发展的不二法门?

提及云南白药,大多数消费者的第一反应便是云南白药气雾剂、云南白药牙膏等产品。事实上,随着消费需求驱动、行业升级走向愈发明确,云南白药早已启动从传统中药制造企业到现代化大健康企业的转型,并持续产出成果。 近日&#xff0…

Kubernetes技术与架构-存储 4

如上所示,Kubernetes集群支持动态申请存储资源,即集群管理员可以按照实际的需求动态地申请存储资源,集群管理员需要事先定义一个或者多个StorageClass存储类型的资源,Pod中的容器实例直接引用事先定义的StorageClass存储类型的资源…

开关电源泄漏电流测试方法| 万用表测量开关电源漏电流的方法及接线方式分享

漏电流测试是开关电源安规测试项目之一,目的是为了检测漏电流是否超过了额定标准,防止漏电流过大造成设备损毁,甚至引发电击安全事故。漏电流测试方法多样,纳米软件将带你了解如何用万用表测量开关电源的漏电流。 开关电源漏电流测…

Squid

一、Squid 代理服务器 Squid 主要提供缓存加速、应用层过滤控制的功能。 二、代理的工作机制 1.代替客户机向网站请求数据,从而可以隐藏用户的真实IP地址。 2.将获得的网页数据(静态 Web 元素)保存到缓存中并发送给…

关于 国产系统UOS系统Qt开发Tcp服务器外部连接无法连接上USO系统 的解决方法

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/134254817 红胖子(红模仿)的博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软…

接口自动化测试分层设计与实践总结01

本文以笔者当前使用的自动化测试项目为例,浅谈分层设计的思路,不涉及到具体的代码细节和某个框架的实现原理,重点关注在分层前后的使用对比,可能会以一些伪代码为例来说明举例。 接口测试三要素: 参数构造 发起请求&…