2023 年合成数据的用例和应用

news2025/1/16 5:30:47

合成数据,也称为人工生成的数据,为数据科学应用中经常遇到的问题(例如数据隐私和小数据量)提供了解决方案。我们列出了不同行业和部门/业务单位中合成数据的功能和最常见的用例。

合成数据支持哪些与行业无关的用例/功能?

与第三方共享数据

  1. 许多行业的创新依赖于与金融科技公司或医疗技术公司等第三方组织的合作。合成数据使企业能够评估第三方供应商并与他们共享私人数据,而不会产生安全或合规风险。

内部数据共享

  1. 数据隐私法规不仅限制了组织之间的数据共享,还阻止了组织内的数据流动。获取数据访问权限可能需要数周时间,这可能会阻碍协作。组织可以通过利用合成数据来增强团队之间的协作,从而加速创新。

云迁移

  1. 云服务为许多行业提供了一系列创新产品。但是,将私有数据迁移到云基础架构涉及安全性和合规性风险。在某些情况下,将敏感数据的合成版本移动到云可以使组织能够利用云服务的优势。这并非适用于所有用例。例如
  • 对于销售人员来说,在他们的CRM中使用合成数据是没有用的,他们应该看到正确的客户信息,而不是修改后的信息。
  • 在云机器学习管道中,可以使用合成数据代替真实数据

数据保留

  1. 法规还限制了企业可以存储个人数据的时间。对于长期分析来说,这是一个问题,例如检测几年内数据的季节性。合成数据提供了一种在不损害长期分析功能的情况下遵守数据保留法规的方法。

不同行业和部门的合成数据用例是什么?

金融服务

  1. 欺诈识别是任何金融服务的重要组成部分,但欺诈交易很少见。借助合成欺诈数据,可以测试和评估新的欺诈检测方法的有效性。
  2. 客户分析:合成客户交易数据可用于对客户数据进行分析,以了解客户行为。这与“内部数据共享”的用例类似,但它更广泛地适用于大多数客户数据是私有的金融业。

制造业

  1. 质量保证:正如列夫·托尔斯泰在《安娜·卡列尼娜》的开头所说:“所有幸福的家庭都是相似的;每个不幸福的家庭都以自己的方式不幸福。很难测试一个系统来查看它是否识别异常,因为有无限多的异常。合成数据可以更有效地测试质量控制系统,提高其性能。

医疗

  1. 医疗保健分析:合成数据使医疗保健数据专业人员能够允许在内部和外部使用记录数据,同时仍保持患者的机密性。这类似于“内部数据共享”的用例,但它更广泛地适用于大多数客户数据都是私有的医疗保健。
  2. 临床试验:当尚无真实数据时,合成数据可以用作未来研究和测试的基线。

汽车机器人

自主事物 (AuT):开发机器人、无人机和自动驾驶汽车模拟等自主事物的研究开创了合成数据的使用。这是因为机器人系统的实际测试既昂贵又缓慢。合成数据使公司能够在数千次模拟中测试其机器人解决方案,从而改进其机器人并补充昂贵的实际测试。

  1. 自动驾驶汽车
  2. 自主机器人

安全

合成数据可用于保护组织的线上和线下资产。常用的方法有两种:

  1. 视频监控的训练数据:为了利用图像识别,组织需要创建和训练神经网络模型,但这有两个限制:获取大量数据和手动标记对象。与获取和注释训练数据相比,合成数据可以帮助以更低的成本训练模型。
  2. 深度伪造:深度伪造可用于测试人脸识别系统。

社交媒体

社交网络正在使用合成数据来改进其各种产品:

  1. 测试内容过滤系统:社交网络正在与假新闻、网络骚扰和外国政府的政治宣传作斗争。使用合成数据进行测试可确保内容过滤器具有灵活性,并且可以应对新型攻击。

不同部门或职能的合成数据用例是什么?

敏捷开发和 DevOps

  1. 对于软件测试和质量保证,人工生成的数据通常是更好的选择,因为它消除了等待“真实”数据的需要。在这种情况下,通常称为“测试数据”。这最终可以缩短测试时间,提高开发过程中的灵活性和敏捷性

人力资源

  1. 公司的员工数据集包含敏感信息,通常受到数据隐私法规的保护。内部数据团队和外部各方可能无法访问这些数据集,但他们可以利用合成员工数据进行分析。它可以帮助公司优化人力资源流程。

营销

  1. 合成数据允许营销部门运行详细的个人层面模拟,以改善他们的营销支出。由于 GDPR,未经用户同意,不允许进行此类模拟。然而,遵循真实数据属性的合成数据可以可靠地用于仿真。

机器学习

  1. 大多数 ML 模型需要大量数据才能获得更高的准确性。合成数据可用于增加 ML 模型的训练数据大小。
  2. 预测欺诈或制造缺陷等罕见事件是很困难的,因为小数据量会导致机器学习模型不准确。生成此类事件的合成实例可提高模型准确性。
  3. 合成数据生成会创建标记的数据实例,随时可用于训练。这减少了耗时的数据标记工作的必要性。

合成数据工具

与合成数据相关的工具通常是为了满足以下需求之一而开发的:

  • 用于软件开发和类似目的的测试数据
  • 机器学习模型的训练数据

UnrealSynth 虚幻合成数据生成器 利用虚幻引擎的实时渲染能力搭建逼真的三维场景,为 YOLO 等 AI 模型的训练提供自动生成的图像和标注数据。UnrealSynth 生成的合成数据可用于深度学习模型的训练和验证,可以极大地提高各种行业细分场景中目标识别任务的实施效率,例如:安全帽检测、交通标志检测、施工机械检测、车辆检测、行人检测、船舶检测等。

UnrealSynth 生成合成数据的步骤:

1、将 GLB 文件添加到场景后,接下来就可以配置 UnrealSynth 合成数据生成参数,参数配置说明如下:

  • 模型类别: 生成合成数据 synth.yaml 文件中记录物体的类型
  • 环境变更 : 变更场景背景
  • 截图数量 : 生成合成数据集 image 目录下的图像数量,在 train 和 val 目录下各自生成总数一半数量的图片
  • 物体个数 : 设置场景中的物体个数,目前最多支持 5 个,并且是随机的选取模型的类别
  • 随机旋转 : 场景中的物体随机旋转角度
  • 随机高度 : 场景中的物体随机移动的高度
  • 截图分辨率: 生成的 images 图像数据集中的图像分辨率
  • 缩放 : 物体缩放调整大小

2、点击【确定】后会在本地目录中...\UnrealSynth\Windows\UnrealSynth\Content\UserData 自动生成两个文件夹以及一个 yaml 文件:images、labels、test.yaml 文件。

UnrealSynth\Windows\UnrealSynth\Content\UserData
    |- images
        |-train
            |- 0.png
            |- 1.png
            |- 2.png
            |- ...
         |-val
            |- 0.png
            |- 1.png
            |- 2.png
            |- ...
    |- labels
        |-train
            |- 0.txt
            |- 1.txt
            |- 2.txt
            |- ...
        |-val
            |- 0.txt
            |- 1.txt
            |- 2.txt
            |- ...
    |- synth.yaml

3、模型训练:数据集生成后有三个办法可以进行模型训练:使用 python 脚本、使用命令行、使用在线服务。

第一种是使用 python 脚本,需首先安装 ultralytics 包,训练代码如下所示:

from ultralytics import YOLO

# Load a model
model = YOLO('yolov8n.yaml')  # build a new model from YAML
model = YOLO('yolov8n.pt')  # load a pretrained model (recommended for training)
model = YOLO('yolov8n.yaml').load('yolov8n.pt')  # build from YAML and transfer weights

# Train the model
results = model.train(data='synth.yaml', epochs=100, imgsz=640)

第二种是使用命令行,需安装 YOLO 命令行工具,训练代码如下:

# Build a new model from YAML and start training from scratch
yolo detect train data=coco128.yaml model=yolov8n.yaml epochs=100 imgsz=640

# Start training from a pretrained *.pt model
yolo detect train data=coco128.yaml model=yolov8n.pt epochs=100 imgsz=640

# Build a new model from YAML, transfer pretrained weights to it and start training
yolo detect train data=coco128.yaml model=yolov8n.yaml pretrained=yolov8n.pt epochs=100 imgsz=640

第三种是使用ultralytics hub 或者其他在线训练工具。

转载:2023 年合成数据的用例和应用 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1197634.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

浅谈高并发以及三大利器:缓存、限流和降级

引言 高并发背景 互联网行业迅速发展,用户量剧增,系统面临巨大的并发请求压力。 软件系统有三个追求:高性能、高并发、高可用,俗称三高。三者既有区别也有联系,门门道道很多,全面讨论需要三天三夜&#…

Install Nginx in Linux

Nginx是一款轻量级的Web服务器、反向代理服务器,由于它的内存占用少,启动极快,高并发能力强,在互联网项目中广泛应用。 1.yum 安装 nginx [rootVM-8-7-centos nginx]# yum install -y nginx Loaded plugins: fastestmirror, lang…

移动端模型部署框架

移动端模型部署框架 1. MNN整体特点轻量性通用性高性能易用性架构设计主体工具致谢移动端模型部署框架 1. MNN https://www.yuque.com/mnn/cn/about MNN是全平台轻量级高性能深度学习引擎,广泛支持了阿里巴巴在计算机视觉、语音识别技术、自然语言处理等领域的70多个AI应用…

vue3 文字轮播打字机效果

实现效果 1.安装依赖 npm install duskmoon/vue3-typed-js 2.html <div class"title_left_1"><Typed :options"options" class"typedClass"><div class"typing"></div></Typed> </div> 3.ts…

基于单片机的空调智能控制器的设计

**单片机设计介绍&#xff0c;基于单片机的空调智能控制器的设计 文章目录 一 概要二、功能设计设计思路 三、 软件设计原理图 五、 程序六、 文章目录 一 概要 基于单片机的空调智能控制器需要具备输入输出端口、定时器、计数器等模块&#xff0c;以便对空调进行精确控制。下…

单词规律问题

给定一种规律 pattern 和一个字符串 s &#xff0c;判断 s 是否遵循相同的规律。 这里的 遵循 指完全匹配&#xff0c;例如&#xff0c; pattern 里的每个字母和字符串 s 中的每个非空单词之间存在着双向连接的对应规律。 示例1: 输入: pattern “abba”, s “dog cat cat d…

Java学习 10.Java-数组习题

一、创建一个 int 类型的数组, 元素个数为 100, 并把每个元素依次设置为 1 - 100 代码实现 public static void main(String[] args) {int[] arrnew int[100];for (int i 0; i < arr.length; i) {arr[i]i1;}System.out.println(Arrays.toString(arr));} 运行结果 二、改变…

僵尸进程问题如何处理

现象&#xff1a; 工作中遇到docker内有很多的僵尸进程&#xff0c;导致CPU过高&#xff0c;直接卡死。 原因&#xff1a; 每个进程都有一个唯一的标识&#xff0c;称为 pid&#xff0c;pid 是一个非负的整数值&#xff0c;使用 ps 命令可以查看其中 PID 是表示进程号。系统中…

开发知识点-Ant-Design-Vue

Ant-Design-Vue a-input a-input Vue组件 a-spin 加载中的效果 data字段 mounted钩子函数 Ant Design Vue 组件库 list-type“picture-card” 上传的图片作为卡片展示 name show-upload-list action :beforeUpload“handleBeforeUpload” :headers“customHeaders” :disabl…

公开数据集:灵长类动物多通道感觉运动皮层电生理学的研究

Nonhuman Primate Reaching with Multichannel Sensorimotor Cortex Electrophysiology. 1 公开数据集网址&#xff1a;https://zenodo.org/records/3854034 目录 General DescriptionPossible usesVariable namesDecoder ResultsVideosSupplementsContact InformationCitation…

数据结构与算法【二分查找】Java实现

需求&#xff1a;在有序数组 A 内&#xff0c;查找值target 如果找到返回索引如果找不到返回 -1 前提 给定一个内含 n 个元素的有序数组 A&#xff0c;一个待查值 target 1 设置 i0&#xff0c;jn-1 2 如果 i \gt j&#xff0c;结束查找&#xff0c;没找到 3 设置 m (…

afsim 下载链接

afsim是一个通用的建模框架&#xff0c;能够构建典型的虚拟威胁环境和相关模型。能够以可视化形式分析软件仿真结果&#xff0c;显示平台、路由、传感器区域等内容&#xff0c;能够基于事件生成图表&#xff0c;进行结果统计&#xff0c;能够按类型进行统计分析。 苦于网上没有…

36 Gateway网关 快速入门

3.Gateway服务网关 Spring Cloud Gateway 是 Spring Cloud 的一个全新项目&#xff0c;该项目是基于 Spring 5.0&#xff0c;Spring Boot 2.0 和 Project Reactor 等响应式编程和事件流技术开发的网关&#xff0c;它旨在为微服务架构提供一种简单有效的统一的 API 路由管理方式…

基于SSM的飞机航班管理系统

基于SSM的飞机航班管理系统的设计与实现~ 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringMyBatisSpringMVC工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 主页 航班列表 管理员界面 航班管理 订单管理 用户管理 摘要 飞机航班管理系统是…

Gold-YOLO最新YOLO系列模型

论文地址https://arxiv.org/pdf/2309.11331.pdf 代码地址https://github.com/huawei-noah/Efficient-Computing 目录 01论文介绍 01摘要 02模型训练过程 01安装环境 02修改train中参数 01修改--data-path参数 02修改--conf-file参数 03其他参数设置 03训练 04出现问…

【网络编程】网络层——IP协议

文章目录 基本概念路径选择主机和路由器 IP协议格式分片与组装网段划分IP地址的数量限制私网IP地址和公网IP地址深入认识局域网路由 基本概念 TCP作为传输层控制协议&#xff0c;其保证的是数据传输的可靠性和传输效率&#xff0c;但TCP提供的仅仅是数据传输的策略&#xff0c…

Leetcode刷题详解—— 组合总和

1. 题目链接&#xff1a;39. 组合总和 2. 题目描述&#xff1a; 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target &#xff0c;找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 &#xff0c;并以列表形式返回。你可以按 任意顺序 返回这些…

C++ RBTree 理论

目录 这个性质可以总结为 红黑树的最短最长路径 红黑树的路径范围 code 结构 搞颜色 类 插入 插入逻辑 新插入节点 思考&#xff1a;2. 检测新节点插入后&#xff0c;红黑树的性质是否造到破坏&#xff1f; 解决方法 变色 旋转变色 第三种情况&#xff0c;如果根…

win10网络和Internet设置

win10网络设置 win10进入网络设置的常用入口有两个 第一个入口 桌面右下角右键网络图标&#xff0c;然后打开“网络和Internt设置” 第二个入口 桌面的“我的网络”快捷方式&#xff0c;或者我的电脑进去后&#xff0c;左侧栏找到“网络” 右键“属性” 可以看到&#xff0c;…

考研数据结构单链表的增删改查看这一篇就够了

目录 一. 单链表的特点 1.1 解引用拓展 &#x1f916; 二. 单链表的操作 2.1不带头节点的操作 2.1.1 打印 2.1.1.1 创建结点 2.1.2 尾插&#xff08;需要二级指针&#xff09; 注意形参的值不改变实参&#xff1a;&#xff08;精髓部分&#xff09; 2.1.3 头插 2.1.4…