合成数据在金融服务中的应用

news2024/10/6 8:33:08

人工智能在金融服务中有着广泛的应用,从流程自动化到聊天机器人和欺诈检测。据估计,到 447 年,银行从人工智能应用中节省的潜在成本总额将达到 2023 亿美元。

但是,其中一些应用程序有其局限性,因为财务数据是最敏感和个人身份的数据类型之一。举例来说,87%的美国人认为信用卡数据是适度或极度私密的。健康和遗传数据的数字为68%,位置数据为62%。

金融机构可以利用合成数据或基于真实数据人工生成的数据来克服隐私(和其他)挑战,并为客户提供创新的产品和服务。

您可以在下面看到金融机构的合成数据用例/优势:

1. 实现数据共享、协作和创新

GDPR 和 CCPA 等法规可能会阻止公司内部和机构之间共享财务数据。这可能会阻碍金融机构与金融科技合作伙伴之间或机构内部团队之间的宝贵合作。向第三方提供访问许可可能需要数月的官僚程序,甚至可能是不可能的。这使得金融机构在开发新产品之前很难评估潜在的合作伙伴。

在共享之前使用传统的数据屏蔽技术对敏感数据进行匿名化处理可能容易受到链接攻击。这些攻击旨在从匿名数据集中重新识别个人,通常是通过将匿名数据集与其他公开可用的数据集相结合。根据 2000 年一项经常被引用的研究,87% 的美国人口可以通过结合他们的性别、出生日期和邮政编码来唯一识别。

合成数据可以消除共享的风险。金融机构可以共享保留原始数据集重要特征的合成数据,而不是原始数据集。合成数据生成技术可以应用于广泛的数据类型,从表格到时间序列和人工图像。

2. 启用罕见事件(例如欺诈)预测

欺诈交易检测是机器学习在金融领域的主要应用之一。但是,包含欺诈活动的银行交易数据集通常是不平衡的:欺诈活动只占所有活动的一小部分。对于ML模型来说,从这种类型的数据集中学习以检测新的欺诈情况具有挑战性,因为较小的数据量会导致不准确的结果。

欠采样和过采样是处理不平衡数据集的两种技术。欠采样涉及删除非欺诈观测值以平衡数据集。它要求数据集很大,因为删除观测值可能会产生偏差。

另一方面,过采样正在产生新的欺诈活动,类似于真正的欺诈行为。然后,可以在平衡的数据集上训练 ML 模型,以获得更准确的结果。合成数据生成技术可用于创建人为的欺诈实例,以获得平衡的数据集。

3. 启用模拟

有时,金融机构可能希望在极端条件下测试策略,例如市场崩盘或应用程序故障。他们没有此类事件的不平衡数据集,而是可能缺少由这些条件产生的数据。合成数据可用于填补这些空白,并可以帮助组织制定针对此类事件的策略。

4. 提高监督式深度学习模型的准确性

大多数机器学习模型,尤其是深度学习模型,都是数据饥渴的。即使金融机构不缺乏训练 ML 模型的数据,ML 模型的准确性也很大程度上取决于数据大小。合成数据可用于增加数据大小。

除了增加数据量外,标记数据是合成数据在模型准确性方面的另一个优势。这与监督学习应用程序尤其相关,因为这些类型的模型从标记数据中学习。数据标注是一个劳动密集型过程,手动标注容易出错,从而导致模型不准确。合成数据为观察结果提供了正确的标签,消除了数据标记工作的必要性,并让位于更准确的 ML 模型。

5、合成数据工具

与合成数据相关的工具通常是为了满足以下需求之一而开发的:

  • 用于软件开发和类似目的的测试数据
  • 机器学习模型的训练数据

UnrealSynth 虚幻合成数据生成器 利用虚幻引擎的实时渲染能力搭建逼真的三维场景,为 YOLO 等 AI 模型的训练提供自动生成的图像和标注数据。UnrealSynth 生成的合成数据可用于深度学习模型的训练和验证,可以极大地提高各种行业细分场景中目标识别任务的实施效率,例如:安全帽检测、交通标志检测、施工机械检测、车辆检测、行人检测、船舶检测等。

UnrealSynth 生成合成数据的步骤:

1、将 GLB 文件添加到场景后,接下来就可以配置 UnrealSynth 合成数据生成参数,参数配置说明如下:

  • 模型类别: 生成合成数据 synth.yaml 文件中记录物体的类型
  • 环境变更 : 变更场景背景
  • 截图数量 : 生成合成数据集 image 目录下的图像数量,在 train 和 val 目录下各自生成总数一半数量的图片
  • 物体个数 : 设置场景中的物体个数,目前最多支持 5 个,并且是随机的选取模型的类别
  • 随机旋转 : 场景中的物体随机旋转角度
  • 随机高度 : 场景中的物体随机移动的高度
  • 截图分辨率: 生成的 images 图像数据集中的图像分辨率
  • 缩放 : 物体缩放调整大小

2、点击【确定】后会在本地目录中...\UnrealSynth\Windows\UnrealSynth\Content\UserData 自动生成两个文件夹以及一个 yaml 文件:images、labels、test.yaml 文件。

UnrealSynth\Windows\UnrealSynth\Content\UserData
    |- images
        |-train
            |- 0.png
            |- 1.png
            |- 2.png
            |- ...
         |-val
            |- 0.png
            |- 1.png
            |- 2.png
            |- ...
    |- labels
        |-train
            |- 0.txt
            |- 1.txt
            |- 2.txt
            |- ...
        |-val
            |- 0.txt
            |- 1.txt
            |- 2.txt
            |- ...
    |- synth.yaml

3、模型训练:数据集生成后有三个办法可以进行模型训练:使用 python 脚本、使用命令行、使用在线服务。

第一种是使用 python 脚本,需首先安装 ultralytics 包,训练代码如下所示:

from ultralytics import YOLO

# Load a model
model = YOLO('yolov8n.yaml')  # build a new model from YAML
model = YOLO('yolov8n.pt')  # load a pretrained model (recommended for training)
model = YOLO('yolov8n.yaml').load('yolov8n.pt')  # build from YAML and transfer weights

# Train the model
results = model.train(data='synth.yaml', epochs=100, imgsz=640)

第二种是使用命令行,需安装 YOLO 命令行工具,训练代码如下:

# Build a new model from YAML and start training from scratch
yolo detect train data=coco128.yaml model=yolov8n.yaml epochs=100 imgsz=640

# Start training from a pretrained *.pt model
yolo detect train data=coco128.yaml model=yolov8n.pt epochs=100 imgsz=640

# Build a new model from YAML, transfer pretrained weights to it and start training
yolo detect train data=coco128.yaml model=yolov8n.yaml pretrained=yolov8n.pt epochs=100 imgsz=640

第三种是使用ultralytics hub 或者其他在线训练工具。

转载:合成数据在金融服务中的应用 (mvrlink.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1191634.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Altium Designer学习笔记1

一、新建项目和文件: 1、新建Project项目; 2、新建原理图文件; 3、新建PCB项目; 在工程文件上点击右键,保存为,可以依次保存三个文件。选择需要保存的路径,新建文件夹。 依次是原理图文件、…

滑动变阻器的调节方法有哪些?

滑动变阻器是一种可以改变电阻值的电子元件,广泛应用于各种电子设备和电路中。其调节方法主要有以下几种: 1. 手动调节:这是最常见的调节方式,通过直接旋转滑动变阻器的旋钮,改变电阻丝在电路中的有效长度,…

Java带可视化数据大屏AI智慧工地源码

智慧工地管理系统是面向建筑工程施工企业提供的工地智能交互平台,基于云计算、物联网、人工智能等技术的应用,对现场人员、材料、机械、质量、安全等进行高效管控,以实现项目管理人员对现场的实时把控、及时预警、精准决策,从而为…

2023网络钓鱼状况报告:ChatGPT等工具致网络钓鱼电子邮件数量激增1265%

近日,SlashNext发布了《2023年网络钓鱼状况报告》,报告显示:自ChatGPT于2022年11月推出以来,网络钓鱼电子邮件数量激增1265%,这标志着网络犯罪依托于人工智能进入了一个新的时代。 该报告深入分析了2022年第四季度至2…

干货 | 移动端使用OpenGL转场特效的音视频合成应用

作者简介 jzg,携程资深前端开发工程师,专注Android开发; zx,携程高级前端开发工程师,专注iOS开发; zcc,携程资深前端开发工程师,专注iOS开发。 前言 近年来短视频的火爆,…

无线测温系统在电厂的必要性,保障电力系统稳定运行

安科瑞电气股份有限公司 上海嘉定 201801 摘要:采集关键电力设备接电的实时温度,克服有线温度监测系统存在的诸如线路多,布线复杂,维护困难等不足,将无线无源传感器与Zigbee无线通信技术相结合,将物联网技…

Python中的Socket编程

目录 一、概述 二、Socket的基本概念 三、Python中的Socket编程 四、Socket的高级功能 1、多路复用(multiplexing): 2、非阻塞式IO: 3、SSL加密: 4、服务端编程: 五、Socket编程的常见问题及解决方…

计算机考研精炼1000题:笔试面试必备攻略

💂 个人网站:【工具大全】【游戏大全】【神级源码资源网】🤟 前端学习课程:👉【28个案例趣学前端】【400个JS面试题】💅 寻找学习交流、摸鱼划水的小伙伴,请点击【摸鱼学习交流群】 ⭐️ 好书推荐 计算机考…

亚马逊云科技Zero ETL集成全面可用,可运行近乎实时的分析和机器学习

亚马逊云科技数据库、数据分析和机器学习全球副总裁Swami Sivasubramanian曾指出:“数据是应用、流程和商业决策的核心。”如今,客户常用的数据传输模式是建立从Amazon Aurora到Amazon Redshift的数据管道。这些解决方案能够帮助客户获得新的见解&#x…

案例研究:利用合成数据提高对象检测性能

通常很难提前知道是否可以在不尝试的情况下生成与真实图像足够相似的图像。但好消息是:尝试起来很容易!我们将向您展示如何操作。 本指南是关于生成合成数据的系列文章的一部分。我们还提供指南,可让您使用以下工具生成合成数据:…

剖析WPF模板机制的内部实现

剖析WPF模板机制的内部实现 众所周知,在WPF框架中,Visual类是可以提供渲染(render)支持的最顶层的类,所有可视化元素(包括UIElement、FrameworkElment、Control等)都直接或间接继承自Visual类。…

JavaScript的大分水岭:CommonJS vs ES模块

所周知,JavaScript社区喜欢进行热烈的辩论。四年来,我们如何组织代码的问题上一直存在一个分歧——这是一个基本但令人意外地有争议的问题,继续将开发者分开。 这种分歧围绕着 CommonJS 和 ES 模块,这是两个用于划分 JavaScript代…

不用开会员就能在线编辑、管理及分享各类地理空间数据!

「四维轻云」作为一款地理空间数据云管理平台,具有三维模型、正射影像、激光点云、数字高程模型、人工模型和矢量数据等地理空间数据的在线管理、浏览及分享等功能,致力于为用户提供更加方便、快捷的地理空间数据解决方案。 一、发布、管理超大空间数据…

交易所开发搭建

在当今的数字货币市场中,交易所开发搭建已经成为了一个重要的领域。交易所是数字货币交易的主要场所,为投资者提供了安全、可靠、高效的交易服本务文。将详细介绍交易所开发搭建的整个流程,包括需求分析、设计、技术选型、开发、测试和上线等…

Yolov8模型训练报错:torch.cuda.OutOfMemoryError

最近在使用自己的数据训练Yolov8模型的时候遇到了很多错误,下面将逐一解答。 问题报错 在训练过程中红字报错:torch.cuda.OutOfMemoryError: CUDA out of memory. 后面还会跟着一大段报错: Tried to allocate XXX MiB (GPU 0; XXX GiB to…

epoll实现 IO复用

1、epoll实现 IO复用 epoll的提出--》它所支持的文件描述符上限是系统可以最大打开的文件的数目;eg:1GB机器上,这个上限10万个左右。 每个fd上面有callback(回调函数)函数,只有活跃的fd才有主动调用callback,不需要轮询…

国密算法SSL证书

国密算法,即国家商用密码算法,是中国政府推动的一项密码算法标准,目的是提高我国信息安全水平。这一标准覆盖了对称密码算法、非对称密码算法、哈希函数等多个方面。在SSL证书领域,国密算法的应用对于保障网络通信的安全至关重要。…

YB1205B S0T23开关式异步升压具恒压恒流LED驱动器

YB1205B S0T23开关式异步升压具恒压恒流LED驱动器 产品简介: YB1205B是一种输入电压范围宽(0.85.5V),可调恒定电流和限定电流两种模式来驱动白光LED而设计的升压型DCDC变换器。采用变频模式,逐周期限流,使输入输出电流随电源电压降低均匀变…

全局前置路由守卫(beforeEach)

全局前置路由守卫(beforeEach) 功能:每一次切换任意路由组件之前都会被调用,相当于在进入另一个路由组件之前设置一个权限。 路由守卫的存在意义就是在不同的时间,不同的位置,去添加代码。如:J…

招聘信息采集

首先&#xff0c;我们需要使用PHP的curl库来发送HTTP请求。以下是一个基本的示例&#xff1a; <?php // 初始化curl $ch curl_init();// 设置代理 curl_setopt($ch, CURLOPT_PROXY, "jshk.com.cn");// 设置URL curl_setopt($ch, CURLOPT_URL, "http://www…