【大厂AI课学习笔记】【2.1 人工智能项目开发规划与目标】(4)数据准备的流程

news2024/11/24 5:50:36

今天学习的是数据准备的流程。

我们已经知道,数据准备占了AI项目超过一半甚至79%的时间。

那么数据准备,都做些什么,有哪些流程。

1.数据采集

  • 观测数据
  • 人工收集
  • 调查问卷
  • 线上数据库

2.数据清洗

  • 有缺失的数据
  • 有重复的数据
  • 有内容错误的数据,例如逻辑错误、格式错误
  • 有不需要的数据

3.数据标注

数据标注即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记

对象的特征,以作为机器学习标签的过程。

 4.数据划分

  • 训练集
  • 测试集
  • 一般8:2或者7:3,训练集的数据较大

5.数据验收

  • 合法性
  • 准确性
  • 完整性
  • 一致性

延伸学习:

1. 数据采集

  • 确定数据源:根据业务需求,确定需要采集数据的来源,如数据库、API、日志文件、传感器等。
  • 设计采集策略:制定数据采集的频率、方式(如实时采集、批量采集)以及数据存储格式。
  • 实施采集:编写或使用现成的工具来从数据源中抓取数据。

示例

  • 电商网站通过日志系统收集用户的浏览和购买记录,为推荐系统提供数据。
  • 智能家居设备通过传感器实时采集温度、湿度等数据,用于智能控制。

2. 数据清洗

  • 去除重复数据:识别并删除重复的记录。
  • 处理缺失值:使用均值、中位数、众数等统计方法填充缺失值,或根据算法预测缺失值。
  • 纠正错误值:通过数据验证和逻辑规则识别并更正错误的数据。
  • 格式化数据:将数据转换为统一的格式,如日期、时间戳等。

示例

  • 在医疗数据分析中,清洗掉由于设备故障产生的异常血压读数。
  • 在金融领域,处理由于系统故障导致的交易数据中的缺失值。

3. 数据标注

  • 定义标注规则:根据业务需求,制定数据标注的标准和规则。
  • 实施标注:人工或使用自动化工具对数据进行标注。
  • 标注质量检查:验证标注的准确性,确保数据质量。

示例

  • 在图像识别项目中,人工标注图片中的物体类别(如猫、狗、汽车等)。
  • 在语音识别中,对音频数据进行文本标注,用于训练语音转文字模型。

4. 数据划分

  • 随机划分:将数据随机划分为训练集、验证集和测试集。
  • 分层抽样:确保每个子集中的数据分布与整体数据分布一致。
  • 时间序列划分:对于时间序列数据,按照时间顺序进行划分。

示例

  • 在股票价格预测项目中,按照时间序列划分训练集和测试集,确保模型能够学习到时间序列中的模式。
  • 在图像分类任务中,随机划分图像数据,但确保每个类别在训练集和测试集中都有代表。

5. 数据验收

  • 数据质量检查:验证数据的完整性、准确性和一致性。
  • 业务需求符合性检查:确保数据满足业务需求和项目目标。
  • 数据安全性检查:确保数据在处理、存储和传输过程中符合安全标准。

示例

  • 在智能客服项目中,验收阶段发现部分用户对话数据存在隐私泄露风险,于是进行数据脱敏处理。
  • 在推荐系统项目中,验收阶段发现数据集中缺少关键的用户行为数据,于是重新采集这部分数据。

6. 数据交付

  • 数据打包:将数据整理成适当的格式和文件结构,便于模型训练和部署。
  • 数据传输:安全地将数据传输给模型训练团队或存储到指定位置。
  • 数据文档编写:提供数据字典、数据说明文档等,帮助使用者理解数据。

示例

  • 在自然语言处理项目中,将清洗和标注后的文本数据打包成CSV格式,并附带数据字典说明每个字段的含义,然后交付给模型训练团队。
  • 在图像识别项目中,将图像数据和对应的标注文件整理成特定的文件夹结构,并通过加密方式传输给远程服务器上的模型训练环境。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1452781.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Filezilla:文件无法传输的问题

问题 解决方法 我发现我站点管理器原本设置的是FTP, 改成了SFTP就可以正常传输 FTP和SFTP 安全通道:FTP不提供安全通道,SFTP提供安全通道。 传输协议:FTP使用TCP/IP协议,SFTP是SSH协议的一部分。 最后由于SFTP使用了加密解密技…

究极小白如何自己搭建一个自动发卡网站-独角数卡

本人从来没接触过建站,我之前都是在TB上花90叫别人给我搭建的网站,前几天这个TB店倒闭跑路了,而我的发卡网也打不开了,没办法,逼上梁山,自己捣鼓出来了!下面是2023/4/2自己建好的! …

Tampermonkey油猴用户脚本API文档

个人名片: 🐼作者简介:一名大三在校生,喜欢AI编程🎋 🐻‍❄️个人主页🥇:落798. 🐼个人WeChat:hmmwx53 🕊️系列专栏:🖼️…

Redis篇----第三篇

系列文章目录 文章目录 系列文章目录前言一、缓存雪崩**二、缓存穿透三、缓存预热四、缓存更新五、缓存降级 前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女…

【数据结构】二叉查找树和平衡二叉树,以及二者的区别

目录 1、二叉查找树 1.1、定义 1.2、查找二叉树的优点 1.2、查找二叉树的弊端 2、平衡二叉树 2.1、定义 2.2、 实现树结构平衡的方法(旋转机制) 2.2.1、左旋 2.2.2、右旋 3、总结 1、二叉查找树 二叉查找树又名二叉排序树,亦称二叉搜…

【Java程序员面试专栏 Java领域】Java虚拟机 核心面试指引

关于Java 虚拟机部分的核心知识进行一网打尽,主要包括Java虚拟机的内存分区,执行流程等,通过一篇文章串联面试重点,并且帮助加强日常基础知识的理解,全局思维导图如下所示 JVM 程序执行流程 包括Java程序的完整执行流程,以及Javac编译,JIT即时编译 Java程序的完整执…

2024年【A特种设备相关管理(电梯)】找解析及A特种设备相关管理(电梯)模拟考试

题库来源:安全生产模拟考试一点通公众号小程序 A特种设备相关管理(电梯)找解析是安全生产模拟考试一点通生成的,A特种设备相关管理(电梯)证模拟考试题库是根据A特种设备相关管理(电梯&#xff…

NBA2K24 精品蔡徐坤面补

NBA2K24 精品蔡徐坤面补 NBA2K23-NBA2K24通用 精品蔡徐坤面补 下载地址: https://www.changyouzuhao.cn/13072.html

【JavaEE】_HTTP请求报头header

目录 1. Host 2. Content-Length与Content-Type 2.1 Content-Length 2.2 Content-Type 3. User-Agent(UA) 4. Referer 5. Cookie header的整体格式是“键值对”结构,一行是一个键值对,这些键值对都是HTTP定义好的、有特殊含…

【STM32 CubeMX】SPI W25Q64功能实现

文章目录 前言一、内部函数的实现1.1 选中和取消选中SPI Flash1.2 写使能函数1.3 获取读状态1.4 等待就绪状态 二、Flash读写函数实现2.1 读Flash ID2.2 擦除某个扇区2.3 写扇区2.4 读数据 三、测试代码总结 前言 SPI Flash 存储器在嵌入式系统中扮演着重要角色,它…

各类有关于花卉的深度学习数据集

花卉的识别和分类在深度学习过程中是最常见的使用的案例,因此各类有关花卉分类、识别、计数的图像数据集是大家都常用的数据集。最近收集到各类有关花卉的各类数据集分享给大家!! 1、16种花常见的图像数据集 数据说明:我们看到我…

数据库设计、JDBC、数据库连接池

数据库设计 数据库设计概念 数据库设计就是根据业务 系统的具体需求,结合我们所选用的DBMS,为这个业务系统构造出最优的数据存储模型。建立数据库中的表结构以及表与表之间的关联关系的过程。有哪些表?表里有哪些字段?表和表之间有什么关系? 数据库设计的步骤…

企业计算机服务器中了faust勒索病毒怎么办?Faust勒索病毒解密数据恢复

网络技术的不断发展与更新,为企业的生产运营提供了极大便利,但也为企业的数据安全埋下隐患。近期,云天数据恢复中心接到很多企业的求助,企业的计算机服务器遭到了faust勒索病毒攻击,给企业的生产运营带来了极大困扰&am…

使用新的 AI 工具和生产力工具提升 Windows 上的开发人员体验

随着 9 月 26 日最新的 Windows 11 更新,我们发布了一系列开发人员功能作为 Windows 操作系统的核心组件,旨在提高每个开发人员在 Windows 上的工作效率。今天,我们很高兴地宣布推出 Windows AI Studio,这是一种新的 AI 体验&…

SCI文章复现 | GEO文章套路,数据下载和批次效应处理

原文链接: SCI文章复现 | GEO文章套路,数据下载和批次效应处理https://mp.weixin.qq.com/s/KBA67EJ7cCK5NDTUzrwJ2Q 一、前言 这是2024年春节后的第一个推送教程,我们也给大家赠送一个福利。将前期的付费教程免费推送给大家。其实&#xff…

关于Build Your Own Botnet的尝试

这是一次失败的尝试、 原文地址:关于Build Your Own Botnet的尝试 - Pleasure的博客 下面是正文内容: 前言 我在上一篇关于DDOS的文章种提到过这个项目,而且说明了由于这个项目是在2020年发布并开源的,并且已经有两年没有进行跟…

C++入门学习(二十八)跳转语句—continue语句

当在循环中遇到continue语句时,它会跳过当前迭代剩余的代码块,并立即开始下一次迭代。这意味着continue语句用于跳过循环中特定的执行步骤,而不是完全终止循环。 直接看一下下面的代码更清晰: 与上一节的break语句可以做一下对比…

spring boot3登录开发-2(1图形验证码接口实现)

⛰️个人主页: 蒾酒 🔥系列专栏:《spring boot实战》 🌊山高路远,行路漫漫,终有归途。 目录 前置条件 内容简介 图形验证码接口实现 导入糊涂工具依赖 接口分析 编写验证码接口 测试验证码接口 前置条件 …

【MySQL进阶之路】MySQL中到底为什么会出现幻读?

欢迎关注公众号(通过文章导读关注:【11来了】),及时收到 AI 前沿项目工具及新技术的推送! 在我后台回复 「资料」 可领取编程高频电子书! 在我后台回复「面试」可领取硬核面试笔记! 文章导读地址…

第六篇【传奇开心果系列】Python微项目技术点案例示例:庖丁解牛tkinter.ttk库gui界面编程

传奇开心果微博系列 系列微博目录Python微项目技术点案例示例系列 微博目录前言一、主窗口和子窗口创建和切换,以员工信息管理系统示例代码二、主窗口添加有菜单项图标的菜单栏、工具栏和右键菜单示例代码三、使用sqlite3数据库增删改查管理员工信息示例代码四、在主…