机器学习的数据管理

news2024/11/30 2:29:25

.机器学习的数据管理注意事项

机器学习的生命周期包括如下部分

(1).业务的理解,机器学习问题框架

(2).数据理解和收集

(3).模型的训练和评估

(4)模型部署

(5).模型监控

(6).业务衡量

数据管理和机器学习的生命周期的2,3,4个阶段有关。

我们需要对数据进行分析,一般是分析数据的相关性,数据的统计,数据的分布,一般有下面这下内容

(1).进行数据验证,检测错误数据,验证数据质量。比如数据的范围,数据分布,数据类型或者空缺值。

(2).执行数据清洗以修复数据错误

(3).充实数据,通过不同的数据集的连接或者数据转换产生新的信号

再模型的训练和验证阶段,需要为正式的模型模型创建训练和验证数据集

在调用模型已部署的模型时,将特征处理所需要的数据作为输入数据的一部分提供

在调用已部署的模型时,提供预先计算的特征作为输入的一部分。

2.机器学习的数据管理架构

1.对于一个小型的机器学习项目,可以考虑使用简单的数据管理架构模式,这种模式一般有固定的数据管道。

从数据仓库或者其他数据集中提取固定的特征,然后经过数据提取工具储存到项目的数据储存区,最后进行机器学习项目。

2.对于一个大型的机器学习项目,就需要一个大型的架构方式,因为这样的机器学习项目,往往需要从各处抽取数据资源,这样的数据可能是结构化的,也可能是非结构化的,也可能是半结构化的,表格,图像,文本,都有可能是项目所需要的数据。

一般的架构如下所示        

数据湖旨在存储无限量的数据并在不同的生命周期阶段进行管理。数据湖的主要目的是将不同的数据孤岛整合到一个中心存储库中,用于集中数据管理和数据访问,以满足分析需求和机器学习需求。

3.数据提取

数据提取需要注意以下几个事项

1.数据格式,数据大小和可扩展性,考虑到不同的数据格式,数据大小,和数据速度的需求;

2.提取模式,因为数据类型的一样,或者任务很复杂,有时候需要组合不同的提取工具。

3.数据的预处理能力,提取的数据可能需要进行预处理

4.安全性,选择的工具是否需要身份认证和授权提供安全机制

5.可靠性.这些工具需要提供故障恢复能力,以便再提取过程中不会丢失关键数据,如果没有恢复能力,请确保数据来源重新运行提取作业的功能。

6.支持不同的数据源和目标,提取工具需要支持广泛的数据源,比如数据库,文件和流式源,该工具还应该提供用于数据提取的API

7.可管理性:可管理型应该是另一个考虑因素,该工具是否自我管理,还是完全托管?需要综合考虑成本。

4.数据目录

数据目录是数据管理的关键组件,它使得数据分析师能够轻松发现中央数据存储的数据。

数据目录记录要考虑以下几个关键因素

(1).元数据目录:支持元数据管理的中央数据目录。

(2).自动数据编目:自动发现和编目数据集从不同数据源推断数据模式的能力。

(3).标记的灵活性

(4).与其他工具集成

(5).搜索

5.数据处理

数据湖的数据处理能力提供了数据处理框架和底层计算资源来处理不同目的的数据,比如数据纠错,数据转换,数据合并,数据拆分,数据合并,和机器学习特征工程

它需要考虑以下几个关键因素

(1).与底层存储技术的集成和互操作性:能够与底层储存进行原生协同工作的能力,这简化了数据访问和加载,移动。

(2).与数据目录集成的能力:可以和数据目录交互,查找数据

(3).可扩展性:根据数据量调整计算资源

(4).语言和框架的支持:可以使用各种编程语言和框架

6.数据版本控制

对转化或者提取后的数据根据需要控制版本,这就有赖于协调了。

7.数据管道

对数据的处理,转化,提取按照自动化的流程进行的工具,这是一项集成任务。

8.身份授权和验证

9.数据治理

数据据治理可确保数据资产受到资产受到信任,保护和分类,并且对它的访问进行监控和审计。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1318053.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Pikachu漏洞练习平台之暴力破解(基于burpsuite)

从来没有哪个时代的黑客像今天一样热衷于猜解密码 ---奥斯特洛夫斯基 Burte Force(暴力破解)概述 “暴力破解”是一攻击具手段,在web攻击中,一般会使用这种手段对应用系统的认证信息进行获取。 其过程就是使用大量的认证信息在认…

【STM32】STM32学习笔记-EXTI外部中断(11)

00. 目录 文章目录 00. 目录01. 中断系统02. 中断执行流程03. STM32中断04. NVIC基本结构05. NVIC优先级分组06. EXTI简介07. EXTI基本结构08. AFIO复用IO口09. EXTI框图10. 计数器模块11. 旋转编码器简介12. 附录 01. 中断系统 中断:在主程序运行过程中&#xff0…

使用PyQt5连接mysql数据库实现用户管理(增,删,改,查,附代码和完整界面)

一:环境搭建 首先本地需要安装python,PyQt5环境,我是用pip安装的 python -m pip install PyQt5 或者 pip install PyQt5 python -m pip install PyQt5-tools 或者 pip install PyQt5-tools 如果网络不好,还可以使用其他源 pip install PyQt…

C++中的继承(一)

文章目录 前言概念访问限定符基类和派生类的赋值转换继承中的作用域派生类的默认成员函数构造函数 拷贝构造析构函数 继承的其他一些细节 前言 我们之前说过,继承是面向对象的三大特性。 面向对象的三大特性: 封装、继承、多态。 封装在类和对象体现出…

大一python题库刷题训练,大一python填空题题库

大家好,给大家分享一下大一python题库及答案和分析,很多人还不知道这一点。下面详细解释一下。现在让我们来看看! 这篇文章主要介绍了大一python上机题库及答案,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完…

【线性代数】期末速通!

1. 行列式的性质 1.1 求一个行列式的值 特殊地,对角线左下全为0,结果为对角线乘积。行 r 列 c 1.2 性质 某行(列)加上或减去另一行(列)的几倍,行列式不变某行(列)乘 …

智能优化算法应用:基于海洋捕食者算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于海洋捕食者算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于海洋捕食者算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.海洋捕食者算法4.实验参数设定5.算法…

git-lfs基本知识讲解

目录 1. 基本知识2. 安装 1. 基本知识 git-lfs 是 Git Large File Storage 的缩写,是 Git 的一个扩展,用于处理大文件的版本控制。 它允许你有效地管理和存储大型二进制文件,而不会使 Git 仓库变得过大和不稳定。以下是一些与 git-lfs 相关…

mysql原理--InnoDB的表空间

1.概述 通过前边儿的内容大家知道, 表空间 是一个抽象的概念。 对于系统表空间来说,对应着文件系统中一个或多个实际文件;对于每个独立表空间来说,对应着文件系统中一个名为 表名.ibd 的实际文件。可以把表空间想象成被切分为许许…

仿易订货的订货系统源码一般多少钱

易订货是一款面向中小企业的B2B电子商务平台,旨在提供一站式的采购和销售解决方案。不少批发商贸企业在数字化转型的时候会采用订货系统,今天我们谈谈仿易订货的订货系统源码需要多少钱。 这款订货系统是一款SaaS,所以它是不面向市场销售源码…

Java 第9章 房屋出租系统

设计 如图是系统的分层结构,包括了界面层、业务层和数据层。 单独建包:由于在实际开发过程中,可能会出现管理多个界面的情况,所以界面需要单独建包,其他同理。 开发任务:从界面层深入到业务层&#xff0c…

ce从初阶到大牛--函数

1、显示/etc/passwd文件中以bash结尾的行; grep "bash$" /etc/passwd2、找出/etc/passwd文件中的三位或四位数; grep -E \b[0-9]{3,4}\b /etc/passwd3、找出/etc/grub2.cfg文件中,以至少一个空白字符开头,后面又跟了非…

产品定位后选择通过外包团队降低成本:迅腾文化的优势与实践

产品定位后选择通过外包团队降低成本:迅腾文化的优势与实践 在激烈的市场竞争中,产品定位是企业成功的关键。然而,仅凭优秀的产品定位并不足以确保企业的成功,如何在降低成本的同时保持产品质量和市场竞争力也是至关重要的。在这…

计算机网络:DNS域名解析系统

我最近开了几个专栏,诚信互三! > |||《算法专栏》::刷题教程来自网站《代码随想录》。||| > |||《C专栏》::记录我学习C的经历,看完你一定会有收获。||| > |||《Linux专栏》&#xff1…

【TB作品】51单片机,语音出租车计价器

西交大题目 1.语音出租车计价器 一、功能要求: 1.具有可模拟出租车车轮转速传感器的硬件设计,可计量出租车所走的公 里数。 2.显示和语音播报里程、价格和等待红灯或堵车的计时价格: 3.具有等待计时功能 4.具有实时年月日显示和切换功能。 5.操作简单、界面友好。 二、设计建议…

委托线程安全

委托线程安全是指将对共享数据的访问委托给线程安全的类,从而避免在调用方代码中进行额外的同步控制。这可以通过将线程安全性限定在一个类内部来实现。以下是一个简单的例子: 假设有一个计数器类 Counter,它不是线程安全的。 public class…

数据手册Datasheet解读-MOS管笔记

数据手册Datasheet解读-MOS管笔记 NMOS应用场景一般特征第一个参数Vdss第二、三个参数Rds(on)、IdMOS管的散热绝对最大额定值第一个参数-Vd第二个参数-Vdgr第三个参数-Vg(栅源电压)第四个参数-Id第五个参数-Idm第六个参数-Ptot第七个参数-Viso第七和八的…

【合成数字】合成类游戏-uniapp项目开发流程详解

以前玩过2048游戏,从中发现规律,想到跟合成类游戏相似,知道为什么很相似吗,在这里,做一个数字合成游戏玩玩吧,感兴趣的话可以看看,这里给大家讲一讲数字合成游戏的开发过程。 文章目录 创建项目…

四. 基于环视Camera的BEV感知算法-BEVDet

目录 前言0. 简述1. 算法动机&开创性思路2. 主体结构3. 损失函数4. 性能对比总结下载链接参考 前言 自动驾驶之心推出的《国内首个BVE感知全栈系列学习教程》,链接。记录下个人学习笔记,仅供自己参考 本次课程我们来学习下课程第四章——基于环视Cam…

【Java】智慧工地系统:让建筑行业管理更简单

概述 智慧工地管理平台面向房建、能源、交通各类工地的管理者,通过AI视频、物联感知技术对工地场景中的施工机械、建筑材料、施工规范、施工环境监管、完善施工现场项目管控。实现项目管控、特种设备管理、绿色施工、工地巡检等业务功能,沉淀工地监管数…