人工智能(1):机器学习工作流程

news2025/2/28 12:48:59

1 什么是机器学习

机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测。

2 机器学习工作流程

机器学习工作流程总结

1 获取数据

2 数据基本处理

3 特征工程

4 机器学习(模型训练)

5 模型评估

  • 结果达到要求,上线服务
  • 没有达到要求,重新上面步骤

2.1 获取到的数据集介绍

  • 数据简介

在数据集中一般:

        一行数据我们称为一个样本

        一列数据我们成为一个特征

        有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)

 

  • 数据类型构成:

        数据类型一:特征值+目标值(目标值是连续的和离散的)如上图

        数据类型二:只有特征值,没有目标值,如下图

 

  • 数据分割:

        机器学习一般的数据集会划分为两个部分:

                训练数据:用于训练,构建模型

                测试数据:在模型检验时使用,用于评估模型是否有效

        划分比例:

                训练集:70% 80% 75%

                测试集:30% 20% 25%

2.2 数据基本处理

即对数据进行缺失值、去除异常值等处理

2.3 特征工程

2.3.1什么是特征工程

特征工程是使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的作用的过程。

意义:会直接影响机器学习的效果

2.3.2 为什么需要特征工程(Feature Engineering)

机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”

注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

2.3.3 特征工程包含内容

  • 特征提取
  • 特征预处理
  • 特征降维

2.3.4 各概念具体解释

  • 特征提取

将任意数据(如文本或图像)转换为可用于机器学习的数字特征

  • 特征预处理

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

 

  • 特征降维

指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

2.4 机器学习

选择合适的算法对模型进行训练(后续详细讲解)

2.5 模型评估

对训练好的模型进行评估(后续详细讲解)

3 小结

机器学习定义【掌握】

  • 机器学习是从数据中自动分析获得模型,并利用模型对未知数据进行预测

机器学习工作流程总结【掌握】

1 获取数据

2 数据基本处理

3 特征工程

4 机器学习(模型训练)

5 模型评估

  • 结果达到要求,上线服务
  • 没有达到要求,重新上面步骤

获取到的数据集介绍【掌握】

  • 数据集中一行数据一般称为一个样本,一列数据一般称为一个特征。
  • 数据集的构成:

        由特征值+目标值(部分数据集没有)构成

  • 为了模型的训练和测试,把数据集分为:

        训练数据(70%-80%)和测试数据(20%-30%)

特征工程包含内容【了解】

  • 特征提取
  • 特征预处理
  • 特征降维

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/678708.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

程序编译连接加载过程详解

程序加载过程详解 可重定位的elf文件格式简介 首先我们打开目标文件看一下 上面的图就是目标文件的格式了,这里使用的是010editer,这个二进制编辑器很好用 可以看到大致分为三部分,首先是header,然后是sectionheader&#xff0…

MIT 6.S081 (BOOK-RISCV-REV1)教材第四章内容 -- Trap -- 下

MIT 6.S081 教材第四章内容 -- Trap -- 下 引言从内核空间陷入页面错误异常Page Fault BasicsLazy page allocationZero Fill On DemandCopy On Write ForkDemand PagingMemory Mapped Files 真实世界 引言 MIT 6.S081 2020 操作系统 本文为MIT 6.S081课程第四章教材内容翻译…

Windows编译OpenSSL Win10系统 vs2010

近期因为项目需要,需要用到openssl动态库,现在将编译的过程记录一下; 操作系统:Win10 64位 编译器:VS2010 编译步骤如下: 1、下载openssl版本(下载地址:​http://www.openssl.or…

chatgpt赋能python:Python分割——字符串处理中的必备技能

Python分割——字符串处理中的必备技能 如果你曾经遇到过需要将一个字符串根据一定规则切割成多个子串的情况,那么你一定会发现,Python中的分割功能能够让这个任务变得非常简单。 什么是Python分割? Python中的分割是指将一个字符串根据特…

端午节安康,佬们都了解端午节的哪些知识呢(附粽子大作战小游戏)

前言: 端午节假期,首先祝各位小伙伴儿们端午节安康。参考了一些资料,本篇文章将和大家分享关于端午节的由来,习俗,以及关于端午节的一个代码小游戏–粽子大作战。 希望大家看完此篇文章能对端午节有收获,也…

如何在gitee上托管项目

1、如果想要将一个项目托管到gitee上,第一步找到gitee官网: https://gitee.com/?utm_sourcebaidu&utm_mediumsem&utm_termgitee%CB%BD%D3%D0%B2%BF%CA%F0&utm_campaignenterprise&utm_contentcompetition&wl_kwid260644677393&wl_creativ…

chatgpt赋能python:用Python绘制区域图,探索数据背后的故事

用Python绘制区域图,探索数据背后的故事 随着大数据时代的到来,数据可视化变得越来越受到重视。而区域图(Area chart)是一种常用的数据可视化图表类型之一。它可以说明一个数量随着时间的变化而发生的趋势,以及各类数…

chatgpt赋能python:Python的不确定尾数:如何处理和解决?

Python的不确定尾数:如何处理和解决? Python是一种流行的编程语言,被广泛用于开发Web应用程序、数据分析、人工智能、机器学习等领域。但是,Python在处理浮点数时可能存在精度问题,尤其是当尾数不确定时,会…

简单几步写出第一个C++程序

编写一个C程序总共分为4个步骤 创建项目创建文件编写代码运行程序 创建项目 ​ Visual Studio是我们用来编写C程序的主要工具,我们先将它打开 创建文件 右键源文件,选择添加->新建项 给C文件起个名称,然后点击添加即可。 编写代码 #i…

使用shedlock实现分布式定时任务锁【防止task定时任务重复执行】

第一步&#xff1a;引入shedlock相关依赖 <!--集成shedlock解决定时任务重复执行的问题--><dependency><groupId>net.javacrumbs.shedlock</groupId><artifactId>shedlock-spring</artifactId><version>2.2.1</version></d…

Nginx网站服务二

目录 编译安装Nginx服务 2.安装依赖包 3.创建运行用户、组&#xff08;Nginx 服务程序默认以 nobody 身份运行&#xff0c;建议为其创建专门的用户账号&#xff0c;以便更准确地控制其访问权限&#xff09; 4.编译安装Nginx 5.检查、启动、重启、停止 nginx服务 6.添加 N…

前端Vue自定义tabbar底部tabbar凸起tabbar兼容苹果刘海屏小程序和APP

前端Vue自定义tabbar底部tabbar凸起tabbar兼容苹果刘海屏小程序和APP&#xff0c; 下载完整代码请访问uni-app插件市场地址&#xff1a;https://ext.dcloud.net.cn/plugin?id13167 效果图如下&#xff1a; # cc-myTabbar #### 使用方法 使用方法 <!-- tabBarShow&#…

Flutter Dart函数(方法)异常

目录 函数(方法) 可选命名参数 「required」 可选位置参数 默认参数值 匿名方法 函数是一等对象 异常 函数(方法) Dart 是一个真正的面向对象语言&#xff0c;方法也是对象并且具有一种 类型 Function。 这意味着&#xff0c;方法可以赋值给变量&#xff0c;也可以当做…

读发布!设计与部署稳定的分布式系统(第2版)笔记10_自动化和缓慢的响应

1. 工业机器人 1.1. 具有多层防护措施&#xff0c;防止对人员、机器和设施造成损害 1.2. 防护措施能限制机器人的动作和传感器的感知 1.3. 机械臂的旋转范围会远远小于它可以达到的全部运动范围 2. 自动化 2.1. 它更像是工业机器人 2.1.1. 掌握控制层感知系统的当前状态 …

chatgpt赋能python:Python的分割函数:split的介绍和使用方法

Python的分割函数&#xff1a;split的介绍和使用方法 在Python编程中&#xff0c;我们经常需要对字符串进行操作。其中&#xff0c;分割字符串是一项常见的任务。Python中的split()函数可以用于将字符串按照指定的分隔符进行拆分。本文将介绍split()函数的使用方法以及注意事项…

0019-TIPS-2019-tokyowesterns-gnote : switch(jump-table) Doubule Fetch

漏洞源码 #include <linux/module.h> #include <linux/kernel.h> #include <linux/init.h> #include <linux/fs.h> #include <linux/proc_fs.h> #include <linux/string.h> #include <linux/slab.h> #include <asm/uaccess.h>…

python:并发编程(二十)

前言 本文将和大家一起探讨python并发编程的实际项目&#xff1a;win图形界面应用&#xff08;篇二&#xff0c;共八篇&#xff09;&#xff0c;系列文章将会从零开始构建项目&#xff0c;并逐渐完善项目&#xff0c;最终将项目打造成适用于高并发场景的应用。 本文为python并…

C语言贪吃蛇课程设计实验报告(包含贪吃蛇项目源码)

文末有贪吃蛇代码全览,代码有十分细致的注释!!!文末有贪吃蛇代码全览,代码有十分细致的注释!!!文末有贪吃蛇代码全览,代码有十分细致的注释!!! 码文不易&#xff0c;给个免费的小星星和免费的赞吧&#xff0c;关注也行呀(⑅•͈ᴗ•͈).:*♡ 不要白嫖哇(⁍̥̥̥᷄д⁍̥̥…

Mac5款高效实用软件,值得推荐

目录 1.MarginNote 3&#xff1a;阅读批注学习笔记软件 2.iShot&#xff1a;Mac截图、长截图、带壳截图、贴图、标注、取色、录屏、录音、OCR、翻译&#xff0c;合集工具 3.KeyCastr-实时显示按下的按键 4.MindNode-超美观的思维导图 5.One Switch&#xff1a;系统设置一键…

CopyOnWriteArrayList源码

介绍 CopyOnWriteArrayList是Java并发包中提供的一个并发容器&#xff0c;它是个线程安全且读操作无锁的ArrayList&#xff0c;写操作则通过创建底层数组的新副本来实现&#xff0c;是一种读写分离的并发策略 在保证并发读取的前提下&#xff0c;确保了写入时的线程安全&…