【零基础学机器学习 2】 机器学习的实操步骤-以及在Python中实现机器学习模型

news2024/12/23 11:14:07

文章目录

  • 1. 收集数据
  • 2. 准备数据
  • 3. 选择模型
  • 4. 训练模型
  • 5. 评估模型
  • 6. 参数调整
  • 7. 进行预测
  • 在Python中实现机器学习模型

机器学习是一种人工智能的分支,它使用算法和统计模型来让计算机系统自动地从数据中学习,并根据学习结果做出预测或决策。机器学习的目标是让计算机系统通过学习数据中的模式和规律,从而能够自主地进行分类、预测、识别、优化等任务,并不断地改进自己的性能。机器学习应用广泛,包括自然语言处理、计算机视觉、语音识别、推荐系统、金融风险管理等领域。

将智能赋予机器的任务似乎是艰巨而不可能的。但实际上,它非常容易。它可以分为7个主要步骤

1. 收集数据

机器是从我们提供的数据中学习的。收集可靠的数据非常重要,以便我们的机器学习模型可以找到正确的模式。我们提供给机器的数据的数量和质量将决定模型的准确性。如果我们有不正确或过时的数据,我们将得到不靠谱的结果,甚至是错误结果或预测。

确保使用来自可靠来源的数据,因为它将直接影响我们的模型的结果。好的数据是相关的,包含非常少的缺失和重复值,并且具有各种子类别/类别的良好表示。

Machine_learning_Fig_2。

2. 准备数据

在获得数据之后,我们必须准备数据。我们可以通过以下方式完成

  • 将我们拥有的所有数据放在一起并进行随机化。这有助于确保数据均匀分布,而排序不会影响学习过程。
  • 清理数据以删除不需要的数据、缺失值、行和列、重复值、数据类型转换等。我们甚至可能需要重构数据集并更改行和列或行和列的索引。
  • 可视化数据以了解其结构并了解各种变量和类别之间的关系。
  • 将清理后的数据分成两个集合-训练集和测试集。训练集是模型学习的集合。测试集用于在训练后检查模型的准确性。

Machine_learning_Fig_3

3. 选择模型

机器学习模型确定了在收集的数据上运行机器学习算法后获得的输出。选择与手头任务相关的模型非常重要。多年来,科学家和工程师开发了适用于不同任务的各种模型,如语音识别、图像识别、预测等。除此之外,我们还必须看看我们的模型是否适用于数值或分类数据,并相应选择。

Machine_learning_Fig_4

4. 训练模型

训练是机器学习中最重要的步骤。在训练中,我们将准备好的数据传递给机器学习模型以查找模式并进行预测。模型从数据中学习,随着时间的推移,通过训练,模型变得更好地进行预测。

Machine_learning_Fig_5

5. 评估模型

在训练模型后,我们必须检查其性能。这是通过测试模型在先前未见过的数据上的性能来完成的。使用的未见过的数据是我们之前将数据分成的测试集。如果在用于训练的相同数据上进行测试,则不会得到准确的度量结果,因为模型已经习惯了数据,并在其中找到了相同的模式。这将给我们不成比例的高准确性。

在测试数据上使用,我们将获得有关模型性能及其速度的准确度度量。

Machine_learning_Fig_6

6. 参数调整

一旦我们创建并评估了模型,请查看其准确性是否可以以任何方式改进。这是通过调整模型中存在的参数来完成的。参数是程序员通常决定的模型中的变量。在参数的特定值下,准确度将达到最大值。参数调整是指查找这些值。

Machine_learning_Fig_7。

7. 进行预测

最后,我们可以使用我们的模型在未见过的数据上进行准确的预测。

在Python中实现机器学习模型

现在,我们将看到如何使用Python实现机器学习模型。

在此示例中,收集的数据来自一家保险公司,告诉我们设置保险金额时发挥作用的变量。使用此数据,我们将必须预测某个人的保险金额。此数据是从Kaggle.com下载的。

我们需要从导入所需的任何模块开始,如下所示。

Machine_learning_Fig_8

接下来,我们将导入数据。

Machine_learning_Fig_9。

Machine_learning_Fig_10

现在,通过删除重复值并将列转换为数字值以使其更易于处理来清理数据。

Machine_learning_Fig_11

最终数据集如下所示。

Machine_learning_Fig_12

现在,将数据集拆分为训练集和测试集。

Machine_learning_Fig_13

由于我们需要基于某些参数预测数字值,因此必须使用线性回归。模型需要在训练集上进行学习。这是通过使用“.fit”命令完成的。

Machine_learning_Fig_14

现在,预测我们的测试数据集并查找我们的预测的准确性。

Machine_learning_Fig_15。

1.0是我们可以获得的最高准确度级别。现在,获取我们的参数。

Machine_learning_Fig_16。

上图显示了影响数据集中各个变量的超参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/531577.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智能双向嵌入式UART转CAN模块 串口 RS232 RS485 UART CAN转换器

CANUART-100TL系列智能双向UART转CAN模块具有一路TTL UART串口通道和一路CAN通道,实现CAN与串口 UART之间的双向数据智能转换。超小型灌封模块设计,方便用户集成到电路板上,快速通过MCU的UART口扩展CAN通道。 智能双向UART转CAN模块提供“…

Docker高级:Compose 容器编排

目录 一、Docker Compose 概述二、使用 Docker Compose三、常用命令四、编排微服务Ⅰ、搭建微服务Ⅱ、编写Dockerfile构建镜像Ⅲ、启动容器,测试服务Ⅳ、使用Compose编排容器 五、总结 一、Docker Compose 概述 Compose 是Docker公司推出的一个软件,可以…

跟着我学 AI丨AIGC,自媒体的核武器

自从 ChatGPT 火爆全网之后,AI 相关概念的热度就一直持续高涨不下,尤其是大众都在关注的 AI 的应用场景方向,更是疯狂。无论是 AI 圈内人还是以前对 AI 完全没有认知的人,都想借助 AI 挣上一笔。目前来说最受关注的 AI 应用场景&a…

阿里云数据库ClickHouse产品和技术解读

摘要:社区ClickHouse的单机引擎性能十分惊艳,但是部署运维ClickHouse集群,以及troubleshoot都不是很好上手。本次分享阿里云数据库ClickHouse产品能力和特性,包含同步MySQL库、ODPS库、本地盘及多盘性价比实例以及自建集群上云的迁…

kubernetes中Pod介绍

目录 kubernetes的作用 k8s核心资源pod Pod如何管理多个容器? Pod网络 k8s中容器的共享方式 Pod存储 已经学习了docker为什么还要学习Pod Pod与Docker之间的关系 Pod的优势 收集业务日志 pod工作方式 自主式(不推荐) yaml文件详解…

内存和闪存介绍

主要分为两类:内存和闪存,内存的数据掉电会丢失,闪存的数据掉电不会丢失。 内存:SRAM、RAM、SDRAM、DDR 闪存:ROM、FLASH、EMMC RAM:Random Access Memory 随机存储器,又分为:SRAM…

科士达为绿色世界 提供多维度低碳新动能

2023年5月11日,“数据中心绿色发展大会”围绕节能降碳绿色赋能主题,在成都如期召开。作为国内数据中心行业的翘楚,科士达应邀参加了大会,与会代表高级售前沈凤文带来了题为《为绿色世界 提供多维度低碳新动能》的精彩演讲。 在“双碳”目标引…

『手撕 Mybatis 源码』02 - 加载配置文件

加载配置文件 获取输入流 myBatis 的配置文档层次架构 首先从读入开始查看是怎么加载配置文件的,现在从这里打个断点 public class MybatisTest {Testpublic void test1() throws IOException {// 1. 通过类加载器对配置文件进行加载,加载成了字节输入…

MidJourney中国版开放内测;70款ChatGPT插件全评测;盘点181家海外AI创业公司;GPT+科研工作流 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦! 🤖 『左耳朵耗子 | 享受编程和技术带来的快乐』Coding Your Ambition CoolShell 是陈皓创建的技术共享平台,主题非常广泛&…

加密解密软件VMProtect教程(五):主窗口之主菜单

VMProtect 是保护应用程序代码免遭分析和破解的可靠工具,但只有在正确构建应用程序内保护机制并且没有可能破坏整个保护的典型错误的情况下才能最有效地使用。 接下来为大家介绍关于VMProtect中主菜单的功能介绍,包括文件、编辑、项目、工具和帮助。 &…

基于SSM+JSP的人体健康信息管理系统

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

PV270R1K1T1WMMC_PARKER轴向柱塞泵

PV270R1K1T1WMMC_PARKER轴向柱塞泵 柱塞泵分类 PARKER柱塞泵根据倾斜元件的不同,有斜盘式和斜轴式两种。斜盘式是斜盘相对回转的缸体有一倾斜角度,而引起柱塞在泵缸中往复运动。传动轴轴线和缸体轴线是一致的。这种结构较简单,转速较高&…

Git教程(二)

工作区和暂存区 工作区(Working Directory) learngit 文件夹就是一个工作区。 版本库(Repository) 工作区有个隐藏目录 .git ,这个不算工作区,而是 Git 的版本库。 版本库里面的 index(stage) 文件叫暂…

掌握无人机遥感数据预处理的全链条理论与实践流程、典型农林植被性状的估算理论与实践方法、利用MATLAB进行编程实践(脚本与GUI开发)以及期刊论文插图制作

在新一轮互联网信息技术大发展的现今,无人机、大数据、人工智能、物联网等新兴技术在各行各业都处于大爆发的前夜。为了将人工智能方法引入农业生产领域。首先在种植、养护等生产作业环节,逐步摆脱人力依赖;在施肥灌溉环节构建智慧节能系统&a…

尚硅谷大数据技术-教程-学习路线-笔记汇总表【课程资料下载】

😘 目录 00【前言】 01【大数据学习路线(快速版)】 02【视频地址&资料下载】 03【课程笔记】 001-Linux 002-Hadoop 003-Zookeeper 004【Scala】 005【Spark】 006【Nifi】 007【kafka】 008【flink】 00【前言】 都是公开的…

“深入探索SDL游戏开发“

前言 欢迎来到小K的SDL专栏第二小节,本节将为大家带来基本窗口构成、渲染器、基本图形绘制、贴图、事件处理等的详细讲解,看完后希望对你有收获 文章目录 前言一、简单窗口二、渲染器三、基本图形绘制1、点2、线3、矩形4、圆和椭圆 四、贴图五、事件处理…

Java经典笔试题—day09

Java经典笔试题—day09 🔎选择题🔎编程题🥝 另类加法🥝走方格的方案数 🔎结尾 🔎选择题 (1)下面程序的输出是 ( ) String x“fmn”; x.toUpperCase(); String yx.replace(‘f’,‘F’); yy“wxy”; Syste…

数据结构lab3-图型结构的建立与搜索

title: 数据结构lab3-图型结构的建立与搜索 date: 2023-05-16 11:42:26 tags: 数据结构与算法 课程名称:数据结构与算法 课程类型:必修 实验项目:图型结构的建立与搜索 实验题目:图的存储结构的建立与搜索 实验日期&#xff1…

基于html+css的图展示72

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

【K8s】openEuler23操作系统安装Docker和Kubernetes

openEuler23操作系统安装 服务器搭建环境随手记 文章目录 openEuler23操作系统安装前言:一、前期准备(所有节点)1.1所有节点,关闭防火墙规则,关闭selinux,关闭swap交换,打通所有服务器网络&am…