机器学习基础概念

news2024/12/25 13:44:22

1.机器学习定义

2.机器学习工作流程

        (1)数据集

                ①一行数据:一个样本

                ②一列数据:一个特征

                ③目标值(标签值):有些数据集有目标值,有些数据集没有。因此数据类型由特征值+目标值构成或仅由特征值构成。

        (2)数据分割:机器学习的数据集一般划分为训练数据(用于构建模型)和测试数据(用于模型评估)两个部分,划分比例一般为7:3、4:1、3:1。

        (3)数据基本处理:对数据的缺失值、异常值进行处理

        (4)特征工程(Feature Engineering):处理数据使特征在机器学习上更好发挥作用的过程

                注:业界流传,数据和特征决定机器学习的上限,而模型和算法只是逼近这个上限

                ①特征提取:将任意数据(如文本或图像)转为可用于机器学习的数字特征

                ②特征预处理:通过一些转换函数将特征数据转成更适合算法模型的特征数据

                ③特征降维:在某些限定条件下,降低随机变量(特征)个数得到一组不相关的主变量

        (5)机器学习:选择合适的算法对模型进行训练

        (6)模型评估:对训练好的模型进行评估

3.机器学习算法分类(根据数据集组成不同进行划分)

        (1)监督学习:输入数据由特征值和目标值组成,函数的输出(目标值)可以是一个连续的值(回归)或是有限个离散值(分类)

                ①回归问题:预测房价,根据样本集拟合出一条连续曲线

                ②分类问题:根据肿瘤特征预测是良性还是恶性

        (2)无监督学习:输入数据由特征值组成,输入的数据没有被标记也没有确定结果,样本数据类别未知,需根据样本间的相似性对样本集进行类别划分

        (3)半监督学习:训练集同时包含有标记(有目标值)数据和未标记(没有目标值)数据

        (4)强化学习:实质是做决策问题,即自动进行决策,并且可以做连续决策,强化学习的目标就是获得最多的累计奖励

4.模型评估

        (1)分类模型评估:准确率(预测正确的数占样本总数的比例)、精确率、召回率、F1-score、AUC指标

        (2)回归模型评估:均方根误差RMSE(p_i为预测值,a_i为实际值)、相对平方误差RSE、平均绝对误差MAE、相对绝对误差RAE

        (3)模型表现效果:过拟合(所建的机器学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳)、欠拟合(模型学习太粗糙,连训练集中样本数据的特征关系都没有学出来)

5.深度学习:也称深度结构学习、层次学习、深度机器学习,是一类算法集合,是机器学习的一个分支,在会话识别、图像识别和对象侦测等领域表现出惊人的准确性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1891159.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vmware虚拟机增加磁盘容量

概述 当初始分配给虚拟机的磁盘空间不够时,需要从外部的主系统增加配给。 具体操作分为两步:一:通过虚拟机界面添加分配的磁盘配给;二:将新分配的配给给使用起来。 操作 添加磁盘配给 在虚拟机内部添加新分配的配给…

Linux下QT程序启动失败问题排查方法

文章目录 0.问题背景1.程序启动失败常见原因2.排查依赖库问题2.1 依赖库缺失2.2 依赖库加载路径错误2.3 依赖库版本不匹配2.4 QT插件库缺失2.4.1 QT插件库缺失2.4.2 插件库自身的依赖库缺失 2.5 系统基础C库不匹配 3.资源问题3.1 缺少翻译文件3.2 缺少依赖的资源文件3.3 缺少依…

数据库安装

1.选择最下面自定义安装 2.选择x64 3.next 4.完成后next 5.next 6.选择如图,next 7.如图 8.输入密码 9.如图 10.如图 11.安装 12.完成 13.控制面板选择系统和安全 14.选择系统 15.高级系统设置 16.环境变量 17.双击打开path 18.新建 19.输入MySQLbin文件夹路径 20.管…

年互动量破亿,小红书流量新风口趋势研究

当今时代,一个人生活已经成为越来越常见的状态。千瓜数据显示,近一年小红书有关“一人生活”的种草笔记数超百万,预估互动量达亿级,“一人”市场大有可为。 本期,千瓜将探索“一人生活”的新变化,深入分析人…

Modbus RTU协议简介即CRC算法实现

目录 1 Modbus 介绍2 Modbus RTU协议传输方式2.1 地址码2.2 功能码2.3 数据码2.4 校验码 3 CRC算法实现2.1 代码3.2 运行结果 1 Modbus 介绍 Modbus是一种串行通信协议,是Modicon公司(现在的施耐德电气 Schneider Electric)于1979年为使用可编…

谷粒商城-个人笔记(集群部署篇一)

前言 ​学习视频:​Java项目《谷粒商城》架构师级Java项目实战,对标阿里P6-P7,全网最强​学习文档: 谷粒商城-个人笔记(基础篇一)谷粒商城-个人笔记(基础篇二)谷粒商城-个人笔记(基础篇三)谷粒商城-个人笔记(高级篇一)谷粒商城-个…

每日一题——力扣144. 二叉树的前序遍历(举一反三+思想解读+逐步优化)五千字好文

一个认为一切根源都是“自己不够强”的INTJ 个人主页:用哲学编程-CSDN博客专栏:每日一题——举一反三Python编程学习Python内置函数 Python-3.12.0文档解读 目录 我的写法: 代码结构 时间复杂度 空间复杂度 总结 我要更强 代码说明 …

mysql 忘记 root 密码的解决办法(针对不同 mysql 版本)

文章目录 1.前提说明1.1 cmd 窗口打开方式1.2 mysql 服务相关命令知识补充1.3 三个 mysql 版本说明1.4 运行时可能发生的报错问题🍀 跳过密码授权命令报错🍀 修改密码时报错🍀 ERROR 2003 (HY000): Cant connect to MySQL server on localhos…

安卓稳定性之crash详解

目录 前言一、Crash 的基本原理二、Crash 分析思路三、实例分析四、预防措施五、参考链接 前言 在开发和测试 Android 应用程序时,遇到应用程序崩溃是很常见的情况。 Android 崩溃指的是应用程序因为异常或错误而无法正常执行,并且导致应用强制关闭。 一…

RabbitMQ 进程内流控(Flow Control) 源码解析

1. 概述 1.1 为什么要流控? 流控主要是为了防止生产者生产消息速度过快,超过 Broker 可以处理的速度。这时需要暂时限制生产者的生产速度,让 Broker 的处理能够跟上生产速度。 Erlang进程之间不共享内存,每个进程都有自己的进程邮…

什么是眼球凹渲染?如何在Varjo Base中设置眼球追踪与凹渲染功能

当谈到Varjo耳机时,它们总是与超高分辨率显示器和有凹渲染联系在一起,从而能够高效地渲染到高像素的显示器上。 本篇博文的主题是分享一些可用于OpenXR应用程序的新设置,但在此之前,让我们先了解关于有凹渲染的一些背景。有凹渲染…

【计算机毕业设计】基于Springboot的B2B平台医疗病历交互系统【源码+lw+部署文档】

包含论文源码的压缩包较大,请私信或者加我的绿色小软件获取 免责声明:资料部分来源于合法的互联网渠道收集和整理,部分自己学习积累成果,供大家学习参考与交流。收取的费用仅用于收集和整理资料耗费时间的酬劳。 本人尊重原创作者…

Python爬取国家医保平台公开数据

国家医保服务平台数据爬取python爬虫数据爬取医疗公开数据 定点医疗机构查询定点零售药店查询医保机构查询药品分类与代码查询 等等,数据都能爬 接口地址:/ebus/fuwu/api/nthl/api/CommQuery/queryFixedHospital 签名参数:signData {dat…

H5打包失败:JS堆内存不足

傻子没看懂报错,像个无头苍蝇 解决方式:清空缓存,重启电脑,打包成功。

二叉树中序遍历-递归法详解-数据结构与算法

首先看下中序遍历的代码:(左 跟 右) 其首先要接受一个根结点root作为参数 判断根节点是否为NULL 不为NULL则递归遍历左子树 ①我们把树根结点A传递给它 其左结点为B,右结点为C ②首先我们要检查root是否为NULL 其不为NULL …

使用pyinstaller 如何打包python项目

参考:【python项目正确打包方法-哔哩哔哩】 https://b23.tv/EDB6zbG Pyinstaller 详解多种打包过程(去坑,填坑)。_pyinstaller -f -w-CSDN博客 1.打开命令提示符: 找到python项目所在位置,输入cmd即可 2. 安装pipenv: 在命令提示符&#…

1000T的文件怎么能快速从南京传到北京?最佳方案你肯定想不到

今天刷面试题看到一个有意思的面试题, 1000T的文件怎么能以最快速度从南京传到北京? 网络传输 首先我们考虑通过网络传输,需要多长时间。 我特地咨询了在运营商工作的同学,目前带宽: 家庭宽带下行最大1Gbps&#…

x264 编码器汇编模块介绍

aarch64汇编架构 解释:AArch64 是 ARM 架构的 64 位版本,也称为 ARMv8-A特点: 64位寻址能力,支持更大的地址空间,理论上可达16EB(Exabyte)使用64位宽的寄存器,有31个通用寄存器(X0-X30),外加一个链接寄存器(X31)支持扩展的 NEON SIMD 指令集,提供更多的执行单元和…

电脑显示由于找不到MSVCP140.dll,无法继续执行代码

电脑已经成为我们生活和工作中不可或缺的工具,然而,在使用电脑的过程中,我们常常会遇到一些错误提示,其中之一就是“电脑显示由于找不到MSVCP140.dll是怎么回事?”这个问题。小编将详细介绍该问题的原因、解决方法以及…

新版本发布丨昂辉科技EasySAR-Configurator V1.2.0再启航

昂辉科技新一代跨平台高性能AUTOSAR配置工具EasySAR-Configurator V1.2.0全新版本重磅发布!产品基于Web架构前后端分离的方式开发,可提供SaaS部署,能够实现精准配置和最大限度的代码裁剪,且配备标准的约束限制、配置验证、代码生成…