机器学习笔记2 - 机器学习的一般流程

机器学习笔记2 - 机器学习的一般流程

news2026/2/15 23:57:24

image.png

1、数据基本处理

数据集的划分

根据用途可将获取到的数据划分为训练集和测试集，有时还会有验证集。
一般而言训练集用于训练模型，测试集用于测试模型的效果（泛化误差）。严格来讲，测试集的数据不能直接或间接（根据测试结果来调整模型参数）的用于模型训练。
验证集在模型训练阶段不会带入模型进行训练，但当模型训练结束之后，我们会把模型带入验证集进行计算，通过观测验证集上模型运行结果，判断模型是否要进行调整，验证集也会模型训练，只不过验证集训练的不是模型参数，而是模型超参数。
训练集和测试集的划分：可以随机划分，一般情况下70%-80%作为训练集、20%-30%作为测试集。
总的来说，测试集是严格不能带入训练的数据集，在实际建模过程中我们可以先把测试集切分出来，然后“假装这个数据集不存在”，在剩余的数据集中划分训练集和验证集，把训练集带入模型进行运算，再把验证集放在训练好的模型中进行运行，观测运行结果，再进行模型调整。
在一些不太严谨的情况下会混用测试集和验证集，不对二者进行区分；但在一些情况下（如在线提交结果的数据竞赛），是需要对二者做严格的区分的。
在机器学习理论体系中，一个更加严谨的做法，是先划分训练集和测试集，然后再在训练集上划分测试集，并且“训练集-测试集”划分方法用于进行模型参数训练，而“训练集-验证集”的划分方法主要用于进行模型超参数选取。

2、特征工程

使用专业知识是的特征能在机器学习算法上发挥更好的作用的过程。

2.1 特征提取

特征通常来自文献调研，看同行在解决同类问题时都使用了哪些特征；也可自行引入新的特征。

2.2 特征预处理

2.3 特征降维

去掉对模型影响不大的特征
常用的线性降维方法，如PCA；非线性降维方法，如tSNE，UMAP。

3、机器学习

3.1 提出基本模型

基于对数据的初步认识，或者分析的需求，提出一个模型。

3.2 确定损失函数（可自定义）

根据模型确定损失函数并进行构建

3.3 根据损失函数的性质，选择优化放法（求最小值）

最小二乘法（适用范围有限）

3.4 利用优化算法进行损失函数求解

计算出模型的测试/泛化误差

3.5 调参或更换其他模型

基于测试结果调整模型参数
若调整参数仍无法得到理想的结果，则可以考虑更换模型，并重复3.2 ~ 3.4的步骤。

4、模型评估

见机器学习笔记3-模型评估

© 著作权归作者所有,转载或内容合作请联系作者

喜欢的朋友记得点赞、收藏、关注哦！！！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2239283.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

鸿蒙进阶篇-type、typeof、类

“在科技的浪潮中，鸿蒙操作系统宛如一颗璀璨的新星，引领着创新的方向。作为鸿蒙开天组，今天我们将一同踏上鸿蒙基础的探索之旅，为您揭开这一神奇系统的神秘面纱。” 各位小伙伴们我们又见面了,我就是鸿蒙开天组,下面让我们进入今…

阅读更多...

log4j异常堆栈文件输出

log4j异常堆栈文件输出

目的：log4j异常堆栈关联到traceId一句话中，方便搜索 1、获取堆栈后一起打印 private void logException(Throwable t, ProceedingJoinPoint joinPoint) {if (this.printErrorStackSys) {StringWriter sw new StringWriter();PrintWriter pw new Print…

阅读更多...

ReactPress：构建高效、灵活、可扩展的开源发布平台

ReactPress：构建高效、灵活、可扩展的开源发布平台

ReactPress Github项目地址：https://github.com/fecommunity/reactpress 欢迎Star。在当今数字化时代，内容管理系统（CMS）已成为各类网站和应用的核心组成部分。ReactPress，作为一款融合了现代Web开发多项先进技术的开…

阅读更多...

【笔记】Springboo项目启动失败

【笔记】Springboo项目启动失败

application run failed org.springframework.beans.factory.BeanDefinitionStoreException: Invalid bean definition with name adviceMapper defined in file 原因是mybatisplus和springboot的版本不匹配修改后： springboot mybatisplus 成功

阅读更多...

PET-文件包含

PET-文件包含

include发生错误报warning，继续执行。require发生错误直接error，不继续执行无视扩展名，只要能解析，就能当可执行文件执行，哪怕文件后缀或没后缀 1 条件竞争 pass17 只需要知道tmp的路径。把xieshell.jpg上传&…

阅读更多...

强化学习入门笔记(Reinforcement Learning,RL) 强推！

强化学习入门笔记(Reinforcement Learning,RL) 强推！

由于本人的近期研究方向涉及到强化学习，本科时已经学习过了，但是感觉还是有些概念和算法没有学懂学透，所以想重新系统性的学习一下，记录了整个学习过程，而且对当时没有理解不是特别深刻的内容有了一些更加深刻的理解&a…

阅读更多...

HTB：Photobomb[WriteUP]

HTB：Photobomb[WriteUP]

目录连接至HTB服务器并启动靶机使用nmap对靶机进行端口开放扫描再次使用nmap对靶机开放端口进行脚本、服务扫描使用ffuf进行简单的子域名扫描使用浏览器直接访问该域名选取一个照片进行下载，使用Yakit进行抓包 USER_FLAG：a9afd9220ae2b5731…

阅读更多...

Golang | Leetcode Golang题解之第560题和为K的子数组

Golang | Leetcode Golang题解之第560题和为K的子数组

题目： 题解： func subarraySum(nums []int, k int) int {count, pre : 0, 0m : map[int]int{}m[0] 1for i : 0; i < len(nums); i {pre nums[i]if _, ok : m[pre - k]; ok {count m[pre - k]}m[pre] 1}return count }

阅读更多...

【Vue】Vue3.0（二十）Vue 3.0 中mitt的使用示例

【Vue】Vue3.0（二十）Vue 3.0 中mitt的使用示例

上篇文章【Vue】Vue3.0（十九）Vue 3.0 中一种组件间通信方式-自定义事件 🏡作者主页：点击！ 🤖Vue专栏：点击！ ⏰️创作时间：2024年11月11日12点23分文章目录一、mitt 在…

阅读更多...

降SAR需求分析

降SAR需求分析

1、需求分析在信息技术领域，SAR 可能代表 "Specific Absorption Rate"，即特定吸收率。这是用于衡量无线设备（如手机）辐射对人体的吸收程度的标准。国外认证机构针对手机有相关辐射值要求，比如通话场景等&am…

阅读更多...

如何学习VBA_3.2.14：字符串的处理

如何学习VBA_3.2.14：字符串的处理

我给VBA的定义：VBA是个人小型自动化处理的有效工具。利用好了，可以大大提高自己的劳动效率，而且可以提高数据处理的准确度。我推出的VBA系列教程共九套和一部VBA汉英手册，现在已经全部完成，希望大家利用、学习。如果…

阅读更多...

Processing Modflow软件安装，建立地下水-地面沉降数值模型的流程与步骤（构造沉降、抽水沉降、采空沉降等）；三维地质建模数据处理

目前，地面沉降问题是我国较为常见的环境地质问题，其巨大的破坏力严重影响城市建筑安全和交通轨道运行。围绕地面沉降的防控与治理，是工程地质、环境地质、轨道交通设计等相关技术人员十分关注的领域，而数值模拟技术是评估防控效果…

阅读更多...

Leetcode刷题Python之3258.统计满足k约束的子字符串I

Leetcode刷题Python之3258.统计满足k约束的子字符串I

提示：暴力解法简单易懂能通过。文章目录一、题目描述示例分析二、解题思路三、代码实现代码解析总结一、题目描述给定一个二进制字符串 s（即字符串中只包含字符 0 和 1）以及一个整数 k。要求计算出 s 中满足 “k 约束” 的子字符串数量…

阅读更多...

链游系统定制化开发：引领游戏产业的新时代

链游系统定制化开发：引领游戏产业的新时代

在数字革命的浪潮中，链游（区块链游戏）作为一种新兴游戏形式，正重新定义游戏产业的发展方向。链游将区块链技术与传统游戏结合，使游戏体验更加公平透明，并赋予玩家真正的资产所有权。这一领域不仅为玩家带来…

阅读更多...

【AI换装整合包及教程】CatVTON与其他虚拟试衣技术的详细对比

【AI换装整合包及教程】CatVTON与其他虚拟试衣技术的详细对比

一、概述虚拟试衣技术近年来发展迅猛，尤其在电商领域的应用备受瞩目。CatVTON作为一种新兴的虚拟试衣技术，凭借其轻量化设计和高效训练策略脱颖而出。本文将从网络结构、训练策略、推理过程及应用场景四个方面详细对比CatVTON与其他主流虚拟试衣技术。…

阅读更多...

元宇宙及其技术

元宇宙及其技术

“元宇宙”（Metaverse）是一个结合了现实与虚拟的数字世界的概念。这个词最早由作家尼尔斯蒂芬森（Neal Stephenson）在其1992年的科幻小说《雪崩》（Snow Crash）中提出。元宇宙通常被描述为一个共享的虚拟空间…

阅读更多...

三种单例实现

三种单例实现

1、不继承Mono的单例实现使用注： 使用需要继承BaseManager 泛型填写自己本身需要实现无参构造函数 2、挂载式的Mono单例实现使用注： 使用需要继承SingletonMono 泛型填写自己本身需要挂载在unity引擎面板 3、不用挂载式的单例实现使…

阅读更多...

移动取证和 Android 安全

移动取证和 Android 安全

当今的数字时代已经产生了许多技术进步，无论是智能手机还是虚拟现实、人工智能和物联网 (IoT) 等下一代基础技术。智能手机已不再只是奢侈品，而是我们生存所必需的东西。根据各种统计数据，如今全球有超过 50% 的人使用手机。由于数据存储…

阅读更多...

视频孪生技术在金融银行网点场景中的应用价值

视频孪生技术在金融银行网点场景中的应用价值

作为国民经济重要的基础行业，金融行业在高速发展的同时衍生出业务纠纷、安全防范、职能管理等诸多问题，对安全防范和监督管理提出了更高的要求。因此，如何能更好的利用视频监控系统价值，让管理人员更简便的浏览监控视频、更快速的…

阅读更多...

Prompt Engineering 提示工程

Prompt Engineering 提示工程

一、什么是提示工程（Prompt Engineering） Prompt 就是发给大模型的指令，比如讲个笑话、用 Python 编个贪吃蛇游戏等；大模型只接受一种输入，那就是 prompt。本质上，所有大模型相关的工程工作，都是…

阅读更多...

推荐文章

最新文章