机器学习第一课

news2024/11/17 15:47:31

实现流程:

数据输入->数据基本处理->特征工程->训练->模型评估->新数据输入->预测结果
在这里插入图片描述
数据类型:
类型一:特征值+目标值
类型二:只有特征值

一、数据基本处理

达到的标准
在这里插入图片描述

二、特征工程

在这里插入图片描述

三、机器学习(模型)分类:

监督学习

定义:有目标值
分类:回归问题、分类问题
回归算法:线性回归、岭回归
分类算法:K-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络

无监督学习

定义:意味着输入数据没有被标记,也没有确定的结果(无具体目标值)。样本数据类别未知,需要根据样本间的相似性对样本集进行分类(聚类)试图使类内差距最小化,类间差距最大化。
聚类算法:K-means、PCA降维手段

半监督学习

定义:可以简单理解为一部分数据有目标,而一部分数据无目标。主要使用于监
督学习效果不能满足需求时,就使用半监督学习来增强学习效果。

强化学习

定义:主要用来自动进行决策,并且可以做连续决策。也就是说,整个过程都是一个
动态的,上一步数据的输出是下一步数据的输入。

四、模型评估

定义: 模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。
模型评估主要是评估模型误差的大小。误差主要分为:

  • 经验误差:在训练集上面的误差
  • 泛化误差:对未知数据上的误差

保留测试集的方法:
◆ 留出法
◆ K折交叉验证
◆ 自助法

留出法:
每层数据随机抽取N成训练集与随机抽取M成测试集,这样做若干次,重复实验,取平均值

K折交叉验证法:
分十份,每次留一份作为测试集【数据量少时非常有效,数据量大时对算力要求比较高】

自助法:
初始化数据集D,共有10个元素。 D=[1,2,3,4,5,6,7,8,9,10]
训练集D’:从D中随机有放回的抽取10个。比如: D’=[2,2,1,1,5,4,7,8,9,10]

  • 会有一些数不一定能够选择到
    • 假设一共为m个数,某一个数被选到的概率为1/m
    • 该数没有被选到的概率: (1-1/m)
    • 一共选了m次,没选到的概率总共为: (1-1/m)**m
  • m趋向于无穷的,就会有一个极限值为 1/e=0.368

这样即可保证:
1.原本数据集D、训练集与测试集的样本个数都可一致
2. 初始数据D 中大概会有36.8%的数据没在训练集 D’ 中出现。同理可得,初始数据集D中,约有36.8%的数据没在测试集中出现
自助法适用于:数据集较少、难以有效划分测试机与训练集
缺陷:分布偏差引来的估计偏差。

训练集(训练模型)+测试集(模型评估)+验证集(调参)

性能度量

  1. 回归问题:
    在这里插入图片描述
  2. 分类问题

方案一
错误率与精准率
在这里插入图片描述
缺陷:(只能判断 是 与 不是)
数据集{0,1,2,3,4,5,6,7,8,9,10} ->> =5正确的,!=5的时候不正确 ->> 错误率=10/11

方案二
查准率与查全率:
用一个例子说明:
现有模型预测:
100条新闻,60条你真正感兴趣的,40你真正不感兴趣的。
平台推送的结果:预测70条你感兴趣的,预测30条你不感兴趣的
在这里插入图片描述
查准率:他推送的广告(预测)有多少比例是你真的感兴趣的
查全率:你真正感兴趣的广告有多少真的被预测成功了

模型评估:
模型评估用于评价训练好的模型的表现效果,其表现效果大致可分为两类:欠拟合、过拟合。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/642105.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java+Swing+mysql图书管理系统

JavaSwingmysql图书管理系统 一、系统介绍二、功能展示1.管理员登陆2.图书查询3.图书入库4.借书5.还书6.图书证管理 三、系统实现1.BookManageMainFrame.java 四、其它1.其他系统实现2.获取源码 一、系统介绍 该系统实现了 用户: 书籍查询,借书,还书功能…

本地serve跑vue或者react打包后的项目

本地跑vue或者react打包后的项目 不需要本地服务器跑打包后的build文件夹(也可能是 dist文件夹)项目。 一般方案: 方案一:本地电脑运行serve服务(本文~~)方案二:vscode编辑器安装拓展【live …

KEGG注释:KEGG富集可视化柱状图

很久很久以前,看到过文章中的KEGG富集可视化结果图。是对KEGG通路进行注释的。后来在一些测序公司的宣传页上也见到过类似的图: image.png image.png 其实这个图就是多了一个KEGG通路注释,近期也有小伙伴寻求怎么做。网上很多在线工具可以完…

第二节 柱状图

文章目录 1.数据分析流程图2. 列表与数组2.1 二者区别2.2 shape() 函数2.3 生成柱状图比较2.3.1 列表生成柱状图2.3.2 数组生成柱状图2.3.3 扩展案例练习 3. 坐标值3.1 添加横纵坐标值 4. 其他优化细节4.1 屏幕属性4.2 标题属性4.3 练习案例 5. 知识点总结 1.数据分析流程图 数…

功率放大器的工作原理及特点是什么

功率放大器是一种电子设备,用于将输入信号放大到更大的电压、电流或功率级别,以便驱动更大的负载或产生更大的输出功率。这种类型的放大器常用于音频、无线电通信、雷达、声呐、医疗设备和其他应用中。下面安泰电子将为大家介绍功率放大器的工作原理及特…

糖基化修饰:130548-92-4,Fmoc-L-Thr(Ac4-D-Glcβ)-OH,糖肽按照氨基酸和糖的连接方式分为多种

Fmoc-L-Thr(Ac4-D-Glcβ)-OH,糖基化修饰,即糖肽可以按照氨基酸和糖的连接方式分为四类:O 位糖基化、N 位糖基化,糖肽的基本结构多肽链与糖链通过共价键相连蛋白链上连接糖链的位点称为糖基化位点。由于糖肽糖链的生物合成没有模板…

重磅再推 | 基于OpenSearch向量检索版+大模型,搭建对话式搜索

面向企业开发者的PaaS方案 一周前,阿里云OpenSearch发布的LLM智能问答版,面向行业搜索场景,提供企业专属问答搜索服务。作为一站式免运维的SaaS服务,智能问答版基于内置的LLM大模型提供问答能力,为企业快速搭建问答搜…

Linux系统安装mysql8完整无脑步骤

1:卸载原有REPO源 查询已经存在的mysql及相关依赖包 rpm -qa | grep mysql此时你会看到一堆列表,使用 yum 命令依次卸载 yum remove mysql-xxx-xxx-xxx接下来删除 mysql 的残留目录及文件,先用下面的命令找出所有mysql相关的文件夹 find …

报表工具Stimulsoft Reports用户手册:如何激活控件

Stimulsoft Reports.Net是一个基于.NET框架的报表生成器,能够帮助你创建结构、功能丰富的报表。StimulReport.Net 的报表设计器不仅界面友好,而且使用便捷,能够让你轻松创建所有报表;该报表设计器在报表设计过程中以及报表运行的过…

WhoNet报不是有效dbf解决

由于现在Web已经部署到Linux上了,以前在Windows上导出dbf通过oledb执行sql生成dbf的路径已经不可用了,加上需要安装dataaccess驱动也麻烦,为此换了fastdbf生成dbf文件。 首先还算顺利,开始就碰到中文乱码问题,下载源码…

Qt学习之旅 - QTableWidget控件其他控件设置图标

文章目录 设置列数设置水平表头设置行数设置正文设置QTableWidget表格不可被选中、不可编辑设置表格中某个单元格不可被选中 防止越界int转QString其他控件Scroll Area按键 添加UI设置图标主窗口图标状态栏上显示图标使用QtCreator //QTableWidget控件 //设置列数 ui->table…

人工智能和传统行业的思考

人工智能和传统行业的思考 转载:原文链接 — https://xiaowenz.com/blog/2023/04/decouple-your-time/ 传统之传统 传统产业之所以被称为传统,除了大部分并非依靠计算机技术驱动之外,同时也因为这些产业往往更贴近社会的基础架构或生产要素…

常见中间件

中间件简介 中间件运行在系统软件和应用软件之间,以便于各部件之间的沟通。他充当的功能是:将应用程序运行环境与操作系统隔离,从而让开发者不必为更多系统问题忧虑,直接关注该应用程序在解决问题上的能力。 提供解析网站代码的一…

STM32ARM体系结构(嵌入式学习)

STM32&ARM体系结构 1. STM321.1 简介1.2 STM32的优势1.3 命名规范 2. ARM体系结构2.1 ARM体系结构面试题:谈谈你对ARM的认识?1.ARM公司2.ARM处理器3.ARM技术 目前主流处理器架构?精简指令集RISC和复杂指令集CISC的区别?精简指…

第二类曲线积分

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 第二类曲线积分一、向量场是什么?二、向量场可视化三、计算1. 计算方式一2. 计算方式二 第二类曲线积分 因为之前学习第二类曲线的时候,不是…

CarEye 视频平台解决方案

前言 随着4G,5G技术和互联网技术的普及,流媒体应用越来越广发应用到生活中。本文档主要介绍CarEye视频服务器的主要软件硬件构成,功能实现。 功能介绍 CarEye 媒体服务器主要实现以下基本功能: 遵照GB28181/GT1078协议实设备到…

SQL Server Roles 角色權限

SQL Server 提供服务器级角色以帮助你管理服务器上的权限。 这些角色是可组合其他主体的安全主体。 服务器级角色的权限作用域为服务器范围。 (“角色”类似于 Windows 操作系统中的“组”。) 下表显示了服务器级的固定角色及其权限。 服务器级的固定角…

NLP 学习笔记十-simple RNN+attention(注意力机制)

NLP 学习笔记十-simple RNNattention(注意力机制) 感兴趣的伙伴,看这个笔记,最好从头开始看哈,而且我的笔记,其实不面向零基础,最好有过一些实践经历的来看最好。 紧接上一回,我们谈…

为什么指针被誉为 C 语言灵魂?

是的,这一篇的文章主题是「指针与内存模型」 说到指针,就不可能脱离开内存,学会指针的人分为两种,一种是不了解内存模型,另外一种则是了解。 不了解的对指针的理解就停留在“指针就是变量的地址”这句话,…

【数据结构与算法篇】手撕排序算法之插入排序与希尔排序

​👻内容专栏:《数据结构与算法篇》 🐨本文概括: 讲述排序的概念、直接插入排序、希尔排序、插入排序和希尔排序的区别。 🐼本文作者:花 碟 🐸发布时间:2023.6.13 一、排序的概念及其…