<<机器学习实战>>12-14节笔记:机器学习模型可信度、逻辑回归模型及多分类问题处理

news2024/10/11 20:31:16

12机器学习模型可信度

是否检验模型的指标好就一定说明模型可用?不是,必须得保证训练的样本和整天基本满足同一分布。

统计学习和机器学习区别:统计学习是根据样本模拟总体规律进而去预测(当然要比对样本和总体的统计量是否一致,),而机器学习则会取不同阶段的数据分别做训练集和验证集,不涉及整体。可见机器学习的检验过程更简单。

介绍了如何切分训练集和测试集的code

首先介绍vsplit函数,它可以将数组按行切分

a=np.arange(10).reshape(5,2)

np.vsplit(a,[4,])

得到结果:1——4行一个数组,第5行一个数组

再写数据集切分函数

def array_split(features,labels,rate=0.7,random_state=24):

    np.random.seed(random_state)

    np.random.shuffle(features)

    np.random.seed(random_state)

    np.random.shuffle(labels)#总数据量,用来算要在多少个数据处划分

    num_input=len(labels)

    split_indices=int(num_input*rate)

    xtrain,xtest=np.vsplit(features,[split_indices,])

    ytrain,ytest=np.vsplit(labels,[split_indices,])

return xtrain,xtest,ytrain,ytest

#测试上述函数:

f=np.arange(10).reshape(-1,1)

l=np.arange(1,11).reshape(-1,1)

array_split(f,l)

发现测试结果确实是对应切分的。

训练集、验证集、测试集:训练集调参,验证集调超参,测试集严格不能带入模型训练中。如果想进一步提升参数准确度,还可用交叉验证。

13逻辑回归与多分类

广义线性模型:在线性模型两侧加函数,使得它能捕捉更一般的规律

一个小技巧:在x后面加一列1可以方便后续求出截距项

几率与对数几率:

而对于y=wTx,如果将左侧调整为lny/(1-y)则变为对数几率模型

逻辑回归的输出y是否是概率?

如果自变量的分布通过检验,则为概率

14多分类学习

两种思路:将逻辑回归改为多分类形式/将二分类学习器推广到多分类情况中

总体思路:先拆分后集成,即先将数据集拆分成读个、训练多个模型,后续进来的数据用这多个模型进行预测。一般分为三类方法:一对一(OvO)、一对剩余(OvR)和多对多(MvM)

OvO:

把同一分类的变量作为一个集合,然后两两组合

融合:根据每个分类器的结果按照少数服从多数的原则融合

OvR:每次将一类样例作为正例,其余作为反例,训练四个分类器

融合:若仅有一个分类器将新数据预测为正例,则属于它;如果有多个将新数据预测为正例,则选择概率最高的那个分类结果。

两者比较:OvO由于每个数据集更小,因此整体训练时间较短;性能方面两者类似。

MvM:

思路:将任意1/2/3。。。类作为正类,其余作为父类,穷尽所有划分方法,然后挑选几个

融合:根据四个子模型算出新数据编码,然后看离哪个的距离最近

距离计算采用闵可夫斯基距离,公式为

Python实现:

def dist(x,y,cat=2):#cat表示计算几次方的距离

    d1=np.abs(x-y)

    if x.ndim>1 or y.ndim>1:#这个if为了防止一个数组有多行,要按行求和

        res1=np.power(d1,cat).sum(1)#按行求和,power是算几次方

    else:

        res1=np.power(d1,cat).sum()

        res=np.power(res1,1/cat)

return res

测试:

x=np.array([1,2])

y=np.array([[2,3],[4,5]])

dist(x,y)

结果:

array([1.41421356, 4.24264069])

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2194981.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Bloom Filter 布隆过滤器

目录 简介 Bloom Filter的基本原理 实现 使用 HashFunc越多,性能越好吗? 如何尽量避免误判? 应用 布隆过滤器优点 简介 Bloom Filter是一种空间效率极高的概率数据结构,它用于测试一个元素是否属于集合。Bloom Filter的优…

wc命令:统计文本行数、单词数、字节数

一、命令简介 ​wc​(word count)是一个在类 Unix 系统中常用的命令行工具,用于统计文本文件的 行数​、单词数 ​和 字节数​。 ​​ ‍ 二、命令参数 ​wc​ 命令的基本语法如下: wc [选项] 文件选项: ​-c​…

Spring Validation 参数校验框架

目录 一.Maven依赖 二.参数校验 常用注解 1.Body参数校验 2.Params参数校验 2.1.Query参数校验 2.2.Path参数校验 三.全局异常处理器捕获校验异常 四.分组校验 1.分组校验 2.案例 2.1.登录 2.2.注册 五.嵌套校验 六.集合校验 七.自定义校验 八.快速失败(Fail …

全球IP归属地查询-IP地址查询-IP城市查询-IP地址归属地-IP地址解析-IP位置查询-IP地址查询API接口-IP查询城市-IP解析城市

IP地址查询接口是指能够返回IP地址相关信息的网络接口,其返回的信息通常包括IP地址的归属地(如国家、省份、城市等)、运营商信息以及其他技术细节。以下是一些常见的IP地址查询接口及其特点: 一、国内IP地址查询接口 百度IP地址查…

Burp Suite为何能抓到HTTPS的明文流量,Wireshark可以吗,公司电脑的加密流量也是被监控了吗?

在前期博文《万字图文详解HTTPS协议通信过程,结合抓包实战解析带你一次看透HTTPS!》中,我们知悉HTTPS通信内容是用会话密钥加密的,但不少细心的读者存在疑问:为何对于使用HTTPS协议的站点,在Burp Suite中拦…

5.人员管理模块(以及解决运行Bug)——帝可得管理系统

目录 前言一、页面修改表单展示修改 二、新增对话框修改三、修改对话框修改修改时展示创建时间 四、解决页面展示错误五 、 解决【java.lang.NullPointerException: null】 Bug 前言 提示:本篇完成人员管理模块的开发,具体需求、修改代码的路径和最终效…

2024年国庆节有哪些必囤的好物?搜罗到了五款超实用的数码好物!

​今年国庆节好多商家推出了一系列促销的活动,以庆祝这一重要节日。在这举国欢腾的日子里,除了享受假期带来的闲暇时光,也是时候犒劳一下自己,添置一些实用的数码用品了。为此,我特别为您搜罗到了五款超实用的数码好物…

考研笔记之操作系统(四) - 文件管理

文件管理 1. 简介1.1 前情回顾1.2 文件的属性1.3 文件内部数据的组织方式1.4 操作系统向上提供的文件功能1.5 文件应如何放在外存 2. 文件的逻辑结构2.1 无结构文件2.2 有结构文件2.2.1 顺序文件2.2.2 索引文件2.2.3 索引顺序文件2.2.4 多级索引顺序文件 3. 文件目录3.1 基本概…

PCIe配置篇(1)——如何进行配置操作(一)

一、功能的唯一标识——BDF 首先我们简单回顾一下总线(Bus)、设备(Device)、功能(Function)这几个概念: 功能(function):是PCI设备中独立的功能单元&#xff…

文心一言 VS 讯飞星火 VS chatgpt (364)-- 算法导论24.3 6题

六、给定有向图 G ( V , E ) G(V,E) G(V,E),每条边 ( u , v ) ∈ E (u,v)∈E (u,v)∈E 有一个关联值 r ( u , v ) r(u,v) r(u,v) ,该关联值是一个实数,其范围为 0 ⩽ r ( u , v ) ⩽ 1 0⩽r(u,v)⩽1 0⩽r(u,v)⩽1 ,其代表的意…

Sleuth、Zipkin学习

系列文章目录 JavaSE基础知识、数据类型学习万年历项目代码逻辑训练习题代码逻辑训练习题方法、数组学习图书管理系统项目面向对象编程:封装、继承、多态学习封装继承多态习题常用类、包装类、异常处理机制学习集合学习IO流、多线程学习仓库管理系统JavaSE项目员工…

去掉最大最小值的部门平均薪水

有员工薪资表t3_salary,包含员工ID(emp_id),部门ID(depart_id),薪水(salary),请计算去除最高最低薪资后的平均薪水;(每个部门员工数不少于3人) CREATE TABLE t3_salary (emp_id bigint,depart_id bigint,salary decima…

使用springCache实现缓存

简介 这个springCache貌似jdk8或者以上才可以 cache最好加在controller层,毕竟返回给前端的数据,在这一步才是最完整的,缓存controller的数据才有意义配置 导入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-bo…

业务封装与映射 -- OTUk/ODUk/OPUk开销帧结构

开销是为了保证净荷正常、灵活传送所必须附加的供网络运行、管理和维护&#xff08;OAM&#xff09;使用的字节。 OTN电层开销包括OTUk开销、ODUk开销、OPUk开销、OTUCn开销、ODUCn开销、OPUCn开销和帧对齐开销。 SM开销属于OTU开销&#xff0c;占用3个字节&#xff1b;PM开销…

【HappyCoding 之前,如何做好需求分析?】

“代码没写完&#xff0c;哪有脸睡觉”&#xff1f;代码爱好者们如是说。在工作当中&#xff0c;开发者往往也要担任需求分析的角色&#xff0c;承担一些需求分析设计文档编写等工作&#xff0c;这对于一些刚入行的新手或是一些自我封闭的“代码高手”来说是比较头疼的&#xf…

用Python Turtle绘制天安门技术讲解

概述 Python的Turtle模块是一个简单的绘图库&#xff0c;它允许用户通过简单的命令控制一个小海龟在屏幕上移动&#xff0c;绘制出各种图形。本文将通过一个具体的示例——绘制简化版的天安门&#xff0c;来详细讲解如何使用Turtle模块。 环境准备 确保你的Python环境中已经…

【CF2021E】Digital Village(All Version)

题目 给你一张 n n n 个点 m m m 条边的无向图&#xff0c;有 p p p 个关键点。你需要选择 k k k 个点染黑&#xff0c;使得这 p p p 个关键点到这 k k k 个黑点的代价和最小。定义代价为两点之间边权最大的边的最小值。 你需要求出 k 1,2,…,n 的所有答案 E1 n,m,p&l…

OBOO鸥柏丨数字化展厅液晶拼接屏联动展馆触摸屏查询一体机信息化

在OBOO鸥柏精心雕琢的多媒体展厅展馆解决方案中&#xff0c;鸥柏液晶拼接屏的多屏联动互动技术犹如一条无形的数字科技纽带&#xff0c;OBOO鸥柏巧妙地将多台商用显示设备编织成一幅幅动态共生的视觉盛宴。鸥柏这项技术&#xff0c;不仅仅是简单的显示设备互联&#xff0c;鸥柏…

73.【C语言】C/C++的内存区域划分

1.内存里的几个区域 除了耳熟能详的栈区,堆区,静态区,还有内核空间,内存映射段,数据段,代码段 2.示意图 3.解释 栈区(stack area):局部变量,函数参数,返回数据,返回地址 内存映射段:将文件映射到内存 映射: 如果看过王爽老师的 《汇编语言 第四版》,其中写到了可以操作B800…

【可答疑】基于51单片机的倒车雷达测距(含仿真、代码、报告、演示视频等)

✨哈喽大家好&#xff0c;这里是每天一杯冰美式oh&#xff0c;985电子本硕&#xff0c;大厂嵌入式在职0.3年&#xff0c;业余时间做做单片机小项目&#xff0c;有需要也可以提供就业指导&#xff08;免费&#xff09;~ &#x1f431;‍&#x1f409;这是51单片机毕业设计100篇…