机器学习补充学习

news2024/12/28 5:17:57

1、Adaboost算法

Adaboost算法是一种集成学习方法,通过结合多个弱学习器来构建一个强大的预测模型。核心思想:如果一个简单的分类器在训练数据上犯错误,那么它在测试数据上也可能犯错误。

Adaboost通过迭代地训练一系列的分类器,并为每次训练选择训练数据的子集,从而使得每个分类器在训练数据上的错误率最小化。

算法步骤

1.1 分配每个观测样本X_{i},一个初始权重W_{i}W_{i}=\frac{1}{n},其中n为样本总量数。

1.2 训练一个“弱模型”(常用决策树)

1.3 对于每个目标:

        1.3.1 如果预测错误,W_{i}上涨

        1.3.2 如果预测正确,W_{i}下降

1.4 训练一个新的“弱模型”,其中权重较大的观测样本相应分配较高的优先权

1.5 重复步骤三和四,直到得到样本被完美预测,或是训练处当前规模的决策树

优点:

1、提高准确率:通过集成多个弱分类器,Adaboost可以显著提高预测的准确率,尤其是在处理复杂和非线性问题时。

2、处理不平衡数据:Adaboost能够自动调整每个分类器的权重,以对错误率的类别给予更多的关注,这有助于提高少数类的分类性能。

3、对异常值不敏感:由于Adaboost会根据错误率来调整权重,异常值的影响会被减少。

4、模型透明度高:Adaboost可以提供每个弱分类器的权重,这使得模型易于解释和理解。

缺点:

1、过拟合风险:如果弱分类器的选择不当或者迭代次数过多,Adaboost可能会导致过拟合,尤其是在数据量较小的情况下。

2、计算成本:由于需要训练多个弱分类器,Adaboost的计算成本较高,尤其是在大模型数据集上。

3、弱学习器选择:Adaboost的效果很大程度上取决于所选的弱学习器,如果弱学习器选择不当,Adaboost可能无法达到预测的性能。

4、对噪声敏感:Adaboost可能会对噪声数据敏感,因为噪声数据可能会导致某些分类器权重过高,从而影响最终预测。

5、解释性差:尽管Adaboost提供每个弱分类器的权重,但整个集成模型的解释性仍然不如单个决策树或线性模型。

6、依赖正则化:Adaboost依赖于正则化来防止过拟合,这意味着模型可能会在测试集上表现不佳。

2、拟合度:调整R方

是一个统计量,用于衡量线性回归模型对观测数据的拟合程度,特别是在模型中包含多个自变量时,调整R方考虑了模型中自变量的数量,从而避免了模型过渡拟合的风险。

R^{2}=1-\frac{RSS/\left ( n-d-1 \right )}{TSS/\left ( n-1 \right )}

RSS:残差平方和

TSS:总平方和

n:观测值

d:特征值

R^{2}的取值范围是从0到1,R^{2}只反映了模型解释变异的能力,它并不考虑模型的复杂度。

R^{2}为0时,表示模型没有解释任何因变量的变异,即模型完全不能预测因变量的值

R^{2}为1时,表示模型完全解释了因变量的变异,即模型完美地预测了因变量的值

3、Agglomerative聚类

是一种基于距离的层次聚类算法,在这个算法中,每个数据点最初都被视为一个单独的簇,然后逐步合并这些簇,直到达到某个停止条件。合并的决策是基于簇之间的相似度(通常使用距离度量),即两个簇之间的相似度越高,他们被合并的可能性越大。

4、AIC赤池信息量准则

是一种用于评估统计模型拟合优度的指标,AIC考虑了模型拟合数据的能力和模型的复杂度,旨在找到一个在数据拟合和模型复杂度之间达到平衡的模型。

AIC的基本思想:一个好的模型应该既能够很好地拟合数据,又不会过于复杂。因此,AIC在计算似然函数值的基础上,对模型复杂度进行惩罚,即增加一个与模型参数数量成正比的项。这样,AIC的值越小,表示模型越优秀。

AIC=\frac{1}{n\hat{a}^{2}}\left ( RSS+2d\hat{a} ^{2}\right )

n:观测值

\hat{a}^{2}:样本方差

RSS:残差平方和

d:特征值

AIC的缺点:对模型复杂度的惩罚是固定的,即每个参数的惩罚都是2。这可能会导致某些模型在参数数量上略有不同,但整体结构相似时,AIC的值差异较大。为了解决这个问题,出现了贝叶斯信息量准则(BIC)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1687219.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言 | Leetcode C语言题解之第101题对称二叉树

题目: 题解: /*** Definition for a binary tree node.* struct TreeNode {* int val;* struct TreeNode *left;* struct TreeNode *right;* };*/ bool isSymmetric(struct TreeNode* root) {if (root NULL) return true;//如果根为空直接…

基于YoloV4汽车多目标跟踪计数

欢迎大家点赞、收藏、关注、评论啦 ,由于篇幅有限,只展示了部分核心代码。 文章目录 一项目简介 二、功能三、系统四. 总结 一项目简介 一、项目背景与意义 随着城市交通的快速发展,交通流量和车辆密度的不断增加,对交通管理和控…

基于FPGA的VGA协议实现----条纹-文字-图片

基于FPGA的VGA协议实现----条纹-文字-图片 引言: ​ 随着数字电子技术的飞速发展,现场可编程门阵列(FPGA)因其高度的灵活性和并行处理能力,在数字系统设计中扮演着越来越重要的角色。FPGA能够实现复杂的数字逻辑&#…

Qt官方示例---embedded

digiflip flickable flightinfo lightmaps raycasting styleexample

pycharm 关闭项目卡死

PyCharm2023.3.4 关闭一直卡在 closing projects 解决办法: 打开PyCharm, 选择 Help -> Find Action -> 输入 Registry -> 禁用ide.await.scope.completion

leetCode-hot100-数组专题之双指针

数组双指针专题 1.同向双指针1.1例题26.删除有序数组中的重复项27.移除元素80.删除有序数组中的重复项 Ⅱ 2.相向双指针2.1例题11.盛最多水的容器42.接雨水581.最短无序连续子数组 双指针在算法题中很常见,下面总结双指针在数组中的一些应用,主要分为两类…

解决“Failed to restart udev.service“

报错信息 Failed to restart udev.service: Unit systemd-udevd.service is not loaded properly: Exec format error. See system logs and ‘systemctl status udev.service’ for details. invoke-rc.d: initscript udev, action “restart” failed. ● systemd-udevd.ser…

Day25:Leetcode:669. 修剪二叉搜索树 + 108.将有序数组转换为二叉搜索树 + 538.把二叉搜索树转换为累加树

LeetCode&#xff1a;669. 修剪二叉搜索树 问题描述 解决方案&#xff1a; 1.思路 2.代码实现 class Solution {public TreeNode trimBST(TreeNode root, int low, int high) {if (root null) {return null;}if (root.val < low) {return trimBST(root.right, low, hi…

跳房子游戏-第13届蓝桥杯选拔赛Python真题精选

[导读]&#xff1a;超平老师的Scratch蓝桥杯真题解读系列在推出之后&#xff0c;受到了广大老师和家长的好评&#xff0c;非常感谢各位的认可和厚爱。作为回馈&#xff0c;超平老师计划推出《Python蓝桥杯真题解析100讲》&#xff0c;这是解读系列的第71讲。 跳房子游戏&#…

一.ffmpeg 将内存中的H264跟PCM 数据流合成多媒体文件

在有一些嵌入式平台中&#xff0c;H264数据流一般来自芯片内部的硬编码器&#xff0c; AAC音频数据则是通过采集PCM进行软编码&#xff0c;但是如何对它实时进行封装多媒体文件 &#xff0c;参考ffmpeg example&#xff0c;花了一些时间终于实现了该功能。 流程图如下&#xf…

什么是经典蓝牙模块?

什么是经典蓝牙模块&#xff1f;   前面我们已经就蓝牙模块的概念做了了解&#xff0c;随着时间的推移&#xff0c;产品越来越智能&#xff0c;需要的蓝牙模块也就越来越广泛&#xff0c;本篇文章我们就一起了解下什么是经典蓝牙模块。   经典蓝牙模块(BT)泛指支持蓝牙协议…

ClickHouse配置与使用

静态IP配置 # 修改网卡配置文件 vim /etc/sysconfig/network-scripts/ifcfg-ens33# 修改文件内容 TYPEEthernet PROXY_METHODnone BROWSER_ONLYno BOOTPROTOstatic IPADDR192.168.18.128 NETMASK255.255.255.0 GATEWAY192.168.18.2 DEFROUTEyes IPV4_FAILURE_FATALno IPV6INIT…

AI办公自动化-kimi批量在多个Excel工作表中绘制柱状图

工作任务和目标&#xff1a;批量在多个Excel工作表中生成一个柱状图 第一步&#xff0c;在kimi中输入如下提示词&#xff1a; 你是一个Python编程专家&#xff0c;完成下面任务的Python脚本&#xff1a; 打开文件夹&#xff1a;F:\aivideo 读取里面所有的xlsx文件&#xff1…

【云原生之】K8s 管理工具 kubectl 详解(二)

一、项目的生命周期 创建–>发布–>更新–>回滚–>删除 1.1、创建kubectl create命令 创建并运行一个或多个容器镜像。创建一个deployment 或job 来管理容器。 kubectl create --help kubectl -n 命名空间 create deployment 资源名称 --image镜像 --port容器的端…

useTransition:开启React并发模式

写在前面&#xff1a;并发 并发模式&#xff08;Concurrent Mode&#xff09;1的一个关键特性是渲染可中断。 React 18 之前&#xff0c;更新内容渲染的方式是通过一个单一的且不可中断的同步事务进行处理。同步渲染意味着&#xff0c;一旦开始渲染就无法中断&#xff0c;直到…

将某一个 DIV 块全屏展示

文章目录 需求分析 需求 上节我们研究了如何将页面中的指定 div 下载为图片&#xff1a;跳转查看 本节演技一下如何将 DIV 全屏展示 全屏展示某一个 DIV 分析 其实就是模拟键盘动作 F11 var element document.getElementById(pic) var requestMethod element.requestFullS…

Alinx xc7z020 原理图

时钟引脚 CLK&#xff1a;U18 复位 RST&#xff1a;N15 扩展接口 J10 J11 PL LED

实战:生成个性化词云的Python实践【7个案例】

文本挖掘与可视化&#xff1a;生成个性化词云的Python实践【7个案例】 词云&#xff08;Word Cloud&#xff09;&#xff0c;又称为文字云或标签云&#xff0c;是一种用于文本数据可视化的技术&#xff0c;通过不同大小、颜色和字体展示文本中单词的出现频率或重要性。在词云中…

CVPR2022医疗图像-GBCNet网络:胆囊癌(GBC)超声(USG)图像检测模型

Surpassing the Human Accuracy:Detecting Gallbladder Cancer from USG Images with Curriculum Learning&#xff1a;超越人类的准确性:基于课程学习的USG图像检测胆囊癌 目录 一、背景与意义 二、介绍 三、网络框架 3.1 区域选择网络 3.2 MS-SoP分类器 3.3 多尺度块 …