机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

news2024/11/23 11:38:11

机器学习算法原理归纳总结:回归、聚类、支持向量、推荐、降维与神经网络

本文重点参考:唐宇迪博士的课程PPT [特别鸣谢]
完整版资料下载:机器学习算法原理详解+代码实战

在这里插入图片描述

1.回归算法

在这里插入图片描述

2.逻辑回归

在这里插入图片描述

3.决策树

  • 决策树实际上是根据样本的特征个数对样本进行一步一步的细分,每个节点都将把样本按照一个衡量标准进行筛选,直到所有的样本筛选完成为止,而先筛选出来的样本将被作为前边的节点,后被筛选出的节点顺序也将往后排序

  • 决策树的衡量标准为信息熵:
    在这里插入图片描述
    在这里插入图片描述

  • 决策树过拟合风险很大

在这里插入图片描述

4.集成算法

Bagging模型,全称bootstrap aggregation,其实质为并行训练一堆分类器

  • 典型代表:随机森林(随机:数据采样随机,特征选择随机;森林:很多个决策树并行放在一起)
    在这里插入图片描述

4.1 随机森林

  • 构造树模型
    在这里插入图片描述

  • 集成:之所以要进行随机,是要保证泛化能力,如果树都一样,那就没意义了
    在这里插入图片描述

  • 优势:

    • 它能够处理很高维度(feature很多)的数据,并且不用做特征选择
    • 在训练完后,它能够给出哪些feature比较重要
    • 容易做成并行化方法,速度比较快
    • 可以进行可视化展示,便于分析

4.2 Boosting模型

  • 典型代表:AdaBoost, Xgboost

  • Adaboost会根据前一次的分类效果调整数据权重在这里插入图片描述

  • Stacking可以堆叠各种各样的分类器(KNN,SVM,RF等等),分阶段:第一阶段得出各自结果,第二阶段再用前一阶段结果训练
    在这里插入图片描述

5.聚类算法

5.1 K-MEANS

在这里插入图片描述

在这里插入图片描述

5.2 DBSCAN

  • 全称:Density-Based Spatial Clustering of Applications with Noise
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

6.贝叶斯算法

  • 主要解决的问题:

    • 正向概率:假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大
    • 逆向概率:如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测
  • 贝叶斯公式:
    在这里插入图片描述

7.支持向量机

  • 分类问题:将两个集群分隔开来的距离最近的向量成为支持向量,详解参考:https://blog.csdn.net/yohnyang/article/details/124081760
    在这里插入图片描述

8.LDA与PCA算法

8.1 线性判别分析(LDA)

  • 全称:Linear Discriminant Analysis
  • 用途:用于数据预处理中的降维、分类任务
  • 目标:LDA关心的是能够最大化类间区分度的坐标轴成分,将特征空间(数据集中的多维样本)投影到一个维度更小的K维子空间中,同时保持区分类别的信息
  • 原理:投影到维度更低的空间中,使得投影后的点,会形成按类别区分,一簇一簇的情况,相同类别的点,将会在投影后的空间中更接近方法

在这里插入图片描述

8.2 主成分分析(PCA)

  • 用途:降维中最常用的手段
  • 目标:提取最有价值的信息(基于方差)

在这里插入图片描述
在这里插入图片描述

9.EM算法

  • 全称:Expectation-Maximization,期望最大化

    • 最大似然
    • EM算法推导
    • GMM(高斯混合模型)

9.1 最大似然估计

  • 一个栗子:假如你去赌场,但是不知道能不能赚钱,你就在门口堵着出来一个人就问一个赚了还是赔了,如果问了5个人都说赚了,那么你就会认为,赚钱的概率肯定是非常大的
  • 已知:(1)样本服从分布的模型, (2)观测到的样本
    求解:模型的参数
  • 总的来说:极大似然估计就是用来估计模型参数的统计学方法。
    在这里插入图片描述

9.2 EM算法

在这里插入图片描述

  • 算法原理推导:
    在这里插入图片描述

  • EM算法流程

    • 初始化分布参数 θ \theta θ
    • E-Step:根据参数 θ \theta θ 计算每个样本属于 zi 的概率(也就是我们的Q)
    • M-Step:根据Q,求出含有 θ \theta θ 的似然函数的下届并最大化它,得到新的参数 θ \theta θ
    • 不断的迭代更新下去

9.3 GMM(高斯混合模型)

  • 数据可以看作是从数个 Gaussian Distribution 中生成出来的
  • GMM 由 K 个 Gaussian 分布组成,每个 Gaussian 称为一个“Component”
  • 类似k-means方法,求解方式跟EM一样
  • 不断的迭代更新下去

10. 神经网络

在这里插入图片描述

  • 常规方法:
    在这里插入图片描述

  • 实现流程:

    • 1.预处理你的数据:对你数据中的特征进行归一化(normalize),让其具有零平均值(zero mean)和单位方差(unit variance)。
    • 2.如果数据是高维数据,考虑使用降维方法,比如PCA
    • 3.将数据随机分入训练集和验证集。按照一般规律,70%-90% 数据作为训练集
    • 4.在验证集上调优,尝试足够多的k值,尝试L1和L2两种范数计算方式。
  • 关于损失函数:
    在这里插入图片描述

  • 神经网络,详解-> https://blog.csdn.net/yohnyang/article/details/124516301
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

  • 模型组成结构:在这里插入图片描述

  • 举例:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/91593.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

汇编语言第二章:寄存器

2. 寄存器 寄存器进行信息的存储,对于汇编程序员来说,CPU 中的主要部件是寄存器。8086CPU 有 14 个寄存器,这些寄存器分别是: AX BX CX DX SI DI SP BP IP CS SS DS ES PSW通用寄存器 8086所有的寄存器都是 16 位的&#xff0c…

Android Rust JNI系列教程(二) 创建第一个Rust JNI项目

前言 提到JNI,大家都会想到C,C.不过如今rust又给我们增加了一个选项,借助rust的jni库(https://github.com/jni-rs/jni-rs),我们可以很方便的使Android与rust交互.从本章起,我们将逐步地了解使用rust实现一些经典的jni方法. 创建Rust项目 创建工程 在命令行输入命令: cargo…

超算/先进计算的发展与应用是什么?

经过近十年的快速发展,我国在超算领域的实力已达到世界先进水平。1993年,我国第一台高性能计算机“曙光一号并行机”研制成功,打破了国外IT巨头对我国超算技术的垄断。 自此,我国不断加快超级计算机研制步伐。从全球超级计算机TO…

精华推荐 | 【MySQL技术专题】「主从同步架构」全面详细透析MySQL的三种主从复制(Replication)机制的原理和实战开发(原理+实战)

前提概要 随着应用业务数据不断的增大,应用的响应速度不断下降,在检测过程中我们不难发现大多数的请求都是查询操作。此时,我们可以将数据库扩展成主从复制模式,将读操作和写操作分离开来,多台数据库分摊请求&#xff…

NEUQACM双周赛(三)

目录7-1 打字(C)题目描述:输入格式:输出格式:输入样例1:输出样例1:输入样例2:输出样例2:解题思路:7-2 分香肠(C,最大公约数)题目描述:输入格式:输出格式:输入样例:输出样例:解题思路…

节能降耗 | AIRIOT智慧电力综合管理解决方案

电力技术的发展推动各行各业的生产力,与此同时,企业中高能耗设备的应用以及输配电过程中的电能损耗,也在一定程度上加剧了电能供应压力。以工业制造业为例,企业的管理水平、能耗结构、生产组织方式都关系到能源的有效利用率&#…

电子招投标系统nodejs+vue+elementui

前端技术:nodejsvueelementui 前端:HTML5,CSS3、JavaScript、VUE 1、 node_modules文件夹(有npn install产生) 这文件夹就是在创建完项目后,cd到项目目录执行npm install后生成的文件夹,下载了项目需要的依赖项。 2、packag…

电商新模式——链动2+1模式为你带来社交电商新思路

随着流量入口价值的降低,电商 IP 时代的来临,移动社交电商获得了飞速的发展,在运营与营销的过程中,商家们往往为了降低营销成本,主动制造消费理由,通过各类促销、折扣来刺激消费,然而在回归商业…

Web3中文|NFT如何促进教育的发展?

自问世以来,NFT已经被应用于教育、艺术等多个领域。不过,相较于艺术行业,大多数人对NFT在教育界的作用知之甚少。 那么,就让我们来看看它们在课堂内外的影响都有哪些。 得益于区块链技术,NFT可以提高教育质量&#x…

【蓝桥杯选拔赛真题52】Scratch正话反说 少儿编程scratch图形化编程 蓝桥杯选拔赛真题讲解

目录 scratch正话反说 一、题目要求 编程实现 二、案例分析 1、角色分析

Android Rust JNI系列教程(三) Rust与Android互相调用

前言 Rust的JNI流程以及方法实际上和我们常见的C JNI是十分相似的.我们本章将使用Rust实现常见的JNI调用功能.关于更多的用法,可参考官方示例,github地址为https://github.com/jni-rs/jni-rs/blob/master/example/mylib/src/lib.rs. 基本交互功能实现 1. Java传String,返回b…

Java集合复习

文章目录集合概述、collection集合体系特点Collection集合的遍历增强for循环集合概述、collection集合体系特点 集合都是支持泛型的&#xff0c;但是集合只能存储对象&#xff0c;因此集合也叫做对象集合。 public static void main(String[] args) {Collection<String>l…

分布式 | 令人头疼的堆外内存泄露怎么排查?

作者&#xff1a;鲍凤其 爱可生 dble 团队开发成员&#xff0c;主要负责 dble 需求开发&#xff0c;故障排查和社区问题解答。少说废话&#xff0c;放码过来。 本文来源&#xff1a;原创投稿 *爱可生开源社区出品&#xff0c;原创内容未经授权不得随意使用&#xff0c;转载请联…

OpenFace Win10 运行和抽离部分代码

需求&#xff1a;提取出OpenFace中的GazeAnaLyser 中的部分代码往一个写好的接口里面放&#xff0c;主要实现提取面部的所有关键点&#xff0c;估计出视线的功能&#xff1b; 一&#xff0c;openface的安装与使用 在win10上把openface跑起来这个链接够用了&#xff0c;这里主要…

非零基础自学Golang 第5章 流程控制 5.2 循环控制

非零基础自学Golang 文章目录非零基础自学Golang第5章 流程控制5.2 循环控制5.2.1 for循环5.2.2 break 跳出循环5.2.3 continue 继续循环第5章 流程控制 5.2 循环控制 5.2.1 for循环 Go语言中的循环逻辑通过for关键字实现。不同于其他编程语言&#xff0c;Go语言没有while关…

NeurIPS2022 | OmniVL: 用于Image-Language和Video-Language任务的通用模型

原文标题&#xff1a;OmniVL: One Foundation Model for Image-Language and Video-Language Tasks 论文链接&#xff1a;OmniVL: One Foundation Model for Image-Language and Video-Language Tasks | OpenReview 三模态统一的工作。 一、问题提出 旨在设计一个全视觉语言…

正点原子基于库和寄存器建立keil的工程文件简单理解(不是具体步骤)

下载mdk 个人上传免费的pdf:https://download.csdn.net/download/weixin_43794311/87232741&#xff0c;或直接到正点原子官网下载 https://www.keil.com/download/ 两种建立方式的本质理解 库函数是有人基于寄存器已经完成对寄存器的设置&#xff0c;只要根据函数参数意义&…

【Uni-App】vscode 开发uni-app 配置eslint、prettier 实现代码检查和代码自动格式化

目录一&#xff1a;前言二、利用HBuilderX创建uni-app项目三、配置代码检查和代码自动格式化1. 在vscode中打开项目2. 创建package.json3. 添加eslint、prettier相关依赖4. 配置.eslintrc.js5. 配置.prettierrc.json6. 配置.editorconfig7. 配置.eslintignore如果以上还不生效&…

USB——域,包,事务及传输

USB 域&#xff0c;包&#xff0c;事务及传输 域组成包包组成事务事务组成传输 字节序 LSB 概览 域通常来说有八个 SYNCPIDADDRENDP&#xff1a;FRAMEDATACRCEOP 多个域组成包&#xff0c;USB 的包分为四大类 token&#xff1a;令牌包data&#xff1a;数据包handshake&…

centos7安装samba

关闭防火墙 [rootlocalhost ~]# systemctl stop firewalld.service [rootlocalhost ~]# systemctl disable firewalld.service Removed symlink /etc/systemd/system/dbus-org.fedoraproject.FirewallD1.service. Removed symlink /etc/systemd/system/basic.target.wants/f…