ML汇总

news2025/1/12 15:24:09

Introduction and Overview

      • 机器学习算法
      • 模型压缩
      • Feature scaling 特征缩放
      • 损失函数
      • 正则化
      • 优化方式
      • 激活函数

机器学习算法

逻辑回归: 用于二分类问题。它基于一个或多个预测变量建模二元结果的概率。
线性回归: 用于预测基于一个或多个预测变量的连续结果。它通过拟合线性方程来建模因变量和自变量之间的关系。
决策树: 一种用于分类和回归任务的树状模型。它根据特征值将数据分支,以做出决策或预测。
梯度提升决策树 (GBDT) 和随机森林:
GBDT: 一种集成技术,它按顺序构建多个决策树,每个树纠正前一个的错误。用于回归和分类。
随机森林: 另一种集成方法,它独立构建多个决策树,并平均它们的预测(用于回归)或进行多数投票(用于分类)。
支持向量机 (SVM): 用于分类和回归。SVM在特征空间中找到最能分离类别的超平面。
朴素贝叶斯: 基于贝叶斯定理的分类技术。它假设预测变量之间相互独立,常用于文本分类。
因式分解机 (FM): 用于稀疏数据中的预测任务,如推荐系统。它通过捕获所有特征对之间的交互来推广矩阵分解。
神经网络: 受人脑启发的一组算法,用于各种任务,包括分类、回归和更复杂的任务,如图像识别。神经网络由层层相连的神经元组成,并通过根据数据调整这些连接的权重来学习。

在这里插入图片描述
重采样是指调整不同类之间的比例,使数据更加均衡的过程。例如,我们可以对少数类进行过采样(图 1.17)或对多数类进行欠采样(图 1.18)
在这里插入图片描述
大规模训练变得越来越重要,因为模型随着时间的推移变得越来越大,并且数据集的大小也急剧增加。分布式训练通常用于通过将工作分配给多个工作节点来训练模型。这些工作节点并行运行,以加快模型训练速度。分布式训练主要有两种类型:数据并行[13]和模型并行[14]。

模型压缩

Knowledge distillation: The goal of knowledge distillation is to train a small model (student) to mimic a larger model (teacher).
知识蒸馏:知识蒸馏的目标是训练一个小模型(学生)来模仿更大的模型(老师)。
Pruning: Pruning refers to the process of finding the least useful parameters and setting them to zero. This leads to sparser models which can be stored more efficiently.
剪枝:剪枝是指找到最无用的参数并将其设置为零的过程。这导致模型更稀疏,可以更有效地存储。
Quantization: Model parameters are often represented with 32-bit floating numbers. In quantization, we use fewer bits to represent the parameters, which reduces the model’s size. Quantization can happen during training or post-training [39].
量化:模型参数通常用 32 位浮点数表示。在量化中,我们使用更少的位数来表示参数,从而减小了模型的大小。量化可以在训练期间或训练后进行[39]。

Feature scaling 特征缩放

标准化(最小-最大缩放)。在此方法中,使用以下公式对特征进行缩放,因此所有值都在 [0,1] 范围内:
标准化(Z 分数标准化)。标准化是改变特征分布以具有 0均值和 1 标准差的过程。以下公式用于标准化特征:
对数缩放。为了减轻特征的偏度,可以使用一种称为对数缩放的常用技术,其公式如下:
离散化(分桶)

损失函数

  1. 交叉熵损失(Cross-Entropy Loss)

    • 常用于分类问题,特别是多分类问题。它衡量的是实际标签与预测概率分布之间的差异。
    • 公式: L = − ∑ i = 1 N y i log ⁡ ( y ^ i ) L = -\sum_{i=1}^{N} y_i \log(\hat{y}_i) L=i=1Nyilog(y^i)
      其中, y i y_i yi 是实际标签, y ^ i \hat{y}_i y^i 是预测概率。
  2. 均方误差(Mean Squared Error, MSE)

    • 常用于回归问题。它衡量的是预测值与实际值之间差异的平方和的平均值。
    • 公式: MSE = 1 N ∑ i = 1 N ( y i − y ^ i ) 2 \text{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 MSE=N1i=1N(yiy^i)2
      其中, y i y_i yi 是实际值, y ^ i \hat{y}_i y^i 是预测值, N N N 是样本数量。
  3. 平均绝对误差(Mean Absolute Error, MAE)

    • 也是常用于回归问题。它衡量的是预测值与实际值之间差异的绝对值的平均值。
    • 公式: MAE = 1 N ∑ i = 1 N ∣ y i − y ^ i ∣ \text{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i| MAE=N1i=1Nyiy^i
      其中, y i y_i yi 是实际值, y ^ i

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2275544.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Day04-后端Web基础(Maven基础)

目录 Maven课程内容1. Maven初识1.1 什么是Maven?1.2 Maven的作用1.2.1 依赖管理1.2.2 项目构建1.2.3 统一项目结构 2. Maven概述2.1 Maven介绍2.2 Maven模型2.3 Maven仓库2.4 Maven安装2.4.1 下载2.4.2 安装步骤 3. IDEA集成Maven3.1 配置Maven环境3.1.2 全局设置 3.2 Maven项…

spring boot解决swagger中的v2/api-docs泄露漏洞

在配置文件中添加以下配置 #解决/v2/api-docs泄露漏洞 springfox:documentation:swagger-ui:enabled: falseauto-startup: false 处理前: 处理后:

【Linux】深入理解文件系统(超详细)

目录 一.磁盘 1-1 磁盘、服务器、机柜、机房 📌补充: 📌通常网络中用高低电平,磁盘中用磁化方向来表示。以下是具体说明: 📌如果有一块磁盘要进行销毁该怎么办? 1-2 磁盘存储结构 ​编辑…

CSS如何让一个盒子或内容在指定区域中上下左右居中

要使用CSS让盒子或内容在其父元素中上下左右居中,可以使用多种方法。例如:flexbox布局、使用grid布局、box布局、使用position定位和transform结合、以及表格属性等等,相关属性来实现内容的上下左右的居中。 接下来我们使用以上的方法&#x…

用户注册模块用户校验(头条项目-05)

1 用户注册后端逻辑 1.1 接收参数 username request.POST.get(username) password request.POST.get(password) phone request.POST.get(phone) 1.2 校验参数 前端校验过的后端也要校验,后端的校验和前端的校验是⼀致的 # 判断参数是否⻬全 # 判断⽤户名是否…

Qt学习笔记第81到90讲

第81讲 串口调试助手实现自动发送 为这个名叫“定时发送”的QCheckBox编写槽函数。 想要做出定时发送的效果,必须引入QT框架下的毫秒级定时器QTimer,查阅手册了解详情。 在widget.h内添加新的私有成员变量: QTimer *timer; 在widget类的构造…

hutool-http实现离线爬虫

文章目录 1.数据爬取流程2.离线爬虫(Hutool-http实现)1.获取数据2.数据清洗3.为什么有各种类型的强转4.数据入库 3.测试完整代码 1.数据爬取流程 1.分析数据源(怎么获取) 2.拿到数据后怎么处理 3.写入数据库存储 2.离线爬虫(Hutool-http实现) 1.获取数据 这里返回的是jso…

【C语言】_使用冒泡排序模拟实现qsort函数

目录 1. 排序函数的参数 2. 排序函数函数体 2.1 比较元素的表示 2.2 交换函数Swap的实现 2.3 排序函数bubble_sort的实现 3. 测试整型数据排序 3.1 整型数据比较函数cmp_int的实现 3.2 整型数据排序后输出函数print_int的实现 3.3 整型数据测试函数test_int的实现 3…

ECharts饼图下钻

背景 项目上需要对Echarts饼图进行功能定制,实现点击颜色块,下钻显示下一层级占比 说明 饼图实现点击下钻/面包屑返回的功能 实现 数据结构 [{name: a,value: 1,children: [...]},... ]点击下钻 // 为图表绑定点击事件(需要在destroy…

Java聊天小程序

拟设计一个基于 Java 技术的局域网在线聊天系统,实现客户端与服务器之间的实时通信。系统分为客户端和服务器端两类,客户端用于发送和接收消息,服务器端负责接收客户端请求并处理消息。客户端通过图形界面提供用户友好的操作界面,服务器端监听多个客户端的连接并管理消息通…

蓝桥杯嵌入式速通(1)

1.工程准备 创建一文件夹存放自己的代码,并在mdk中include上文件夹地址 把所有自身代码的头文件都放在headfile头文件中,之后只需要在新的文件中引用headfile即可 headfile中先提前可加入 #include "stdio.h" #include "string.h"…

net-http-transport 引发的句柄数(协程)泄漏问题

Reference 关于 Golang 中 http.Response.Body 未读取导致连接复用问题的一点研究https://manishrjain.com/must-close-golang-http-responsehttps://www.reddit.com/r/golang/comments/13fphyz/til_go_response_body_must_be_closed_even_if_you/?rdt35002https://medium.co…

TrustRAG:增强RAG系统鲁棒性与可信度的创新框架

在人工智能飞速发展的今天,大语言模型(LLMs)凭借其强大的语言处理能力在诸多领域大放异彩。检索增强生成(RAG)系统(面向企业RAG(Retrieval Augmented Generation)系统的多维检索框架…

业务链指标,用户行为模式识别,埋点系统

个人博客:无奈何杨(wnhyang) 个人语雀:wnhyang 共享语雀:在线知识共享 Github:wnhyang - Overview 此前,我们已经成功搭建起最为基础的聚类指标体系,涵盖计数、求和、最大值、最小…

Git撤销指定commit并更新远端仓库

Git撤销指定commit并更新远端仓库 一、撤销指定commit 1.首先执行git log 命令,查看git历史提交以及commit信息: 由于需要脱敏,所以截图可能看得马赛克比较多,需要关注的就是上面的commit后跟的id,以及HEAD当前指定…

基于DFT与IIR-FIR滤波器的音频分析与噪声处理

基于DFT与IIR-FIR滤波器的音频分析与噪声处理 【完整源码文档报告】 【需要可随时联系博主,常在线能秒回!】 系统功能与实现介绍 功能与实现 音频处理系统界面搭建:利用MATLAB的GUI工具,构建了音频分析界面,包括文件导入、录…

基于单片机的无线气象仪系统设计(论文+源码)

1系统方案设计 如图2.1所示为无线气象仪系统设计框架。系统设计采用STM32单片机作为主控制器,结合DHT11温湿度传感器、光敏传感器、BMP180气压传感器、PR-3000-FS-N01风速传感器实现气象环境的温度、湿度、光照、气压、风速等环境数据的检测,并通过OLED1…

MySQL库表的操作

目录 一、库的操作 1.1库的创建 1.2字符集和校验规则 1.2.1 查看系统默认字符集以及校验规则 1.2.2 查看数据库支持的字符集 1.2.3 查看数据库支持的字符集校验规则 1.2.4 校验规则对数据库的影响 1.3操纵数据库 1.3.1显示库 1.3.2显示创建语句 1.3.3修改数据库 1.3…

硬件设计-齐纳管

目录 摘要 详情 齐纳管的工作电流、 摘要 齐纳管(Zener Diode)是一种特殊的二极管,它能够在特定的反向电压下保持电流稳定。正常情况下,二极管只允许正向电流通过,而阻止反向电流流过。而齐纳管在一定的反向电压下可…

Airflow:TimeSensor感知时间条件

在数据管道工作流中,任务可能需要在特定的时间执行,或者在继续之前等待一定的时间。为了满足这些需求,Apache Airflow提供了TimeSensor,这是一种内置Sensor,可以监控当前时间,并在达到指定时间时触发后续任…