【机器学习】必会数学知识:一文掌握数据科学核心数学知识点(下),收藏~

news2025/2/26 9:52:30

核心数学知识点

  • 1、引言
  • 2、数据科学必会数学知识
    • 2.13 K均值聚类
    • 2.14 决策树
    • 2.15 随机森林
    • 2.16 梯度下降
    • 2.17 随机梯度下降(SGD)
    • 2.18 卷积
    • 2.19 拉普拉斯变换
    • 2.20 傅里叶变换
    • 2.21 信息论
    • 2.22 时间序列分析
    • 2.23 生成模型与判别模型
    • 2.24 支持向量机(SVM)
    • 2.25 均方误差(MSE)
    • 2.26 L2 正则化
  • 3、总结

1、引言

小屌丝:鱼哥,数学知识点下一部分呢。
小鱼:别着急,别着急,这就来了。
小屌丝:一点都不自觉,还得我提醒呢。
小鱼:…
在这里插入图片描述

2、数据科学必会数学知识

2.13 K均值聚类

  • 定义:一种分组数据的方法,将数据点划分为K个簇。
  • 核心原理:欧氏距离、质心更新。
  • 用法:数据挖掘、图像分割。
  • 算法公式:质心更新 μ j = 1 ∣ C j ∣ ∑ x i ∈ C j x i \mu_j = \frac{1}{|C_j|} \sum_{x_i \in C_j} x_i μj=Cj1xiCjxi
  • 代码示例
from sklearn.cluster import KMeans

X = [[1, 2], [1, 4], [1, 0], [10, 2], [10, 4], [10, 0]]
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)

2.14 决策树

  • 定义:一种递归分割数据的树形模型,用于分类和回归。
  • 核心原理:信息增益、基尼系数、剪枝。
  • 用法:分类、回归、特征选择。
  • 算法公式:信息增益 I G ( D , a ) = H ( D ) − ∑ v ∈ V a l u e s ( a ) ∣ D v ∣ ∣ D ∣ H ( D v ) IG(D, a) = H(D) - \sum_{v \in Values(a)} \frac{|D_v|}{|D|}H(D_v) IG(D,a)=H(D)vValues(a)DDvH(Dv)
  • 代码示例
from sklearn.tree import DecisionTreeClassifier
X = [[0, 0], [1, 1]]
y = [0, 1]
tree = DecisionTreeClassifier().fit(X, y)

2.15 随机森林

  • 定义:通过合并多个决策树模型提高预测准确性的技术。
  • 核心原理:集成学习、Bagging、随机子空间。
  • 用法:分类、回归、特征重要度评估。
  • 算法公式:树的预测加权平均 f ^ = 1 K ∑ k = 1 K f k \hat{f} = \frac{1}{K} \sum_{k=1}^K f_k f^=K1k=1Kfk
  • 代码示例
from sklearn.ensemble import RandomForestClassifier

X = [[0, 0], [1, 1]]
y = [0, 1]
rf = RandomForestClassifier(n_estimators=10).fit(X, y)

2.16 梯度下降

  • 定义:一种优化算法,用于最小化成本函数。
  • 核心原理:损失函数、梯度计算、学习率。
  • 用法:模型参数优化、神经网络训练。
  • 算法公式 θ = θ − η ∇ J ( θ ) \theta = \theta - \eta \nabla J(\theta) θ=θηJ(θ)
  • 代码示例
import numpy as np

def gradient_descent(x, y, theta, alpha, iterations):
    m = len(y)
    for _ in range(iterations):
        gradient = np.dot(x.T, (np.dot(x, theta) - y)) / m
        theta -= alpha * gradient
    return theta

2.17 随机梯度下降(SGD)

  • 定义:一种基于梯度下降的优化算法,但每次迭代只使用一个样本。
  • 核心原理:随机扰动、收敛性、学习率。
  • 用法:大规模数据集的优化。
  • 算法公式 θ i = θ i − 1 − η ∇ J ( θ i − 1 ; x ( i ) , y ( i ) ) \theta_{i} = \theta_{i-1} - \eta \nabla J(\theta_{i-1}; x^{(i)}, y^{(i)}) θi=θi1ηJ(θi1;x(i),y(i))
  • 代码示例
from sklearn.linear_model import SGDClassifier

X = [[0, 0], [1, 1]]
y = [0, 1]
sgd = SGDClassifier().fit(X, y)

2.18 卷积

  • 定义:一种运算,用于信号、图像、数据特征提取。
  • 核心原理:滤波、滑动窗口、卷积核。
  • 用法:卷积神经网络(CNN)、图像处理。
  • 算法公式 ( f ∗ g ) ( t ) = ∫ − ∞ ∞ f ( τ ) g ( t − τ ) d τ (f * g)(t) = \int_{-\infty}^{\infty} f(\tau)g(t - \tau)d\tau (fg)(t)=f(τ)g(tτ)dτ
  • 代码示例
import numpy as np
from scipy.signal import convolve2d

image = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
kernel = np.array([[1, 0], [0, -1]])
result = convolve2d(image, kernel, mode='valid')

2.19 拉普拉斯变换

  • 定义:用于把微分方程转化为代数方程的一种积分变换。
  • 核心原理:函数变换、线性运算。
  • 用法:信号处理、控制系统。
  • 算法公式 F ( s ) = ∫ 0 ∞ f ( t ) e − s t d t F(s) = \int_{0}^{\infty} f(t) e^{-st} dt F(s)=0f(t)estdt
  • 代码示例
from sympy.integrals.transforms import laplace_transform
from sympy import symbols, exp

t, s = symbols('t s')
f = exp(-t)
F = laplace_transform(f, t, s)

2.20 傅里叶变换

  • 定义:将时间域信号转换到频域的一种变换技术。

  • 核心原理:频谱分析、滤波。

  • 用法:信号处理、图像处理。

  • 算法公式 F ( ω ) = ∫ − ∞ ∞ f ( t ) e − i ω t d t F(\omega) = \int_{-\infty}^{\infty} f(t) e^{-i\omega t} dt F(ω)=f(t)etdt

  • 代码示例

import numpy as np

x = np.linspace(0, 2 * np.pi, 10)
y = np.sin(x)
y_fft = np.fft.fft(y)

2.21 信息论

  • 定义:研究信息的度量、传递和压缩的理论。
  • 核心原理:熵、互信息、编码定理。
  • 用法:数据压缩、特征选择。
  • 算法公式:熵 H ( X ) = − ∑ i P ( x i ) log ⁡ P ( x i ) H(X) = -\sum_{i} P(x_i) \log P(x_i) H(X)=iP(xi)logP(xi)
  • 代码示例
from sklearn.feature_selection import mutual_info_classif

X = [[1, 2], [3, 4], [5, 6]]
y = [0, 1, 0]
mi = mutual_info_classif(X, y)

2.22 时间序列分析

  • 定义:分析时间序列数据的统计方法。
  • 核心原理:自相关、移动平均、ARIMA模型。
  • 用法:经济预测、库存控制。
  • 算法公式: ARIMA模型 Y t = c + φ 1 Y t − 1 + ε t + θ 1 ε t − 1 Y_t = c + \varphi_1 Y_{t-1} + \varepsilon_t + \theta_1 \varepsilon_{t-1} Yt=c+φ1Yt1+εt+θ1εt1
  • 代码示例
import pandas as pd
from statsmodels.tsa.arima.model import ARIMA

data = pd.Series([1, 2, 3, 4, 5, 6])
model = ARIMA(data, order=(1, 1, 1))
model_fit = model.fit()

2.23 生成模型与判别模型

  • 定义:生成模型尝试建模输入数据及其标签的联合概率分布,而判别模型则直接建模标签条件概率。
  • 核心原理:生成模型(如高斯混合模型)、判别模型(如逻辑回归)。
  • 用法:分类、聚类。
  • 算法公式
    • 生成模型 P ( X , Y ) = P ( Y ) P ( X ∣ Y ) P(X, Y) = P(Y)P(X|Y) P(X,Y)=P(Y)P(XY)
    • 判别模型 P ( Y ∣ X ) P(Y|X) P(YX)
  • 代码示例
from sklearn.mixture import GaussianMixture
'''
生成模型 - 高斯混合模型 
'''
X = [[1, 2], [3, 4], [5, 6]]
gmm = GaussianMixture(n_components=2).fit(X)

2.24 支持向量机(SVM)

  • 定义:一种监督学习模型,用于分类和回归。
  • 核心原理:最大间隔分类、核函数。
  • 用法:分类、回归、异常检测。
  • 算法公式: 决策边界 w T x + b = 0 w^T x + b = 0 wTx+b=0
  • 代码示例
from sklearn.svm import SVC

X = [[0, 0], [1, 1]]
y = [0, 1]
clf = SVC().fit(X, y)

2.25 均方误差(MSE)

  • 定义:一种衡量预测值与实际值之间差异的度量方法。
  • 核心原理:最小化均方误差,找到最优的模型参数。
  • 用法:回归模型的损失函数。
  • 算法公式 MSE = 1 n ∑ i = 1 n ( y i − y ^ i ) 2 \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 MSE=n1i=1n(yiy^i)2
  • 代码示例
import numpy as np

# 示例数据
y_true = np.array([3.0, -0.5, 2.0, 7.0])
y_pred = np.array([2.5, 0.0, 2.0, 8.0])

# 计算MSE
mse = np.mean((y_true - y_pred)**2)
print("MSE:", mse)

2.26 L2 正则化

  • 定义:通过在损失函数中增加所有参数的平方和来惩罚大幅度的权重,旨在防止模型过拟合。
  • 核心原理:通过惩罚较大的权重系数来减少模型的复杂度。
  • 用法:线性回归、逻辑回归、神经网络。
  • 算法公式 J ( θ ) = MSE + λ 2 ∑ j = 1 m θ j 2 J(\theta) = \text{MSE} + \frac{\lambda}{2} \sum_{j=1}^{m} \theta_j^2 J(θ)=MSE+2λj=1mθj2
  • 代码示例
from sklearn.linear_model import Ridge
import numpy as np

# 示例数据
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
y = np.dot(X, np.array([1, 2])) + 3

# 创建Ridge回归模型
ridge = Ridge(alpha=1.0)
ridge.fit(X, y)

# 预测
y_pred = ridge.predict(X)

# 计算MSE
mse_ridge = np.mean((y - y_pred)**2)
print("MSE with L2 regularization:", mse_ridge)

3、总结

要想学好数学科学、或者机器学习,数学知识是必会的,也是基础。
所以,以上的这26个数学知识点,一定要掌握。
为了方便我们学习, 我把两篇的链接都放到下面了,点击即可跳转。

  • 【机器学习】必会数学知识:一文掌握数据科学核心数学知识点(上),收藏~
  • 【机器学习】必会数学知识:一文掌握数据科学核心数学知识点(下),收藏~

我是小鱼

  • CSDN 博客专家
  • 阿里云 专家博主
  • 51CTO博客专家
  • 企业认证金牌面试官
  • 多个名企认证&特邀讲师等
  • 名企签约职场面试培训、职场规划师
  • 多个国内主流技术社区的认证专家博主
  • 多款主流产品(阿里云等)评测一等奖获得者

关注小鱼,学习【机器学习】&【深度学习】领域的知识。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1913973.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无刷电机带上驱动器,掉电外力拖动有阻力

无刷电机带上驱动器,掉电外力拖动有阻力 这个问题一直以为很好理解或者应该是总所周知的,但是竟然很多人好奇问专门做电机控制的工程师,但是竟然很多人说不明白,今天我就好好聊一聊。 原因 反电动势效应 当无刷电机在没有电源供…

市场营销新手入门:推荐5本让你快速成长的好书!

我过去面试过数千人,发现了一个非常有趣也让人担忧的现象: 无论是资深还是资浅的市场营销人士,如果被问及什么是市场营销,什么是品牌,什么是整合营销传播,市场营销组合与整合营销传播有什么区别&#xff0…

HippoRAG如何从大脑获取线索以改进LLM检索

知识存储和检索正在成为大型语言模型(LLM)应用的重要组成部分。虽然检索增强生成(RAG)在该领域取得了巨大进步,但一些局限性仍然没有克服。 俄亥俄州立大学和斯坦福大学的研究团队推出了HippoRAG,这是一种创新性的检索框架,其设计理念源于人类…

matlab数值溢出该怎么解决?

🏆本文收录于《CSDN问答解惑》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&…

Backend - C# 的日志Lognet4

目录 一、安装 log4net 插件 (一)作用 (二)操作 (三)注意 二、配置 (一)配置AssemblyInfo.cs (二)配置log4net.config 1. 创建log4net.config文件&#xff08…

【京东监控项目分享】JD电商可实现的商品价格SKU实时监控

笔者实现了一个京东商品价格和评论的采集监控系统,它具有以下功能。 可以在任意时间周期内按照一定时间间隔,采集任意指定商品的价格和最新评论,都是网页可见的公开数据,不包含任何隐私数据。 对于消费者来说,如果订阅…

《C++20设计模式》策略模式

文章目录 一、前言二、实现1、UML类图2、实现 一、前言 策略模式和状态模式实现方式一样,只是目的不同,如果会状态模式的这个也就可以随便看看啦。 相关代码可以在这里,如有帮助给个star!AidenYuanDev/design_patterns_in_moder…

RocketMQ-六大场景实操指南

RocketMQ-六大场景实操指南 普通消息创建Topic创建Group测试消息收发 定时消息创建Topic创建Group消息发送 事务消息创建Topic创建Group消息收发 顺序消息创建Topic创建Group消息收发 另外两大场景消息异常运维体验感受初次体验给小白新手的建议进阶体验应用场景 关于云消息队列…

Excel第28享:如何新建一个Excel表格

一、背景需求 小姑电话说:要新建一个表格,并实现将几个单元格进行合并的需求。 二、解决方案 1、在电脑桌面上空白地方,点击鼠标右键,在下拉的功能框中选择“XLS工作表”或“XLSX工作表”都可以,如下图所示。 之后&…

持安科技CEO何艺荣获中国信通院2023-2024年度标准卓越贡献奖

近日,由中国信息通信研究院、中国通信标准化协会承办的“全球数字经济大会—云和软件安全论坛”暨“2024第二届SecGo云和软件安全大会”胜利召开,零信任办公安全技术创新企业持安科技创始人兼CEO何艺获评为2023-2024年度零信任领域标准卓越贡献者。 由中…

华盈生物获得美国Akoya认证的PhenoCycler-Fusion(原CODEX)技术服务商

华盈生物获得美国Akoya认证的PhenoCycler-Fusion(原CODEX)技术服务商 华盈生物获得美国Akoya公司认证的PhenoCycler-Fusion(原CODEX)空间单细胞蛋白组技术服务商,并进入该技术的全球CRO服务提供者网络:htt…

获超九成Gartner用户力推!FortiGate连续五年斩获“客户之选”称号

近日,Gartner Peer Insights™ 网络防火墙客户之选报告发布,Fortinet 连续第五年荣登这项权威榜单。该评选结果源于广大用户对 Fortinet 防火墙产品的真实反馈,是客户选择 Fortinet 的重要参考依据,也是FortiGate能够占据全球防火…

Spark-RDD和共享变量

概览 每个Spark应用程序都由一个driver program 组成,该驱动程序运行我们编写的main函数,并在集群上执行各种 并行 操作。Spark提供的主要抽象是一个 弹性分布式数据集(RDD),它是一个跨集群节点分区的元素集合&#x…

Win-ARM联盟的端侧AI技术分析

Win-ARM联盟,端侧AI大幕将起 微软震撼发布全球首款AI定制Windows PC——Copilot PC,搭载全新NPU与重塑的Windows 11系统,纳德拉盛赞其为史上最快、最强、最智能的Windows PC。该设备算力需求高达40TOPS,支持语音翻译、实时绘画、文…

AI网络爬虫019:搜狗图片的时间戳反爬虫应对策略

文章目录 一、介绍二、输入内容三、输出内容一、介绍 如何批量爬取下载搜狗图片搜索结果页面的图片?以孙允珠这个关键词的搜索结果为例: https://pic.sogou.com/pics? 翻页规律如下: https://pic.sogou.com/napi/pc/searchList?mode=2&start=384&xml_len=48&am…

基于Android平台开发,天气预报APP

1.项目功能思维导图 2. 项目涉及到的技术点 数据来源:和风天气API使用okhttp网络请求框架获取api数据使用gson库解析json数据使用RecyclerViewadapter实现未来7天列表展示和天气指数使用PopupMenu 实现弹出选项框使用动画定时器实现欢迎页倒计时和logo动画使用Text…

常见的过压保护芯片、过压保护的基本参数和选型

过压保护也叫过电压保护,是当电压超过预定的最大值时,使电源断开或使受控设备电压降低的一种保护方式。 过压保护芯片是为了防止输入电压的时候浪涌和波纹过大,导致烧坏后面的元器件芯片。因此过压保护芯片是很有必要的芯片。 常见的过压保护…

CentOS7配置阿里云yum源

前提:确认机器可以连接互联网,且系统已经安装了wget软件 先进入到/etc/yum.repos.d目录下查看是否有原来的yum源配置文件,如果有,就将它们备份一下 用yum repolist命令测试,当前系统已经没有可用yum源 输入命令wget -…

护佑未来!引领儿童安全新时代的AI大模型

引领儿童安全新时代的AI大模型 一. 前言1.1 AI在儿童安全方面的潜在作用1.2 实时监控与预警1.3 个性化安全教育与引导1.4 家长监护与安全意识提升 二. AI大模型的优势2.1. 保护儿童隐私和安全的重要性2.2. AI大模型如何应用于儿童安全领域2.1 儿童内容过滤2.2.1 儿童行为监测 2…

案例分享:Qt modbusTcp调试工具(读写Byte、Int、DInt、Real、DReal)(当前v1.0.0)

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://blog.csdn.net/qq21497936/article/details/140313789 红胖子(红模仿)的博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片…