第一章 数学基础

news2025/1/19 11:09:54

目录

  • 一、线性代数
  • 二、微积分
  • 三、概率

一、线性代数

  1. 理解范数概念
  2. 区分向量的内积 a ⋅ b \mathbf{a} \cdot \mathbf{b} ab 与外积 a × b \mathbf{a} \times \mathbf{b} a×b
  3. 区分矩阵的乘法 A ⊗ B \mathbf{A} \otimes \mathbf{B} AB、内积 A B \mathbf{A} \mathbf{B} AB 、哈达玛积 A ⊙ B \mathbf{A} \odot \mathbf{B} AB

向量

向量是一组标量排列而成的,只有一个轴,沿着行或者列的方向。通常表示成:
s = [ s 1 s 2 ⋯ s n ]   或   s = [ s 1 s 2 ⋮ s n ] s= \begin{bmatrix} s_1 &s_2 &\cdots &s_n \end{bmatrix}\ \ 或\ \ s = \begin{bmatrix} s_1\\ s_2\\ \vdots\\ s_n \end{bmatrix} s=[s1s2sn]    s= s1s2sn 向量的模与范数

向量的长度:表示向量的维度,即向量有几个元素,比如 n 维向量 a = ( a 1 , a 2 , ⋯   , a n ) a=(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) 的长度为 n,有 n 个元素。

向量的模长:简称为向量的模(Norm),表示向量在空间中的长度(欧式距离)。假设有 n 维向量 a = ( a 1 , a 2 , ⋯   , a n ) a=(a_1,a_2,\cdots,a_n) a=(a1,a2,,an),其模长 ∥ a ∥ \left \| a \right \| a 等于 a 1 2 + a 2 2 + ⋯ + a n 2 \sqrt{a_1^2 + a_2^2 + \cdots + a_n^2} a12+a22++an2

向量的范数: ∥ x ∥ = ( ∑ i ∣ x i ∣ p ) 1 p \left \| x \right \| = (\sum_i |x_i|^p)^{\frac{1}{p}} x=(ixip)p1,其中 p ∈ R , p ≥ 1 p \in R, p \ge 1 pR,p1。通常存在 L 2 L_2 L2 范数或者 L 1 L_1 L1 范数,其中 1 1 1 2 2 2 对应公式中的 p p p 值。向量的模长就为 L 2 L_2 L2 范数。

单位向量

单位向量:即模长为 1 的向量,通常用于表示向量在空间中的方向,而不是长度(长度为模)。

假设有 n 维向量 a = ( a 1 , a 2 , ⋯   , a n ) a=(a_1,a_2,\cdots,a_n) a=(a1,a2,,an),其单位向量为 1 a 1 2 + a 2 2 + ⋯ + a n 2 ( a 1 , a 2 , ⋯   , a n ) \frac{1}{\sqrt{a_1^2 + a_2^2 + \cdots + a_n^2}}(a_1,a_2,\cdots,a_n) a12+a22++an2 1(a1,a2,,an)向量的内积

向量的内积(Inner Product):也成为点乘、点积,是向量对应位置元素相加再相乘,结果为一个标量

假设有向量 a = ( a 1 , a 2 , ⋯   , a n ) \mathbf{a} =(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) b = ( b 1 , b 2 , ⋯   , b n ) \mathbf{b}=(b_1,b_2,\cdots,b_n) b=(b1,b2,,bn),那么其内积 c \mathbf{c} c 为: c = a ⋅ b = ∑ i = 1 n a i ⋅ b i \begin{aligned} \mathbf{c} &= \mathbf{a} \cdot \mathbf{b}\\ &=\sum_{i=1}^n a_i \cdot b_i \end{aligned} c=ab=i=1naibi向量内积的几何意义:能够表示出两个向量之间的线性相关程度,假设两个向量 a = ( a 1 , a 2 , ⋯   , a n ) \mathbf{a} =(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) b = ( b 1 , b 2 , ⋯   , b n ) \mathbf{b}=(b_1,b_2,\cdots,b_n) b=(b1,b2,,bn),那么其夹角 θ \theta θ 余弦值 cos ⁡ θ \cos \theta cosθ 就为: cos ⁡ θ = a ⋅ b ∥ a ∥ ∥ b ∥ \cos \theta = \frac{\mathbf{a} \cdot \mathbf{b}}{\left \| a \right \| \left \| b \right \|} cosθ=abab cos ⁡ θ = 0 \cos \theta = 0 cosθ=0,表示两个向量空间垂直,即向量无关;当 cos ⁡ θ = 1 \cos \theta = 1 cosθ=1,表示两个向量空间方向相同,即线性高度相关。

向量的外积

外积(Outer Product):也称为向量叉积、叉乘,其计算结果是一个向量,其方向垂直于两个向量组成的平面。

假设有两个向量 a = ( a 1 , a 2 , ⋯   , a n ) \mathbf{a} =(a_1,a_2,\cdots,a_n) a=(a1,a2,,an) b = ( b 1 , b 2 , ⋯   , b n ) \mathbf{b}=(b_1,b_2,\cdots,b_n) b=(b1,b2,,bn),那么向量外积 c \mathbf{c} c 表示为 c = a × b \mathbf{c} = \mathbf{a} \times \mathbf{b} c=a×b,其大小为: ∣ c ∣ = ∣ a ∣ ∣ b ∣ sin ⁡ ( a , b ) \left | c \right | = \left | a \right | \left | b \right | \sin(\mathbf{a}, \mathbf{b}) c=absin(a,b)

矩阵

矩阵是由多个元素组成的表格,是一种二维结构,每个数字在矩阵中对应一个行号与列号。矩阵表示如下: A = [ A 1 , 1 A 1 , 2 ⋯ A 1 , n A 2 , 1 A 2 , 2 ⋯ A 2 , n ⋮ ⋮ ⋮ A m , 1 A m , 2 ⋯ A m , n ] A=\begin{bmatrix} A_{1,1} & A_{1,2}& \cdots& A_{1,n}\\ A_{2,1} & A_{2,2}& \cdots& A_{2,n}\\ \vdots & \vdots& & \vdots \\ A_{m,1} & A_{m,2}& \cdots& A_{m,n}\\ \end{bmatrix} A= A1,1A2,1Am,1A1,2A2,2Am,2A1,nA2,nAm,n 矩阵的转置

矩阵的转置(Transpose)是将矩阵以主对角线为轴,进行镜像翻转, ( A ) m , n T = A n , m (A)^T_{m,n} = A_{n, m} (A)m,nT=An,m

矩阵乘法

假设有矩阵 A m , k A_{m, k} Am,k 和矩阵 B k , n B_{k, n} Bk,n,那么矩阵乘法表示为: C = A ⊗ B = A B    ⇒    C m , n = ∑ k A m , k B k , n C = A \otimes B = AB\ \ \Rightarrow\ \ C_{m, n} = \sum_k A_{m, k} B_{k,n} C=AB=AB    Cm,n=kAm,kBk,n

矩阵乘法能操作的前提是:矩阵 A A A 的列数必须与矩阵 B B B 的行数相同!

矩阵内积

矩阵内积表示将两个矩阵对应元素直接相乘再相加,结果为一个标量 c = ∑ i = 1 m ∑ j = 1 n A i , j B i , j c = \sum_{i=1}^{m} \sum_{j=1}^n A_{i, j} B_{i, j} c=i=1mj=1nAi,jBi,j

矩阵哈达玛积

矩阵的哈达玛积(Hadamard product)表示将两个矩阵对应元素相乘,其结果是一个矩阵 C = A ⊙ B    ⇒    C = [ A 1 , 1 B 1 , 1 A 1 , 2 B 1 , 2 ⋯ A 1 , n B 1 , n A 2 , 1 B 2 , 1 A 2 , 2 B 2 , 2 ⋯ A 2 , n B 2 , n ⋮ ⋮ ⋮ A 4 , 1 B 4 , 1 A 4 , 2 B 4 , 2 ⋯ A 4 , n B 4 , n ] \mathbf{C} = \mathbf{A} \odot \mathbf{B} \ \ \Rightarrow \ \ \mathbf{C} = \begin{bmatrix} A_{1,1}B_{1,1} & A_{1,2}B_{1,2}& \cdots& A_{1,n}B_{1,n}\\ A_{2,1}B_{2,1} & A_{2,2}B_{2,2}& \cdots& A_{2,n}B_{2,n}\\ \vdots &\vdots & &\vdots \\ A_{4,1}B_{4,1} & A_{4,2}B_{4,2}& \cdots& A_{4,n}B_{4,n}\\ \end{bmatrix} C=AB    C= A1,1B1,1A2,1B2,1A4,1B4,1A1,2B1,2A2,2B2,2A4,2B4,2A1,nB1,nA2,nB2,nA4,nB4,n 张量

张量(Tensor)是多维数组的抽象概括,可以看作是向量和矩阵的扩展,这也是 Pytorch 中最基本的数据结构。

二、微积分

梯度

梯度是一个包含所有偏导数的向量,用符号 ∇ \nabla 表示。

比如有函数 z = f ( x , y ) = x 2 + y 2 z = f(x,y) = x^2 + y^2 z=f(x,y)=x2+y2,其梯度向量为: ∇ f ( x , y ) = ( 2 x , 2 y ) \nabla f(x,y) = (2x, 2y) f(x,y)=(2x,2y)

在梯度下降算法中,参数的更新公式为: θ t + 1 = θ t − η ∇ θ J ( θ t ) \theta_{t+1} = \theta_t - \eta \nabla_{\theta}J(\theta_t) θt+1=θtηθJ(θt)

方向导数与梯度的关系,方向导数表示某一个点处沿各个方向的斜率,是一个标量。而梯度是一个向量,其方向上的方向导数最大,其大小正好是此最大方向导数。

三、概率

贝叶斯定理

贝叶斯定理公式: P ( A   ∣   B ) = P ( A ) P ( B   ∣   A ) P ( B ) P(A \ | \ B) = P(A)\frac{P(B\ | \ A)}{P(B)} P(A  B)=P(A)P(B)P(B  A)

英国数学家托马斯·贝叶斯(Thomas Bayes)在 1763 年发表的一篇论文中,首先提出了该定理。

该论文表示贝叶斯为了解决一个 ”逆概率” 问题,而提出了贝叶斯定理。在贝叶斯写这篇论文前,人们已经能够计算 “正向概率” 问题了。

正向概率问题就比如从箱子中摸球的问题,假设箱子中有 2 个白球、2 个黑球,你从箱子中摸一次且只拿一个球,那么抽到白球的概率是多少?这种从 已知信息 到 未知信息 的问题就是正概率问题。

逆概率问题就比如上面摸球问题,在之前并不知道箱子里面有什么颜色的球,而是摸出一个球,观察这个球的颜色,进而预测这个箱子里面有什么颜色的球,这种从 未知信息 到已知信息 的问题就是逆概率问题。

在平时生活中,大部分问题都是 “逆概率” 问题。因为绝大多数决策面临的信息都是不完整的,我们手中只有有限的信息。既然无法得到完整的信息,就只能在有限信息的条件下,尽可能做出一个好的预测。

而对于贝叶斯公式可以这么理解,比如一个例子:我喜欢吃冰淇淋,然后偶然在抖音上刷到有人推荐肯德基的冰淇淋很好吃,那么现在我想知道肯德基的冰淇淋到底好不好吃。

那么现在有:

  • 要求解的问题(未知信息):肯德基的冰淇淋是否好吃,记为事件 A;
  • 已知条件:抖音上有人推荐肯德基的冰淇淋好吃,记为事件 B;

所以 P ( A   ∣   B ) P(A \ | \ B) P(A  B) 就表示在抖音上有人推荐肯德基的冰淇淋好吃的事件发生后,肯德基的冰淇淋好吃的概率。那么有贝叶斯公式: P ( A   ∣   B ) = P ( A ) P ( B   ∣   A ) P ( B ) P(A \ | \ B) = P(A)\frac{P(B\ | \ A)}{P(B)} P(A  B)=P(A)P(B)P(B  A)对公式可以这样看:

  • P ( A   ∣   B ) P(A \ | \ B) P(A  B):后验概率
  • P ( A ) P(A) P(A):先验概率(Prior Probability),表示在不知道事件 B 的前提之下,我们认为对事件 A 的一个主观判断。
  • P ( B   ∣   A ) P ( B ) \frac{P(B\ | \ A)}{P(B)} P(B)P(B  A):可能性函数(Likelyhood),它是一个调整因子,即为新信息 B 带来的调整,其作用是将先验概率(之前做的主观判断)调整到更接近真是的概率。
    • P ( B   ∣   A ) P ( B ) > 1 \frac{P(B\ | \ A)}{P(B)} > 1 P(B)P(B  A)>1 表示先验概率被增强,事件 A 发生的概率变大;
    • P ( B   ∣   A ) P ( B ) < 1 \frac{P(B\ | \ A)}{P(B)} < 1 P(B)P(B  A)<1 表示先验概率被削弱,事件 A 发生的概率变小;
    • P ( B   ∣   A ) P ( B ) = 1 \frac{P(B\ | \ A)}{P(B)} = 1 P(B)P(B  A)=1 表示事件 B 无助于判断事件 A 的可能性。

极大似然估计

概率:在特定环境下某件事情发生的可能性,即在结果没有产生之前,根据环境中的参数,来预测某件事情发生的概率。比如抛硬币,在没有抛之前,我们并不知道结果会是硬币的那一面朝上。但是根据硬币的性质,可以推测得出任何一面朝上的概率都是 0.5。而这里的概率 0.5,只有在抛硬币之前是有意义的。因为硬币抛完了之后,结果就确定了。

似然:基于已经确定的结果,来推测产生这个结果的可能环境,或者说是推测环境中的某些参数。比如抛硬币,假设随机抛出硬币 10000 次,结果 8000 次人像在上,2000 次数字在上,就可以推测出该硬币可能比较特殊,进而可得该硬币的具体参数,即人像的概率为 0.8,数字的概率为 0.2。这种根据结果判断事情本身性质的过程就是似然。

假设 θ \theta θ 表示环境对应的参数,而 x x x 表示事件发生的结果,就有

  • 概率表示为 P ( x   ∣   θ ) P(x\ | \ \theta) P(x  θ),在环境参数为 θ \theta θ 的前提下,事件 x x x 发生的概率,其中 P P P 是关于 x x x 的函数。
  • 似然表示为 L ( θ   ∣   x ) L(\theta \ | \ x) L(θ  x),在已知观察结果为 x x x 的前提下,来推断 θ \theta θ,其中 L L L 是关于 θ \theta θ 的函数。

极大似然估计(Maximum Likelihood Estimate):也称为最大似然估计,利用已知的样本标记结果,反推最具有可能,或者说是最大概率导致这些样本结果出现的模型参数。极大似然估计是一种已知观察数据来推断模型参数的过程。

利用抛硬币的例子,假设 P ( 人像朝上 ) = θ P(人像朝上) = \theta P(人像朝上)=θ P ( 数字朝上 ) = 1 − θ P(数字朝上) = 1-\theta P(数字朝上)=1θ θ \theta θ 存在但是具体未知。

为了获取 θ \theta θ,进行抛硬币实验并记录抛出的结果序列。假设在这个序列中,有 7 次是人像朝上,3 次是数字朝上,那么就有 θ \theta θ 的似然函数 L ( θ ) = θ 7 ( 1 − θ ) 3 L(\theta) = \theta^7 (1-\theta)^3 L(θ)=θ7(1θ)3其函数图像如下:

最大似然估计就是求解当 θ \theta θ 取值为多少的时候,似然函数 L ( θ ) L(\theta) L(θ) 取得最大值,即 10 次实验最可能发生 7 次是人像朝上,3 次是数字朝上。

为了获取更准确的参数,可以增加试验次数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/556389.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

通过Python的PyPDF2库提取pdf中的图片

文章目录 前言一、PyPDF2库是什么&#xff1f;二、安装PyPDF2库三、查看PyPDF2库版本四、使用方法待提取的pdf截图1.引入库2.定义pdf路径3.打开PDF文件4.创建PDF阅读器对象5.获取PDF文件中的页数6.遍历每一页进行处理7.提取出来的图片 总结 前言 大家好&#xff0c;我是空空sta…

【Linux初阶】进程程序替换 | 初识、原理、函数、应用 makefile工具的多文件编译

&#x1f31f;hello&#xff0c;各位读者大大们你们好呀&#x1f31f; &#x1f36d;&#x1f36d;系列专栏&#xff1a;【Linux初阶】 ✒️✒️本篇内容&#xff1a;替换初识&#xff0c;替换原理&#xff0c;替换函数理解和使用&#xff0c;makefile工具的多文件编译&#xf…

C++(4):表达式

表达式由一个或多个运算对象(operand)组成,对表达式求值将得到一个结果(result&#xff09;。字面值和变量是最简单的表达式&#xff08;expression)&#xff0c;其结果就是字面值和变量的值。把一个运算符&#xff08;operator)和一个或多个运算对象组合起来可以生成较复杂的表…

倒挂的解决方案你现在是一位计算机专家,来聊一聊:“美国的火星探测器Mars Path-finder 就是因为优先级倒挂而出现故障的故事”

目录 倒挂的解决方案 你现在是一位计算机专家&#xff0c;来聊一聊&#xff1a;“美国的火星探测器Mars Path-finder 就是因为优先级倒挂而出现故障的故事” ●使用中断禁止 具体证明请参阅Liu和Kayland于1973年发表的论文。 ● 因时序或外部中断或进程挂起而导致操作系统获…

数据结构-关键路径-理论

1.AOE-网 与AOV-网相对应的是AOE-网&#xff08;Activity On Netword&#xff09;&#xff0c;即以边表示活动的网。AOE-网是带权的有向无环图&#xff0c;其中&#xff0c;定点表示时间&#xff0c;弧表示活动&#xff0c;权表示活动持续的时间。通常AOE-网可用来估算工程的完…

Base64字符串从前台传到后台以后,“+”加号消失

记录一下问题&#xff1a; 使用 encodeURI(str) 对字符串进行加密的时候&#xff0c;后端解密会丢失 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta http-equiv"X-UA-Compatible" content&…

第一章.机器学习的基础概念

第一章.机器学习的基础概念 1.1 机器学习的基础概念 1.机器学的概念&#xff1a; 机器学习就是机器从数据中总结经验。从数据中找出某种规律或者模型&#xff0c;并用他来解决某种实际问题。 2.机器学习的应用场景 1).事物本身存在某种潜在规律 2).某些问题难以使用普通编程…

two-stage目标检测算法

R-CNN 现在&#xff0c;将目光穿越回2012年&#xff0c;hinton刚刚提出alexnet的时代。 此时&#xff0c;该如何审视目标检测任务&#xff1f; 当时的目标检测采用的是滑动窗口手动特征分类器的思路。 该方法的弱点包括 速度慢 精度差 精度差的问题是由手工特征造成的&am…

【VS安装记录】Visual Studio 2022安装教程(超详细)

大家好&#xff0c;我是雷工&#xff01; 由于更换了电脑&#xff0c;很多软件需要重新安装&#xff0c;为了方便学习C#&#xff0c;今天有时间安装下Visual Studio 2022&#xff0c;顺便记录安装过程。 1、从官网下载并解压软件压缩包&#xff0c;然后打开文件夹。 2、双击…

切比雪夫不等式,大数定律及极限定理。

一.切比雪夫不等式 1.定理 若随机变量X的期望EX和方差DX存在,则对任意ε > 0,有   P{ |X - EX| > ε } < DX/ε2 或 P{ |X - EX| < ε } > 1 - DX/ε2 2.解析定理 ①该定理对 X 服从什么分布不做要求&#xff0c;仅EX DX存在即可。 ②“| |” 由于X某次…

linux kernel pwn 基础知识

基础知识 内核概述 内核架构 通常来说我们可以把内核架构分为两种&#xff1a;宏内核和微内核&#xff0c;现在还有一种内核是混合了宏内核与微内核的特性&#xff0c;称为混合内核。 宏内核&#xff08;Monolithic kernel&#xff09;&#xff0c;也译为集成式内核、单体…

网络原理——基础概念(端口号、分层、封装和复用)、各层协议(TCP/IP协议)(详细图解)

目录 一、基础概念 1、 IP地址 &#xff08;1&#xff09;点分十进制 2、端口号 3、协议 &#xff08;1&#xff09;协议的 组成部分 &#xff08;2&#xff09; 协议的 作用 4、五元组 5、协议分层 &#xff08;1&#xff09;分层的 好处 &#xff08;2&#xff0…

Overleaf中Latex问题——控制文本分两列显示(分栏布局)

文章目录 需求描述相关介绍实现代码实现效果参考和总结 需求描述 要写论文&#xff0c;需要分两列进行显示文本。但是默认都是单列展示&#xff0c;并且自动换行。 需要实现一下的效果 相关介绍 在$LaTeX 中&#xff0c;你可以使用 中&#xff0c;你可以使用 中&#xff0c…

Tokenview上线BRC-20浏览器,支持Ordinals API数据服务

5月20日&#xff0c;Tokenview团队宣布正式推出BRC-20代币浏览器&#xff0c;同时支持BTC Ordinals API数据服务。作为通用多链区块链浏览器&#xff0c;Tokenview以最快的速度推出了BRC-20浏览器&#xff0c;Ordinals API旨在为所有面向比特币的普通用户和开发者提供数据支持&…

追寻篮球梦想 点燃希望之光 2023年海彼特全国幼儿篮球联赛·总决赛圆满落幕

5月21日&#xff0c;由北京海彼特教育科技院主办的“2023年海彼特全国幼儿篮球联赛总决赛”。在河北体育馆隆重举行&#xff0c;精彩的比赛效果使体育馆顿时成为幼儿篮球界最高端、大气的舞台。 本次盛会联合举办方有&#xff1a; 河北体育馆 亚洲少儿体育协会 北京海彼特文…

组件123456789

前言&#xff1a;相信看到这篇文章的小伙伴都或多或少有一些编程基础&#xff0c;懂得一些linux的基本命令了吧&#xff0c;本篇文章将带领大家服务器如何部署一个使用django框架开发的一个网站进行云服务器端的部署。 文章使用到的的工具 Python&#xff1a;一种编程语言&…

G企孵化-千趣生活项目,10年互联网经验专业策划商业模式

G企孵化-千趣生活项目&#xff0c;10年互联网经验专业策划商业模式 背景&#xff1a;现在许许多多的项目&#xff0c;首先对外呼吁的口号就是“上市”但真正能做到上市的企业&#xff0c;确实没有几个&#xff0c;10年互联网经验的微三云胡佳东&#xff0c;给大家详细聊聊&…

【卡尔曼滤波的学习,以及一些理解】

卡尔曼滤波的一些理解 优秀的博客推荐直观理解卡尔曼滤波核心算法举个例子 最近两个多月在实习&#xff0c;做的是GPS定位相关的一些工作&#xff0c;同时也简单做了一下组合导航。卡尔曼滤波是组合不同传感器比较核心的算法&#xff0c;应用也比较广泛&#xff0c;也有很多文章…

电子数据保全及数据恢复

目录 一.创建虚拟磁盘 系统操作 1.创建虚拟磁盘文件 2.完成低级格式化——分区——高级格式化 3.虚拟磁盘创建完成 用winhex做 2. 镜像&#xff1a; 克隆&#xff1a; 计算分区的hash值&#xff1a; 二.FAT32文件系统 1.认识FAT32文件系统 三.NTFS文件系统 认识NTFS文…

数字信号处理5

好长时间没有更新了&#xff0c;一是这段时间事情比较多&#xff0c;另外一个&#xff0c;我觉得抄书其实意义不大&#xff0c;不如先看书&#xff0c;一个章节看完之后&#xff0c;再写&#xff0c;那样子的话&#xff0c;会效果更好一些&#xff0c;所以我就花了一段时间去把…