神经网络复习--数学相关基础知识

news2024/11/27 5:24:16

文章目录

  • 矩阵
  • 范数
  • 卷积
  • 激活函数
  • 信息熵

矩阵

  • 标量:一个标量就是一个单独的数
  • 向量:一个向量是一列数。这些数是有序排列的。通过次序中的索引,我们可以确定每个单独的数
  • 矩阵:矩阵是一个二维数组,其中的每个元素被两个索引所确定
  • 张量:一般地,一个数组中的元素分布在若干维的规则网格中,我们称之为张量。一般在卷积神经网络中应用

矩阵运算的性质:

  1. 服从分配率
  2. 服从结合律,不服从交换率
  3. 向量的点积服从交换率 x T y = y T x x^Ty = y^Tx xTy=yTx
  4. 矩阵转置的性质 ( A + B ) T = A T + B T , ( A B ) T = B T A T (A + B)^T = A^T + B^T, (AB)^T = B^T A^T (A+B)T=AT+BT,(AB)T=BTAT

范数

∣ ∣ x ∣ ∣ p = ( ∑ i ∣ x i ∣ p ) 1 p ||x||_p = (\sum_i{|x_i|^p})^{\frac{1}{p}} ∣∣xp=(ixip)p1
范数( L p L^p Lp)是将向量映射到非负值的函数。直观上来说,向量x的范数衡量从原点到点x的距离。
范数满足的性质:

  • f ( x ) = 0 ⇒ x = 0 f(x) = 0 \Rightarrow x = 0 f(x)=0x=0
  • f ( x + y ) ≤ f ( x ) + f ( y ) ( 三角不等式 ) f(x + y) \leq f(x) + f(y) (三角不等式) f(x+y)f(x)+f(y)(三角不等式)
  • ∀ α ∈ R , f ( α x ) = ∣ α ∣ f ( x ) \forall \alpha \in R, f(\alpha x) = |\alpha| f(x) αR,f(αx)=αf(x)

二范数
通常情况下,不进行开平方操作,这样可能产生误差,且较为麻烦
计算一个向量的平方范数用简单的方式就是通过点积的方式 x T x x^Tx xTx

一范数
通常情况下靠近原点时,平方范数的变化趋势不大,难以区分,而区分是零的元素和非零但值很小的元素是很重要的。在这些情况下,我们转而使用在各个位置斜率相同,同时保持简单的数学形式的范数 L 1 L^1 L1范数 ∣ ∣ x ∣ ∣ 1 = ∑ i ∣ x i ∣ ||x||_1 = \sum_i |x_i| ∣∣x1=ixi

最大范数
L ∞ L^{\infty} L,这个范数表示向量中具有最大幅值的元素的绝对值 ∣ ∣ x ∣ ∣ ∞ = max ⁡ i ∣ x i ∣ ||x||_{\infty} = \max \limits_{i}|x^i| ∣∣x=imaxxi

零范数
L 0 L^0 L0, 表示向量中非零元素的个数

例:
在这里插入图片描述

卷积

卷积的含义为:系统在 t t t 时刻的输出,不仅与系统在 t t t 时刻的输入有关,还与它在 t t t 时刻之前的输入有关,并且不同时刻的输入,有不同的权重。所以,卷积本质上做的事情是:不同时刻的输入的权重求和。权重是一个关于时间 t t t 的连续函数。

所谓两个函数的卷积,本质上就是现将一个函数翻转,然后进行滑动叠加
( f ∗ g ) ( n ) = ∫ − ∞ ∞ f ( t ) ∗ g ( n − t ) d t (f*g)(n) = \int_{-\infty}^{\infty} f(t) * g(n -t)dt (fg)(n)=f(t)g(nt)dt
( f ∗ g ) ( n ) = ∑ − ∞ ∞ f ( t ) ∗ g ( n − t ) d t (f*g)(n) = \sum_{-\infty}^{\infty} f(t) * g(n -t)dt (fg)(n)=f(t)g(nt)dt
先对g函数进行左右翻转,这就是卷积的由来,然后再把g函数向右平移n,在这个位置两个函数相乘,然后相加,这个过程就是卷积的过程

s ( t ) = ∫ x ( a ) w ( t − a ) d a s(t) = \int x(a) w(t - a) da s(t)=x(a)w(ta)da
这种运算就叫做卷积。卷积运算通常用星号表示: s ( t ) = ( x ∗ w ) ( t ) s(t) = (x * w) (t) s(t)=(xw)(t)

在卷积网络的术语中,卷积的第一个参数(x)通常叫做输入(input),第二个参数(w)叫做核函数(kernel),输出有时被称作特征映射(feature map)

图像中的卷积
将卷积概念映射到2D图像上:对于2D图像来说,某个位置的输出,不仅与该位置的输入有关,还与此位置周边位置的输入有关,不同位置的输入,具有不同的权重(权重值不宜过大)。由于位置坐标是固定的有限个值,所以权重是一个关于位置的离散函数。
s ( t ) = ( x ∗ w ) ( t ) = ∑ a = − ∞ ∞ x ( a ) w ( t − a ) s(t) = (x*w)(t) = \sum^{\infty}_{a = -\infty} x(a) w(t - a) s(t)=(xw)(t)=a=x(a)w(ta)

因为位置输入是二元输入:
图像中的卷积:
S ( i , j ) = ( I ∗ K ) ( i , j ) = ∑ m ∑ n I ( m , n ) K ( i − m , j − n ) S(i, j) = (I * K ) (i, j) = \sum_m \sum_n I(m, n) K(i - m, j - n) S(i,j)=(IK)(i,j)=mnI(m,n)K(im,jn)
神经网络是互相关的,因此不进行核函数的翻转
S ( i , j ) = ( I ∗ K ) ( i , j ) = ∑ m ∑ n I ( i + m , j + n ) K ( m , j ) S(i, j) = (I * K)(i, j) = \sum_m \sum_n I(i + m, j + n) K (m, j) S(i,j)=(IK)(i,j)=mnI(i+m,j+n)K(m,j)

激活函数

激活函数是来向神经网络中引入非线性因素的,通过激活函数,神经网络就可以拟合各种曲线

  • sigmoid函数
    也称逻辑激活函数,最常用于二分类问题。它有梯度消失问题。在一定epoch数目之后,网络拒绝学习,或非常缓慢学习,因为输入导致输出的变化很小。
    在这里插入图片描述
    在这里插入图片描述

  • tanh函数
    双曲正切函数在这里插入图片描述 导数: T a n h ′ ( x ) = 1 − T a n h 2 ( x ) Tanh'(x) = 1 - Tanh^2(x) Tanh(x)=1Tanh2(x)在这里插入图片描述

  • ReLU函数

在这里插入图片描述

在这里插入图片描述

  • Softmax函数
    σ ( x ) j = e x j ∑ k = 1 K e x k , j = 1 , . . . K \sigma(x)_j = \frac{e^{x_j}}{\sum \limits_{k = 1}^{K} e^{x_k}}, j = 1,...K σ(x)j=k=1Kexkexj,j=1,...K
    该函数的输出等价于类概率分布,输出的和为1。类似于Sigmoid函数,把输出压缩在0和1之间, 所有的概率和为1

信息熵

将热力学中的熵引入信息论,假设有两个不相关的事件X和Y,观察两个事件同时发生时获得的信息量应该等于观察到两个事件各自发生时获得的信息之和: I ( x , y ) = I ( x ) + I ( y ) I(x, y) = I(x) + I(y) I(x,y)=I(x)+I(y)
由于两个事件是独立不相关的,因此P(x, y) = P(x)P(y),定义事件的自信息量为 I ( x i ) = − l o g p ( x i ) I(x_i) = - log p(x_i) I(xi)=logp(xi)
进一步,对于事件X有n中可能性,每一种可能性都有一个概率p(x_i), 因此就可以计算出每一种可能性的信息量。而熵就是用来表示所有信息量的期望,即:
H ( X ) = − ∑ i = 1 n p ( x i ) log ⁡ p ( x i ) H(X) = -\sum^n_{i = 1}p(x_i) \log{p(x_i)} H(X)=i=1np(xi)logp(xi)

因此 H ( x ) H(x) H(x)就被成为随机变量X的熵,它是表示随机变量不确定性的度量,是对所有可能发生的事件产生的信息量的期望

当随机变量的取值个数越多,状态数就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大。
熵越少确定性就越强,所以对于我们判断来说,我们希望熵越小越好

将一维随机变量分布推广到多维随机变量分布,则其联合熵(Joint entropy)为
H ( X , Y ) = − ∑ i = 1 n ∑ j = 1 m p ( x i , y j ) log ⁡ p ( x i , y j ) H(X, Y) = - \sum_{i = 1}^{n} \sum_{j = 1}^m {p(x_i, y_j) \log{p(x_i, y_j)}} H(X,Y)=i=1nj=1mp(xi,yj)logp(xi,yj)

条件熵 H ( Y ∣ X ) H(Y | X) H(YX) 表示在已知随机变量X的条件下随机变量Y的不确定性。条件熵定义为X给定条件下Y的条件概率分布的熵对X的数学期望:
H ( Y ∣ X ) = ∑ x p ( x ) H ( Y ∣ X = x ) = − ∑ x , y p ( x , y ) l o g ( y ∣ x ) H(Y | X) = \sum_x p(x) H(Y | X = x) = - \sum_{x, y} p(x, y) log(y|x) H(YX)=xp(x)H(YX=x)=x,yp(x,y)log(yx)
条件熵 H ( Y ∣ X ) H(Y | X) H(YX) 等于联合熵 H ( X , Y ) H(X, Y) H(X,Y) 减去单独的熵 H ( X ) H(X) H(X)
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) H(Y | X) = H(X, Y) - H(X) H(YX)=H(X,Y)H(X)

相对熵
相对熵,又称KL散度,是描述两个概率分布P 和Q差异的一种方法。

P ( X ) P(X) P(X) Q ( X ) Q(X) Q(X)是X取值的两个离散概率分布,则P对Q的相对熵为
D ( P ∣ ∣ Q ) = ∑ P ( x ) log ⁡ P ( x ) Q ( x ) D(P || Q) = \sum P(x) \log \frac{P(x)}{Q(x)} D(P∣∣Q)=P(x)logQ(x)P(x)
相对熵具有两个主要的性质:

  1. 不对称性:尽管KL散度从直观上是个度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,即 D ( P ∣ ∣ Q ) ≠ D ( Q ∣ ∣ P ) D(P || Q) \neq D(Q||P) D(P∣∣Q)=D(Q∣∣P)
  2. 非负性:相对熵的值为非负值,即 D ( P ∣ ∣ Q ) ≥ 0 D(P || Q) \geq 0 D(P∣∣Q)0

交叉熵
在实际对分类问题中的损失函数一般选用的是交叉熵,它主要用于度量两个概率分布间的差异性信息

假设现在有一个样本集中两个概率分布P和Q,其中P表示真实分布,Q表示非真实分布。假如,按照真实分布P来衡量识别一个样本所需要的编码长度的期望为:
H ( P ) = − ∑ i P ( i ) log ⁡ P ( i ) H(P) = - \sum_i P(i) \log{P(i)} H(P)=iP(i)logP(i)
但是,如果采用错误的分布Q来表示真实分布P的平均编码长度,则应该是
H ( P , Q ) = − ∑ i P ( i ) log ⁡ Q ( i ) H(P, Q) = - \sum_i P(i) \log{Q(i)} H(P,Q)=iP(i)logQ(i)
此时就将H(P, Q)称之为交叉熵

交叉熵和KL散度是机器学习中极其常用的两个指标,用来衡量两个概率分布的相似度,常被作为Loss Function

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1671218.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年上半年信息系统项目管理师——综合知识真题与答案解释(4)

2023年上半年信息系统项目管理师 ——综合知识真题与答案解释(4) 61、文档的规范化管理主要体现在()方面。 ①文档书写规范 ②文档质量级别 ③图表编号规则 ④文档目录编写标准 ⑤文档管理制度 ⑥文档安全标准 A.①②③④ B.②③…

STM32使用ESP01S连接阿里云物联网平台

一、ESP01S烧录MQTT固件准备 首先准备好烧录工具,可以从官网上进行下载。 MQTT固件官网网址:AT固件汇总 | 安信可科技 (ai-thinker.com) 进去后如下图界面,向下翻找找到MQTT固件(1471)下载固件即可。 烧录工具光网地…

信号和槽基本概念

🐌博主主页:🐌​倔强的大蜗牛🐌​ 📚专栏分类:QT❤️感谢大家点赞👍收藏⭐评论✍️ 目录 一、概述 二、信号的本质 三、槽的本质 一、概述 在 Qt 中,用户和控件的每次交互过程称…

服务器端口怎么开,服务器端口的开放通常涉及的五个关键步骤

服务器端口的开放通常涉及五个关键步骤,包括修改防火墙规则、配置服务器软件以及验证端口是否开放。下面将详细介绍每个步骤。 一、您需要确定需要开放的端口。常见的服务器应用程序端口包括HTTP(80端口)、HTTPS(443端口&#xff…

掌握这个Jenkins插件,离测试开发又近一步!

Jenkins Pipeline是一种可编程的、可扩展的持续交付管道,允许您使用脚本来定义整个软件交付过程。 以下是使用Jenkins Pipeline创建和配置流水线的基本步骤。 Part 01. 创建一个Pipeline Job 在Jenkins中创建一个新的"Pipeline"类型的Job。 以下是在J…

李开复引领的零一万物开源了Yi-1.5模型,推出了6B、9B、34B三个不同规模的版本

零一万物,由李开复博士引领的AI 2.0公司,近期开源了其备受瞩目的Yi-1.5模型,这一举措再次彰显了公司在人工智能领域的创新实力与开放精神。Yi-1.5模型作为零一万物的重要技术成果,不仅代表了公司在大模型技术研发上的新高度&#…

下载npm I就包错解决方案

npm i xxxx -S --legacy-peer-deps 如果包错就执行以上命令

聚类分析 | 基于GA遗传算法优化kmeans聚类(Matlab)

聚类分析 | 基于GA遗传算法优化kmeans聚类(Matlab) 目录 聚类分析 | 基于GA遗传算法优化kmeans聚类(Matlab)效果一览基本介绍程序设计参考资料 效果一览 基本介绍 GA-kmeans聚类算法,通过GA遗传算法优化kmeans聚类&…

权力集中,效率提升,中心化模式的优势与挑战

​🌈 个人主页:danci_ 🔥 系列专栏:《设计模式》 💪🏻 制定明确可量化的目标,坚持默默的做事。 🚀 转载自热榜文章🔥:探索设计模式的魅力:权力集中…

电子杂志制作攻略,轻松打造高质量数字出版物

随着数字科技的飞速发展,电子杂志作为一种新型的数字出版物,已经越来越受到人们的青睐。它不仅具有丰富的内容、多样的形式,还具有便捷的传播和阅读方式。如今,电子杂志已经逐渐成为企业、媒体和个人展示自身品牌、传播信息的重要…

AI 图像生成-环境配置

一、python环境安装 Windows安装Python(图解) 二、CUDA安装 CUDA安装教程(超详细)-CSDN博客 三、Git安装 git安装教程(详细版本)-CSDN博客 四、启动器安装 这里安装的是秋叶aaaki的安装包 【AI绘画…

自媒体从0-1起号全流程落地指南。(含工具)

下面开始进入主题: 一、持续涨粉的技巧 持续账号的账号通常是具备以下的几种特征 ①利他性:利他性的核心在于你向用户提供了什么? 可以透过逆向思维来体现,首先要明确目标人群及其需求,然后根据这些需求提供必要的…

日本站群服务器的优点以及适合该服务器的业务类型?

日本站群服务器的优点以及适合该服务器的业务类型? 日本站群服务器是指位于日本地区的多个网站共享同一台服务器的架构。这种服务器架构有着诸多优点,使其成为许多企业和网站管理员的首选。以下是日本站群服务器的优点以及适合该服务器的业务类型的分析&#xff1…

Day26 代码随想录打卡|栈与队列篇---有效的括号

题目(leecode T20): 给定一个只包括 (,),{,},[,] 的字符串 s ,判断字符串是否有效。 有效字符串需满足: 左括号必须用相同类型的右括号闭合。左括号必须以…

Ubuntu系统搭建Tipask开源问答系统并发布公网分享好友远程访问

文章目录 1. 前言2.Tipask网站搭建2.1 Tipask网站下载和安装2.2 Tipask网页测试2.3 cpolar的安装和注册 3. 本地网页发布3.1 Cpolar临时数据隧道3.2 Cpolar稳定隧道(云端设置)3.3 Cpolar稳定隧道(本地设置) 4. 公网访问测试5. 结语…

论文阅读记录--关于水文系统的传递函数

文章目录 J-schuite的文章,地下水系统的响应的功率谱分析--传递函数1. 什么是冲激响应函数与传递函数?2. 地下水流系统中传递函数的求解3. J-schuite文章中传递函数的复现J-schuite的文章,地下水系统的响应的功率谱分析–传递函数 1. 什么是冲激响应函数与传递函数? 在信号…

Java进阶10 IO流

Java进阶10 IO流 IO流就是数据传输。I为input的缩写,表示输入读取;O为out的缩写,表示输出写出。 一、IO流体系结构 ♥巧记区分tips:以Stream结尾的是字节流;以Reader、Writer结尾的都是字符流 二、字节输出流FileOu…

【Flutter】极光推送配置流程(VIVO/OPPO/荣耀厂商通道) 章三

前言 很高兴大家来看小编写的文章~~ 继【Flutter】极光推送配置流程(极光通道/华为厂商/IOS) 章一 继【Flutter】极光推送配置流程(小米厂商通道) 章二 接下配置VIVO/OPPO/华为荣耀的厂商通道 所有截图来源于公司项目,所以会有大量马赛克&am…

【Linux 系统】多线程(生产者消费者模型、线程池、STL+智能指针与线程安全、读者写者问题)-- 详解

一、生产者消费者模型(重点) 如图,在生活中,学生就是消费者角色,工厂是真正的生产者角色,那么超市是什么呢?为什么需要超市?超市是交易场所。我们的家附近不一定有工厂,而…

子元素水平垂直都居中的实现

在网页布局中,如何实现子元素在水平方向和垂直方向居中,如图所示: 我知道的有这样的两种方式: 1.使用弹性布局实现 2.使用定位和平移实现 另外还有以下两种常用情况 3.窗口在整个屏幕水平垂直居中,还可以使用绝对定位…