十种处理权重矩阵的方法及数学公式

news2025/3/13 13:49:00

1. 权重归一化(Weight Normalization)

  • 目的:通过分离权重向量的范数和方向来加速训练。
  • 公式:对于权重向量 w \mathbf{w} w,归一化后的权重 w ′ \mathbf{w}' w 为:

w ′ = w ∥ w ∥ \mathbf{w}' = \frac{\mathbf{w}}{\|\mathbf{w}\|} w=ww

其中 ∥ w ∥ \|\mathbf{w}\| w w \mathbf{w} w 的欧几里得范数。

2. 谱归一化(Spectral Normalization)

  • 目的:通过控制权重矩阵的谱范数,稳定生成对抗网络(GANs)的训练。
  • 公式:对于权重矩阵 W W W,谱归一化后的矩阵 W ′ W' W 为:

W ′ = W σ ( W ) W' = \frac{W}{\sigma(W)} W=σ(W)W

其中 σ ( W ) \sigma(W) σ(W) W W W 的谱范数,即最大奇异值。

3. 权重衰减(Weight Decay)

  • 目的:通过正则化防止过拟合。
  • 公式:权重更新时加入正则化项:

w ← w − η ( ∂ L ∂ w + λ w ) \mathbf{w} \leftarrow \mathbf{w} - \eta \left( \frac{\partial L}{\partial \mathbf{w}} + \lambda \mathbf{w} \right) wwη(wL+λw)

其中 η \eta η 是学习率, L L L 是损失函数, λ \lambda λ 是正则化参数。

4. 权重剪裁(Weight Clipping)

  • 目的:限制权重范围以稳定训练。
  • 公式:对于权重 w w w,剪裁后的权重 w ′ w' w 为:

w ′ = { c if  w > c − c if  w < − c w otherwise w' = \begin{cases} c & \text{if } w > c \\ -c & \text{if } w < -c \\ w & \text{otherwise} \end{cases} w= ccwif w>cif w<cotherwise

其中 c c c 是预定义阈值。

5. 权重共享(Weight Sharing)

  • 目的:减少参数数量,提高泛化能力,常用于卷积神经网络(CNNs)。
  • 公式:在CNN中,同一卷积核的权重在输入上共享,具体实现依赖卷积操作。

6. 权重初始化(Weight Initialization)

  • 目的:合理初始化权重以加速训练并避免梯度问题。
  • 公式
    • Xavier初始化

W ∼ N ( 0 , 2 n in + n out ) W \sim \mathcal{N}\left(0, \frac{2}{n_{\text{in}} + n_{\text{out}}}\right) WN(0,nin+nout2)

  • He初始化

W ∼ N ( 0 , 2 n in ) W \sim \mathcal{N}\left(0, \frac{2}{n_{\text{in}}}\right) WN(0,nin2)

其中 $n_{\text{in}}$ 和 $n_{\text{out}}$ 分别是输入和输出单元数。

7. 批归一化(Batch Normalization)

  • 目的:归一化层的输入以加速训练并提高稳定性。
  • 公式:对于小批量 B = { x 1 , … , x m } \mathcal{B} = \{x_1, \ldots, x_m\} B={x1,,xm},输出为:

x ^ i = x i − μ B σ B 2 + ϵ \hat{x}_i = \frac{x_i - \mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^2 + \epsilon}} x^i=σB2+ϵ xiμB

其中 μ B \mu_{\mathcal{B}} μB σ B 2 \sigma_{\mathcal{B}}^2 σB2 是小批量的均值和方差, ϵ \epsilon ϵ 避免除零。

8. 层归一化(Layer Normalization)

  • 目的:对每个样本的特征归一化,适用于RNNs等。
  • 公式:对于特征向量 x \mathbf{x} x,输出为:

x ^ = x − μ σ 2 + ϵ \hat{\mathbf{x}} = \frac{\mathbf{x} - \mu}{\sqrt{\sigma^2 + \epsilon}} x^=σ2+ϵ xμ

其中 μ \mu μ σ 2 \sigma^2 σ2 x \mathbf{x} x 的均值和方差。

9. 权重量化(Weight Quantization)

  • 目的:将权重转为低精度表示以减少模型大小和加速推理。
  • 公式:简单量化方法为:

w q = round ( w − w min w max − w min × ( 2 b − 1 ) ) × w max − w min 2 b − 1 + w min w_q = \text{round}\left(\frac{w - w_{\text{min}}}{w_{\text{max}} - w_{\text{min}}} \times (2^b - 1)\right) \times \frac{w_{\text{max}} - w_{\text{min}}}{2^b - 1} + w_{\text{min}} wq=round(wmaxwminwwmin×(2b1))×2b1wmaxwmin+wmin

其中 b b b 是位数, w min w_{\text{min}} wmin w max w_{\text{max}} wmax 是权重范围。

10. 稀疏化(Sparsification)

  • 目的:将部分权重设为零以减少参数量。
  • 公式:使用阈值 τ \tau τ

w ′ = { w if  ∣ w ∣ ≥ τ 0 otherwise w' = \begin{cases} w & \text{if } |w| \geq \tau \\ 0 & \text{otherwise} \end{cases} w={w0if wτotherwise

这些方法在深度学习中应用广泛,选择时需考虑模型架构、数据特性和资源限制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2314336.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JVM垃圾回收面试题及原理

1. 对象什么时候可以被垃圾器回收 如果一个或多个对象没有任何的引用指向它了&#xff0c;那么这个对象现在就是垃圾&#xff0c;如果定位了垃圾&#xff0c;则有可能会被垃圾回收器回收 如果要定位什么是垃圾&#xff0c;有两种方式来确定 引用计数法可达性分析算法 1.1 …

Flutter 小技巧之通过 MediaQuery 优化 App 性能

许久没更新小技巧系列&#xff0c;温故知新&#xff0c;在两年半前的《 MediaQuery 和 build 优化你不知道的秘密》 我们聊过了在 Flutter 内 MediaQuery 对应 rebuild 机制&#xff0c;由于 MediaQuery 在 MaterialApp 内&#xff0c;并且还是一个 InheritedWidget &#xff0…

SpringBoot基础Kafka示例

这里将生产者和消费者放在一个应用中 使用的Boot3.4.3 引入Kafka依赖 <dependency><groupId>org.springframework.kafka</groupId><artifactId>spring-kafka</artifactId> </dependency>yml配置 spring:application:name: kafka-1#kafka…

Spring 的三种注入方式?

1. 实例的注入方式 首先来看看 Spring 中的实例该如何注入&#xff0c;总结起来&#xff0c;无非三种&#xff1a; 属性注入 set 方法注入 构造方法注入 我们分别来看下。 1.1 属性注入 属性注入是大家最为常见也是使用最多的一种注入方式了&#xff0c;代码如下&#x…

STM32第一天建立工程

新建一个工程 1&#xff1a;新建一个文件&#xff0c;添加文件 a:DOC工程说明 》doc说明文档 b&#xff1a;Libraries固件库 》cmsis内核文件 &#xff08;一般这就是stm32内核文件&#xff09; 》FWLIB外设文件 &#xff08;这种就是stm32外设文件不全&#xff09; 》start…

搭建本地化笔记AI:用Copilot+deepseek+nomic-embed-text构建本地智能知识系统

安装Ollama https://ollama.com/ 下载模型 下载大语言模型 根据自己电脑的配置选择模型的大小 ollama run deepseek-r1:8b 下载向量处理模型 创建向量数据库时需要使用Embedding模型对文本进行向量化处理 ollama pull nomic-embed-text 查看安装的模型 ollama listNAME …

【蓝桥杯单片机】第十一届省赛

一、真题 二、创建工程 1.在C盘以外的盘新建文件夹&#xff0c;并在文件夹里面创建两个文件夹Driver 和Project 2.打开keil软件&#xff0c;在新建工程并选择刚刚建好的project文件夹&#xff0c;以准考证号命名 3.选择对应的芯片型号 4.选择否&#xff0c;即不创建启动文件 …

【存储中间件】Neo4J图数据库超详细教程(一):相关介绍、特点及优势、数据模型、软件安装

文章目录 Neo4J超详细教程一、Neo4J相关介绍1.为什么需要图数据库方案1&#xff1a;Google方案2&#xff1a;Facebook 2.特点和优势3.什么是Neo4j4.Neo4j数据模型图论基础属性图模型Neo4j的构建元素 5.软件安装 个人主页&#xff1a;道友老李 欢迎加入社区&#xff1a;道友老李…

xxl-job部署在docker-destop,实现定时发送预警信息给指定邮箱

XXL-JOB XXL-JOB是一个分布式任务调度平台&#xff08;XXL是作者徐雪里姓名拼音的首字母&#xff09;&#xff0c;其核心设计目标是开发迅速、学习简单、轻量级、易扩展。 源码仓库地址&#xff1a;https://github.com/xuxueli/xxl-job 源码结构&#xff1a; 系统架构 在xxl-j…

【QT】QScrollBar设置样式:圆角、隐藏箭头、上边距等

目录 0.简介 1.原理 2.具体代码 0.简介 环境&#xff1a;Ubuntu22.04、qtDesigner绘制UI 项目需要&#xff0c;按照UI修改滚动条样式&#xff0c;滚动条我使用的是QScrollBar&#xff0c;默认样式和修改之后的样式如下&#xff1a; 1.原理 2.具体代码 我是用qtDesigner绘制…

trae中文版AI搭建完整可用的项目框架

Trae 是由字节跳动推出的 AI 原生集成开发环境&#xff08;AI IDE&#xff09;&#xff0c;号称可以搭建完整项目&#xff0c;个人试用后体验确实比Cursor或cline更便捷&#xff0c;因为他多个文件关联准确率更高。 正式版的trae不支持大陆使用&#xff0c;不过目前已经推出了…

cfi网络安全 网络安全hcip

目录 RIP (路由信息协议) 算法 开销 版本 开销值的计算方式 RIPV1和RIPV2的区别 RIP的数据包 Request(请求)包 Reponse(应答)包 RIP的特征 周期更新 RIP的计时器 1&#xff0c;周期更新计时器 2&#xff0c;失效计时器 3&#xff0c;垃圾回收计时器 RIP的核心思…

Banana Pi 与瑞萨电子携手共同推动开源创新:BPI-AI2N

2025年3月11日&#xff0c; Banana Pi 开源硬件平台很高兴宣布&#xff0c;与全球知名半导体解决方案供应商瑞萨电子&#xff08;Renesas Electronics&#xff09;正式达成技术合作关系。此次合作标志着双方将在开源技术、嵌入式系统和物联网等领域展开深度合作&#xff0c;为全…

linux 命令 ls

ls 是 Linux 系统中用于列出目录内容的核心命令&#xff0c;几乎所有日常操作都会用到。以下是其详细用法和常见场景说明 1. 基础语法 ls [选项] [目录/文件] 不指定目录时&#xff0c;默认列出当前目录的内容。 可以指定文件或目录路径&#xff0c;支持通配符&#xff08;如…

C#-扩展方法-Linq

密封类 sealed&#xff0c;无法被继承 var 可以定义匿名对象 static void test1() {var t 1;t "jack";//报错&#xff0c;类型已经确定好了var s new{id 1,name "tom"};Console.WriteLine(s.id s.name); } 扩展方法 对现有类型做方法的扩展&am…

Go红队开发—web网络编程

文章目录 web网络编程Req快速请求 调试DevModeDebugLogTraceInfo瓶颈分析 控制请求与响应控制请求的字段内容控制调试打印的内容分开dump请求与响应部分请求体设置 作用范围级别设置参数查询URL 路径参数表单请求设置请求头设置 判断响应状态码解析数据SetSuccessResultgjson响…

轻量级模块化前端框架:快速构建强大的Web界面

轻量级模块化前端框架&#xff1a;快速构建强大的Web界面 在当今快节奏的Web开发环境中&#xff0c;选择一个高效且灵活的前端框架至关重要。UIkit 是一个轻量级的模块化前端框架&#xff0c;旨在帮助开发者快速构建功能强大且响应迅速的Web界面。 UIkit提供了丰富的组件和工…

qt+opengl 播放yuv视频

一、实现效果 二、pro文件 Qt widgets opengl 三、主要代码 #include "glwidget.h"GLWidget::GLWidget(QWidget *parent) : QOpenGLWidget(parent) {connect(&m_timer, &QTimer::timeout, this,[&](){this->update();});m_timer.start(1000/33); }v…

5G基本概念

作者:私语茶馆 1. 5G应用场景概述 1.1.5G应用场景 ITU域2015年定义了三大应用场景:eMBB(增强型移动宽带)、uRLLC(低时延高可靠通信)、mMTC(海量物联网通信); emBB:Enhanced Mobile Broadband ,移动互联网应用,是4G MBB(移动宽带)的升级,主要侧重于网络速率、带…

PH热榜 | 2025-03-12

1. Fluently 标语&#xff1a;开始说英语&#xff0c;就像说你的母语一样流利。 介绍&#xff1a;想象一下&#xff0c;有一个像人类一样的英语教练&#xff0c;全天候在线、价格却便宜15倍。这就是 Fluently &#x1f680; 纠正你的错误&#xff0c;提升你的词汇量、发音和语…