【00】神经网络之初始化参数

【00】神经网络之初始化参数

news2025/7/13 3:58:40

在这里插入图片描述

问题描述

#随机初始化权重
w12 = np.random.randn(100, 784)/np.sqrt(784)
为什么除以28

回答

这里的代码是初始化一个深度学习模型中的权重矩阵w12。权重矩阵的形状是(100, 784)，这是一个从784个输入节点到100个隐藏节点的全连接层。
除以np.sqrt(784)是权重初始化的一种策略，通常称为“Xavier初始化”或“Glorot初始化”。该初始化策略的目的是使权重的初始值具有合适的尺度，以保证网络中每一层的信号既不会过小也不会过大，从而有助于模型的收敛。
784这个数字是28 x 28的结果，这很可能是一个28x28像素的图像，对应的是MNIST数据集中的图像尺寸。
除以np.sqrt(784)的原因是：

根据Xavier初始化，当使用tanh激活函数时，权重应该从均值为0、方差为1/n的分布中初始化，其中n是输入节点的数量。在这里，n = 784。
当从标准正态分布中随机抽取权重（使用np.random.randn()）时，得到的权重具有均值0和方差1。为了将方差调整为1/n，可以将权重除以np.sqrt(n)。

因此，除以np.sqrt(784)是为了将权重的方差调整为1/784，这有助于优化算法的收敛性。

备注：

random.randn 是NumPy库中的一个函数，用于从标准正态分布（均值为0，方差为1）中生成随机数。

具体来说，当你使用 random.randn 时：

它会返回一个或一组从标准正态分布中随机抽取的数值。
参数决定了返回数组的形状。例如，np.random.randn(3, 4) 会返回一个3x4的数组，其中的每个元素都是从标准正态分布中随机抽取的。

使用 random.randn 是初始化神经网络权重的常用方法，特别是当使用某些权重初始化策略（如Xavier初始化）时。从标准正态分布中抽取的随机权重可以确保在训练开始时权重是小的、不同的，并且它们的分布具有某种规律性。这有助于避免某些训练问题，如权重全部更新为相同的值或权重更新太大导致的梯度爆炸。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1098679.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

web 性能优化详解（Lighthouse工具、优化方式、强缓存和协商缓存、代码优化、算法优化）

web 性能优化详解（Lighthouse工具、优化方式、强缓存和协商缓存、代码优化、算法优化）

1.性能优化包含的方面优化性能概念宽泛，可以从信号、系统、计算机原理、操作系统、网络通信、DNS解析、负载均衡、页面渲染。只要结合一个实际例子讲述清楚即可。 2.什么是性能？ Web 性能是客观的衡量标准，是用户对加载时间和运行时的直观…

阅读更多...

微信小程序框架---详细教程

微信小程序框架---详细教程

🎬 艳艳耶✌️：个人主页 🔥 个人专栏 ：《Spring与Mybatis集成整合》《Vue.js使用》 ⛺️ 越努力 ，越幸运。目录 1.框架 1.1响应的数据绑定 1.2.页面管理 1.3.基础组件 1.4.丰富的 API 2.视图层 View 2.1.介绍 …

阅读更多...

大量pod失败

大量pod失败

随便查看pod 有的pod提示磁盘不足查看csi-nfs 的pod。有一个处于Evicted 状态 kubectl get pod -n kube-system csi-nfs-node-jlxc6 3/3 Running 10 (4d16h ago) 20d csi-nfs-node-vnr5q 0/3 Evicted 0 10m 查看这个pod。提示磁盘不足 kubectl describe pod -n kube-system…

阅读更多...

低代码技术这么香，如何把它的开发特点发挥到极致？

低代码技术这么香，如何把它的开发特点发挥到极致？

前言什么是低代码技术？ 低代码是一种可视化软件开发方法，通过最少的编码更快地交付应用程序。图形用户界面和拖放功能使开发过程的各个方面自动化，消除了对传统计算机编程方法的依赖。文章目录前言低代码平台怎么选？用友Yonbu…

阅读更多...

14.8 Socket 一收一发通信

14.8 Socket 一收一发通信

通常情况下我们在编写套接字通信程序时都会实现一收一发的通信模式，当客户端发送数据到服务端后，我们希望服务端处理请求后同样返回给我们一个状态值，并以此判断我们的请求是否被执行成功了，另外增加收发同步有助于避免数据包粘包…

阅读更多...

docker基础认知（镜像+容器+仓库+客户端与服务器）

docker基础认知（镜像+容器+仓库+客户端与服务器）

镜像（Image） 静态文件，提供了容器运行时所需的程序、库、资源、配置等文件，另外包含了一些为运行时准备的一些配置参数（如匿名卷、环境变量、用户等）。（相比文件的说法，文件系统的说…

阅读更多...

Mac电脑空间不足怎么办？如何优化系统

Mac电脑空间不足怎么办？如何优化系统

随着使用时间的增长，我们会发现Mac电脑的存储空间越来越少，这时候我们就需要对Mac电脑进行清理，以释放更多的存储空间。那么，Mac空间不足怎么解决呢？ 1.清理垃圾文件 Mac空间不足怎么解决？首先要做的就是…

阅读更多...

Go语言入门心法(七): 并发与通道

Go语言入门心法(七): 并发与通道

Go语言入门心法(一): 基础语法 Go语言入门心法(二): 结构体 Go语言入门心法(三): 接口 Go语言入门心法(四): 异常体系 Go语言入门心法(五): 函数一: go语言并发与通道

阅读更多...

身份证照片怎么弄成200k以内？三个方法轻松搞定！

身份证照片怎么弄成200k以内？三个方法轻松搞定！

在日常生活中，为了方便上传和保存、便于传输和处理以及符合相关规定等方面的考虑，身份证照片大小常常被要求控制在200k以内，可是手机随便一拍，任凭如何截图都在超过1M，这个时候就需要借助一些图片压缩工具，…

阅读更多...

汽车电子 -- CAN报文接收解析和发送组包

汽车电子 -- CAN报文接收解析和发送组包

之前已经讲过如何生成DBC文件了，程序中该如何解析DBC呢？ 其中包括接收CAN报文解析和发送CAN报文组包？？ 一、Motorola和Intel格式 dbc里的信号Signals，其中里面有两种数据格式 Motorola和Intel格式。之前C语言里&…

阅读更多...

win11点击任务栏固定的应用：该文件没有与之关联的应用来执行该操作

win11点击任务栏固定的应用：该文件没有与之关联的应用来执行该操作

点击固定在任务栏的任何图标提示 1、直接点击“开始”旁边的搜索按钮，搜索“注册表编辑器”。 2、找到HKEY_CLASSES_ROOT\lnkfile（注意“lnkfile”的l是小写L不是大写i），在右侧新建一个字符串值“IsShortcut”的文件&#xff1…

阅读更多...

大模型的背景与现状问题

大模型的背景与现状问题

一、大模型的发展背景谈起大模型，第一时间想到的是什么？是主流的ChatGPT？或者GPT4？还是DALL-E3？亦或者Midjourney？以及Stablediffusion？还是层出不穷的其他各类AI Agent应用工具？大…

阅读更多...

攻防千层饼

攻防千层饼

近年来，网络安全领域正在经历一场不断升级的攻防对抗，这场攻防已经不再局限于传统的攻击与防御模式，攻击者和防守者都已经越发熟练，对于传统攻防手法了如指掌。在这个背景下，攻击者必须不断寻求创新的途径&#xff0…

阅读更多...

【C++】头文件chrono

【C++】头文件chrono

2023年10月16日，周一晚上当前我只是简单的了解了一下chrono 以后可能会深入了解chrono并更新文章目录功能原理头文件chrono中的一些类头文件chrono中的数据类型一个简单的示例程序小实验：证明a的效率比a高功能这个chrono头文件是用来处理时间的…

阅读更多...

git log 美化配置

git log 美化配置

编辑 vim ~/.gitconfig 添加配置 [alias]lg log --graph --abbrev-commit --decorate --dateformat:%m-%d %H:%M:%S --formatformat:%C(bold blue)%h%C(reset) - %s %C(bold yellow)% d%C(reset) %n %C(dim white) (%ad) - %an%C(reset) --allgit lg 效果

阅读更多...

Ansible脚本进阶---playbook

Ansible脚本进阶---playbook

目录一、playbooks的组成二、案例 2.1 在webservers主机组中执行一系列任务，包括禁用SELinux、停止防火墙服务、安装httpd软件包、复制配置文件和启动httpd服务。 2.2 在名为dbservers的主机组中创建一个用户组（mysql）和一个用户&#x…

阅读更多...

Cesium Vue（三）— 相机配置

Cesium Vue（三）— 相机配置

1. 坐标系转换 1.1 cesium使用到的坐标系屏幕坐标系，二维的笛卡尔坐标系，API > Cartesian2地理空间坐标系，WGS-84坐标系， API > Cartographic(经度，维度，高度)三维笛卡尔空间直角坐标系&#xff0…

阅读更多...

华为交换机S200, S1700系列产品命名规则

华为交换机S200, S1700系列产品命名规则

华为交换机的全系列产品命名规则如下： S系列：代表固定端口交换机。例如，S5720系列、S6720系列。CE系列：代表企业级交换机。例如，CE5800系列、CE6800系列。CloudEngine系列：代表华为云引擎交换机&#xff0c…

阅读更多...

如何实现 Es 全文检索、高亮文本略缩处理（封装工具接口极致解耦）

如何实现 Es 全文检索、高亮文本略缩处理（封装工具接口极致解耦）

如何实现 Es 全文检索、高亮文本略缩处理前言技术选型JAVA 常用语法说明全文检索开发高亮开发Es Map 转对象使用核心代码 Trans 接口（支持父类属性的复杂映射）Trans 接口可优化的点高亮全局配置类如下真实项目落地效果为什么不用 numOfFragments、fragm…

阅读更多...

数据结构与算法课后题-第五章(哈夫曼树和哈夫曼编码)

数据结构与算法课后题-第五章(哈夫曼树和哈夫曼编码)

文章目录选择题1选择题2选择题3选择题4选择题5选择题6选择题7应用题7 选择题1 选择题2 选择题3 需要深究选择题4 选择题5 选择题6 选择题7 应用题7

阅读更多...

推荐文章

最新文章