Sigmoid 函数及其导数推导

news2024/11/15 7:18:33

Sigmoid 函数及其导数推导

1. 了解 Sigmoid 函数

Sigmoid 函数是神经网络中常用的激活函数,因其平滑的S形曲线和将输入压缩至 (0, 1) 的特性,在神经网络的激活函数中扮演着重要角色。其定义如下:

σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1 + e^{-x}} σ(x)=1+ex1

其中, e e e 是自然常数,约等于 2.718。Sigmoid 函数的输出范围为 (0, 1),这使它特别适合作为二分类问题中输出层的激活函数。

Sigmoid 函数的图形如下所示:

Sigmoid 函数曲线

2. 应用微分规则

为了推导 Sigmoid 函数的导数,我们需要对它进行微分。根据 Sigmoid 函数的定义:

σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1 + e^{-x}} σ(x)=1+ex1

接下来,我们将对这个函数进行微分,以计算其导数。

3. 引入中间变量 u u u

为了简化求导过程,我们可以先引入一个中间变量 u u u,定义如下:

u = 1 + e − x u = 1 + e^{-x} u=1+ex

这样,Sigmoid 函数可以重新表示为:

σ ( x ) = 1 u \sigma(x) = \frac{1}{u} σ(x)=u1

4. 对 Sigmoid 函数求导

现在,我们通过链式法则求解 Sigmoid 函数的导数。链式法则告诉我们,如果一个函数是复合函数的形式,那么其导数可以通过对各个部分分别求导并相乘来得到。

4.1 对 u = 1 + e − x u = 1 + e^{-x} u=1+ex 求导

首先对 u u u 进行求导:

d u d x = d d x ( 1 + e − x ) = 0 − e − x ⋅ ( − 1 ) = e − x \frac{du}{dx} = \frac{d}{dx}(1 + e^{-x}) = 0 - e^{-x} \cdot (-1) = e^{-x} dxdu=dxd(1+ex)=0ex(1)=ex

4.2 对 σ ( x ) = 1 u \sigma(x) = \frac{1}{u} σ(x)=u1 求导

接下来对 σ ( x ) \sigma(x) σ(x) 进行求导:

d σ ( x ) d u = d d u ( 1 u ) = − 1 u 2 \frac{d\sigma(x)}{du} = \frac{d}{du}\left(\frac{1}{u}\right) = -\frac{1}{u^2} dudσ(x)=dud(u1)=u21

4.3 应用链式法则

根据链式法则,Sigmoid 函数的导数可以表示为:

d σ ( x ) d x = d σ ( x ) d u ⋅ d u d x = − 1 u 2 ⋅ e − x \frac{d\sigma(x)}{dx} = \frac{d\sigma(x)}{du} \cdot \frac{du}{dx} = -\frac{1}{u^2} \cdot e^{-x} dxdσ(x)=dudσ(x)dxdu=u21ex

u = 1 + e − x u = 1 + e^{-x} u=1+ex 代入,得到:

d σ ( x ) d x = − e − x ( 1 + e − x ) 2 \frac{d\sigma(x)}{dx} = -\frac{e^{-x}}{(1 + e^{-x})^2} dxdσ(x)=(1+ex)2ex

5. 简化表达式

为了进一步简化这个表达式,我们注意到 Sigmoid 函数的定义和性质:

σ ( x ) = 1 1 + e − x \sigma(x) = \frac{1}{1 + e^{-x}} σ(x)=1+ex1

以及:

1 − σ ( x ) = e − x 1 + e − x 1 - \sigma(x) = \frac{e^{-x}}{1 + e^{-x}} 1σ(x)=1+exex

因此,导数可以重写为:

d σ ( x ) d x = σ ( x ) ⋅ ( 1 − σ ( x ) ) \frac{d\sigma(x)}{dx} = \sigma(x) \cdot (1 - \sigma(x)) dxdσ(x)=σ(x)(1σ(x))

6. 最终结果

最终我们得到了 Sigmoid 函数的导数公式:

d σ ( x ) d x = σ ( x ) ⋅ ( 1 − σ ( x ) ) \frac{d\sigma(x)}{dx} = \sigma(x) \cdot (1 - \sigma(x)) dxdσ(x)=σ(x)(1σ(x))

这个公式表明,Sigmoid 函数的导数不仅依赖于输入 x x x ,更依赖于 Sigmoid 函数本身的输出值 σ ( x ) \sigma(x) σ(x)。这个性质在反向传播算法中尤为重要,因为它允许我们在计算误差梯度时,可以直接利用前向传播的结果,从而简化计算并提高效率。

Sigmoid 函数及其导数

应用和意义

在神经网络中,Sigmoid 函数的导数用于反向传播算法中计算误差的梯度。这种函数的形式使得在更新权重时,不仅能够考虑当前的输入值,还可以利用 Sigmoid 函数的输出,从而在训练过程中更加高效。

此外,由于导数的形式与输出值直接相关,因此可以避免重复计算,在反向传播时极大地节省了计算资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2080437.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GUI编程03:3种布局管理器

本节内容视频链接:https://www.bilibili.com/video/BV1DJ411B75F?p5&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5https://www.bilibili.com/video/BV1DJ411B75F?p5&vd_sourceb5775c3a4ea16a5306db9c7c1c1486b5 1.FlowLayout 流式布局 代码:…

34. 二叉树中和为某一值的路径

comments: true difficulty: 中等 edit_url: https://github.com/doocs/leetcode/edit/main/lcof/%E9%9D%A2%E8%AF%95%E9%A2%9834.%20%E4%BA%8C%E5%8F%89%E6%A0%91%E4%B8%AD%E5%92%8C%E4%B8%BA%E6%9F%90%E4%B8%80%E5%80%BC%E7%9A%84%E8%B7%AF%E5%BE%84/README.md 面试题 34. 二…

关于Linux(CentOS 7)中的用户sudo命令

📝用户提权 测试非root用户的权限浏览该文件 测试非root用户的权限 当我们在当前用户使用sudo命令时,提示使用vimer用户的密码,非root。这是为什么呢? 因为这里系统提示需要用户的密码,则认为vimer用户是受信任的。 输…

用nltk包出现的三个问题 报错显示 缺少 punkt_tab、averaged_perceptron_tagger、wordnet 这三个文件

用nltk包出现的三个问题 报错显示 缺少 punkt_tab、averaged_perceptron_tagger、wordnet 这三个文件 报错是分开来的,你自己缺少哪一个就下哪一个,我这里总共是缺少三个文件,所以我依次去下载的 首先 在自己的虚拟环境中建立一个nltk_data文…

Qt第二十一章 语言家

文章目录 Qt Linguist简介使用流程1. 使用tr包裹字符串2. 生成翻译文件3. 打开翻译文件,并翻译4. 发布翻译5. 加载语言文件6. 动态切换语言 各国语言代码和名称表 Qt Linguist 简介 Qt提供了一款优秀的支持Qt C和Qt Quick应用程序的翻译工具。发布者、翻译者和开发…

齐护【百度AI对话】编程系统文心一言大语音模型对话ESP32图形化Mixly编程Scratch编程Arduino

齐护【百度AI对话】编程系统 一、前言 ​ 在这个日新月异的时代,AI的触角已延伸至互联网、金融、医疗、教育等每一个角落,其影响力不容忽视。从日常中的智能推荐到医疗前沿的精准诊断,从定制化教育到智能化的投资策略,AI正以前所…

ET6框架(一)介绍及环境部署

文章目录 一、什么是ET框架?二、ET框架特色:三、开发环境准备:四、.Net Core下载安装五、安装Visual Studio六、下载Mongodb七.安装Robo 3T八、下载ET版本分支 一、什么是ET框架? 1.ET(客户端,服务器端)是一个开源的双…

C++ 136类和对象_面像对像_多态_虚析构和纯虚析构

136类和对象_面像对像_多态_虚析构和纯虚析构 学习内容 1.抽象类 2.虚函数 3.纯虚函数 /4.虚析构 和 纯虚析构 总结: 1.虚析构或纯虚析构就是用来解决通过父类指针释放子类对象 2.如果子类中没有堆区数据,可以不写为虚析构或纯虚析构 3.拥有纯虚析构函数的类也属于…

【网络安全】XML-RPC PHP WordPress漏洞

未经许可,不得转载。 文章目录 前言WordPressWordPress中的Xmlrpc.php利用前提:Xmlrpc可访问深度利用1、用户名枚举2、跨站点端口攻击(XSPA)或端口扫描3、使用xmlrpc.php进行暴力攻击前言 本文将解释xmlrpc.php WordPress 漏洞及利用方式,并以三种攻击方法进行阐发: 1、…

【焕新】同为科技(TOWE)23周年庆典

每年的8月23日,都是一个值得铭记、守护、欢庆的日子。这一天同为科技(TOWE)迎来公司成立23周年纪念日,是属于TOWE品牌向前、长远的里程碑。从2001到2024,从品牌与文化,从产品到服务。 同为科技(…

GB28181国标联网网关:助力视频设备与平台的全面互联互通

联网网关概述 在安防行业视频监控联网项目中,经常会有视频数据的跨部门、跨系统共享需求,随着联网需求的增多,在行业内国标GB28181协议又是最为常见应用最为广泛的联网协议,这也使得无论是设备厂家、后端平台厂家都开发出了符合各…

Linux的yum包管理工具(在线安装)

Linux的软件从哪里下载? 我们用的Linux系统都是国外的,所以下载软件自然从国外下载。但是访问国外网址太慢了,有没有什么办法快一点呢? 有! 啊,还有这么美的事情?快点告诉我! 好…

Android手机安装Kali系统并配置ddns-go

正文共:777 字 15 图,预估阅读时间:1 分钟 前面我们介绍了如果在Linux系统使用ddns-go实现IPv6地址的自动解析(使用ddns-go实现自动配置IPv6的DDNS),但在日常使用中,如果使用服务器开虚机的方式…

Web入门-03.HTTP协议-概述

一.HTTP协议 在上一节中的请求路径复制之后,我们粘贴到记事本中会看到http://localhost:8080/hello。这是因为使用了http协议。 HTTP:超文本传输协议。定义了浏览器和服务器之间数据传输的规则。该规则就是浏览器与服务器之间数据传输的格式。 客户端浏…

超详细Git基本命令使用(二)

😀前言 本篇博文是关于 Git基本命令的使用,希望你能够喜欢 🏠个人主页:晨犀主页 🧑个人简介:大家好,我是晨犀,希望我的文章可以帮助到大家,您的满意是我的动力&#x1f6…

QJson的写入和解析基本操作

一、QJson简介 QJson 是一个用于处理 JSON(JavaScript Object Notation)数据的 C 库 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式 JSON 的语法简洁明了,使用人类可读的文本格式来表示数据 它由键值…

CSS3视图过渡动画

概述 网站的主题切换无非就是文字、背景图片或者颜色,我们可以先来看下 Element UI 官网的切换主题的动效: PS:Antdesign UI的主题切换动画也是大同小异。 实现的两种方式 CSS 为主 <script setup> const changeTheme = (e) => {if (document.startViewTransi…

IBM退出中国,LabVIEW未来走向何方?

IBM作为全球科技行业的领军企业之一&#xff0c;近日宣布退出中国市场的决定引起了广泛关注。IBM的退出不仅仅是企业战略的调整&#xff0c;还反映了全球经济和政治环境的变化。深入分析IBM退出中国的原因&#xff0c;并预测NI&#xff08;National Instruments&#xff09;未来…

深入探索蒙特卡洛树搜索(MCTS):原理、应用与优化

深入探索蒙特卡洛树搜索&#xff08;MCTS&#xff09;&#xff1a;原理、应用与优化 引言 在人工智能与游戏开发领域&#xff0c;蒙特卡洛树搜索&#xff08;Monte Carlo Tree Search, MCTS&#xff09;作为一种高效的启发式搜索算法&#xff0c;凭借其卓越的性能和广泛的应用…

Spring security 密码加密使用

一、密码加密 2011年12月21日&#xff0c;有人在网络上公开了一个包含600万个CSDN 用户资料的数据库&#xff0c;数据全部为明文储存&#xff0c;包含用户名、密码以及注册邮箱。事件发生后CSDN 在微博、官方网站等渠道发出了声明、解释说此数据库系2009 年备份所用&#xff0c…