神经网络算法 - 一文搞懂 Softmax 函数

news2025/1/12 15:53:08

本文将从Softmax的本质、Softmax的原理、Softmax的应用三个方面,带您一文搞懂 Softmax 函数。

Softmax激活函数

**__**一、Softmax**__**_****_**_**的**_**本质_****_

Softmax一般用来作为神经网络的最后一层,用于多分类问题的输出。其本质是一种激活函数,将一个数值向量归一化为一个概率分布向量,且各个概率之和为1。
Softmax激活函数

分类问题: 根据输入数据的特征将其划分到预定义的类别中。

在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning)。分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。

根据类别的数量可将分类问题分为二分类和多分类。

  • 二分类(Binary classification)表示分类任务中有两个类别。在二分类中,我们通常使用一些常见的算法来进行分类,如逻辑回归、支持向量机等。

  • 多分类(Multi-class** classification)**:表示分类任务中有多个类别。在多分类中,我们可以使用一些常见的算法来进行分类,如决策树、随机森林等。

二分类和多分类

激活函数: 一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。

激活函数

在神经元中,输入的input经过一系列加权求和后作用于另一个函数,这个函数就是这里的激活函数。类似于人类大脑中基于神经元的模型,激活函数最终决定了是否传递信号以及要发射给下一个神经元的内容。

激活函数为神经网络引入了非线性元素,使得网络能够逼近复杂的非线性函数,从而解决更广泛的问题。

激活函数

激活函数: 一种添加到人工神经网络中的函数,旨在帮助网络学习数据中的复杂模式。

对于二分类问题,Sigmoid是一个常用的激活函数,它将任意实数映射到(0, 1)区间,这个区间内的数值可以自然地解释为概率。

Sigmoid函数

对于多分类问题,Softmax则是一个非常重要的工具。它可以将一个向量转换为一组概率值,这些概率值的总和为1。

Softmax函数

常见的激活函数,Sigmoid、Tanh、Relu和Softmax。

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

_**二、Softmax_**_**_**_****_**_**的**_**原理_****_**_**_**_**_

神经网络的原理: 通过前向传播计算预测值,通过损失函数衡量预测值与真实值之间的差距,通过反向传播计算梯度并更新参数,以及通过激活函数引入非线性因素。

  • 前向传播:数据从输入层经过隐藏层流向输出层,每层通过权重和偏置进行线性变换,并经过激活函数得到非线性输出。

  • 激活函数:为神经网络引入非线性,提升模型的表达能力。

  • 损失函数:衡量预测值与真实值之间的差距,如均方误差用于回归,交叉熵用于分类。

  • 反向传播:根据损失函数的梯度信息,从输出层逐层向输入层计算参数的梯度,并更新参数,以最小化损失函数值。

  • 梯度下降:一种优化算法,根据计算出的梯度按一定学习率更新网络参数,逐步逼近最优解。

**Softmax的数学原理:**对于一个给定的实数向量,它首先计算每一个元素的指数(e的幂),然后每个元素的指数与所有元素指数总和的比值,就形成了softmax函数的输出。这种计算方式不仅使输出值落在0到1之间,还保证了所有输出值的总和为1。

Softmax数学原理

_**三、Softmax的应用**_

CNN的架构: 由卷积层、池化层和全连接层构成。卷积层通过卷积核提取图像的局部特征,池化层通过下采样实现数据降维,全连接层则输出最终结果。

CNN的架构

CNN的Softmax层: 一种常见的分类层,它通常是放置在卷积神经网络的最后一层,用于将卷积神经网络输出的特征图转换为概率分布。

CNN的Softmax层

Transformer的架构: 通过输入嵌入、位置编码、多头注意力、残差连接和层归一化、带掩码的多头注意力以及前馈网络等组件,实现了对输入序列的高效编码和输出序列的生成。

Transformer的架构

Transformer中的Softmax: 用于将原始注意力分数转换为输入标记的概率分布。这种分布将较高的注意力权重分配给更相关的标记,并将较低的权重分配给不太相关的标记。Transformers通过Softmax在生成输出时,使用注意力机制来权衡不同输入标记的重要性。

Transformer的Softmax层

如何学习AI大模型?

大模型时代,火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业?”“谁的饭碗又将不保了?”等问题热议不断。

不如成为「掌握AI工具的技术人」,毕竟AI时代,谁先尝试,谁就能占得先机!

但是LLM相关的内容很多,现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学,学习成本和门槛很高

针对所有自学遇到困难的同学们,我帮大家系统梳理大模型学习脉络,将这份 LLM大模型资料 分享出来:包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴,可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)]()👈

学习路线

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2081429.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《机器学习》 SVM支持向量机 推导、参数解析、可视化实现

目录 一、SVM支持向量机 1、什么是SVM 例如: 2、SVM的主要特点是: 二、SVM方程 1、超平面方程 2、标签问题 3、决策函数: 符号函数: 整合: 4、距离问题 1)点到直线距离 2)点到平面…

Python使用Tesseract OCR识别文字

Tesseract-OCR是一款由Google维护的开源光学字符识别(OCR)引擎,它能够从图像中识别出文本,并将其转换为可编辑的文本格式。以下是关于Tesseract-OCR的详细介绍: 一、背景与发展 起源:Tesseract最初是惠普…

5G Hz WiFi 频段划分

5GHz WiFi频段被划分为多个Band,这主要是基于国际通信标准和各国监管机构的规定。在常见的划分中,5GHz频段被分为以下几个部分: Band 1 (U-NII-1): 频率范围为5.15~5.25GHz,带宽为100MHz。Band 2 (U-NII-2 或 U-NII-2A/2C): 通常…

Visual Studio Code 自定义字体大小

常用编程软件自定义字体大全首页 文章目录 前言具体操作1. 打开首选项设置对话框2. 在Font Family里面输入字体 前言 Visual Studio Code 自定义字体大小,统一设置为 Cascadia Code SemiBold ,大小为 14 具体操作 【文件】>【首选项】>【设置】&…

SSRF漏洞(服务器端请求伪造)相关案例

目录 前言: 案例:Web-ssrfme 一、redis未授权访问攻击 1.1 进入题目给出源码 1.2 测试ssrf 1.3 查看phpinfo发现主机 1.4 发现服务 1.5 攻击访问 1.6 FLAG 二、redis未授权写入任务计划 2.1 探测开放端口 2.2 导入任务计划 2.3 反弹shell成…

开源跨平台支持400多个国家语言屏幕键盘虚拟键盘Keyman开发指南

很多嵌入式开发平台或者移动端,桌面端开发都需要用到自定义的键盘,想要开发一个能够支持多国语言键盘布局的开源Keyboard可不容易,工作量非常大。 很多公司都是只开发英汉两种键盘布局,连Qt自带的VirtualKeyboard实际上要支持多国…

C++内存对齐和无符号有符号数混合运算

记录一下笔试中遇到的几个问题&#xff1a; C中无符号数与有符号数一起运算时&#xff0c;都会转换成无符号数运算 int main() {unsigned int a 100;signed b -100;cout << (unsigned)b << endl; // 4294967196signed c, d;c a / b; // 相当于 100 / 429496…

TCP数据包——报文头部组成

TCP协议报头包括以下字段: 源端口和目标端口:分别是发送方和接收方的端口号,用于标识通信的应用程序。 序列号:用于标识数据流的序列号,保证数据包的顺序性。每一个报文都有一个序列号。 确认号:用于确认收到的数据包序列号,用于实现可靠传输。每发送一个数据包都需要收…

系统分析师5-数据库特训专题

文章目录 1 数据库设计概述2 规范化与反规范化2.1 规范化2.2 反规范化2.3 案例分析例题1 3 数据库索引与视图的应用3.1 数据库索引3.2 数据库视图3.3 案例分析例题2 4 分布式数据库系统5 数据库分区分表分库5.1 案例分析例题3 6 分布式事务增补6.1 案例分析例题4 7 NoSQL8 附录…

优雅实现远程调用-OpenFeign

目录 OpenFeign介绍 OpenFeign最佳实践 我再来遇到个问题&#xff0c;我创建的com.xx.xxx包&#xff0c;放到一起了&#xff0c;不是那种一个在一个下面的那种 Nacos&#xff0c;只要看见这种什么网络报错啥的&#xff0c;java.net.SocketException: Network is unreachabl…

十、软件工程基础知识(考点篇)

1 软件工程 软件开发生命周期&#xff1a; 软件定义时期&#xff1a;包括可行性研究和详细需求分析过程&#xff0c;任务是确定软件开发工程必须完成的总目 标&#xff0c;具体(步骤)可分成问题定义、可行性研究、需求分析等。 软件开发时期&#xff1a;就是软件的设计与实…

Hive的体系架构、安装

目录 一、Hive体系架构二、安装1.嵌入模式2.本地模式和远程模式 一、Hive体系架构 二、安装 1.嵌入模式 特点 不需要Mysql支持&#xff0c;数据存储在自带的derby中只支持一个链接&#xff0c;即一时间只能有一个用户操作 部署 根据如下文件自行编写hive-site.xml hive-sit…

Docker 部署 Kafka 可视化 Kafka-UI

前言 本文部署的Kafka-UI 是基于Docker Compose 部署 Kafka的KRaft模式&#xff0c;如有需要可访问下文链接 Docker Compose 部署 Kafka的KRaft模式 不用依赖 Zookeeper 此部署也适用于不是docker部署的kafka集群 1.启动 Kafka-UI 服务 1.1 kafka 来自docker安装 docker r…

无法验证 Anaconda 仓库证书

无法验证 Anaconda 仓库证书 这个错误表明无法验证 Anaconda 仓库的证书。你可以尝试添加参数 --no-check-certificate 来解决这个问题&#xff08;不推荐但还挺好用&#xff0c;嘻嘻&#xff09;&#xff1a; wget --no-check-certificate https://repo.anaconda.com/archive…

【案例63】SSL RC4 加密套件支持检测 (Bar Mitzvah)修复方案

漏洞详情信息 漏洞名称 SSL RC4 加密套件支持检测 (Bar Mitzvah) 漏洞等级 高 漏洞描述 远程主机支持在一个或多个密码组中使用 RC4。 RC4 密码在伪随机字节流的生成中存在缺陷&#xff0c;导致引入了各种各样的小偏差&#xff0c;降低了其随机 性。 如果反复加密明文&am…

【北森-注册安全分析报告-无验证方式导致安全隐患】

前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 1. 暴力破解密码&#xff0c;造成用户信息泄露 2. 短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉 3. 带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨大&#xff0c;造…

八款主流图纸加密软件强力推荐|2024年图纸加密软件最佳选择!

在当今数字化设计的世界中&#xff0c;保护企业的图纸和设计文件至关重要。无论是建筑图纸、机械设计还是电子电路图&#xff0c;这些宝贵的知识产权都需要被妥善保护&#xff0c;以防止未经授权的访问和数据泄露。本文将为您推荐2024年最值得选择的八款主流图纸加密软件&#…

1. Redis 相关背景

文章目录 一 . 初识 Redis二 . 浅谈分布式系统2.1 单机架构2.2 分布式2.3 服务分离和负载策略2.4 数据库读写分离2.5 引入缓存2.6 数据库的分库分表2.7 引入微服务2.8 其他概念 三 . Redis 的特性四 . Redis 的应用场景4.1 Redis 能做的事4.2 Redis 不能做的事 Hello , 大家好 …

第二证券:A股公司中期分红踊跃 红利资产获机构关注

A股公司2024年半年报正在密布宣布&#xff0c;上市公司中期分红计划备受商场重视。据统计&#xff0c;到8月26日&#xff0c;有中期分红计划的A股公司近370家&#xff0c;创下前史新高。业内人士称&#xff0c;得益于政策层面的生动引导&#xff0c;上市公司分红“大军”敏捷扩…

随笔七、开启gst-rtsp-server服务及推流测试

目录 1. 环境 2. 启用gst-rtsp-server服务 3. 交叉编译测试程序examples 4. 推流测试 1. 环境 泰山派RK3566开发板的SDK使用了GStreamer媒体编解码框架&#xff0c;其扩展能力应该是优于ffmpeg&#xff0c;因此目前不考虑移植ffmpeg。要实现摄像头推流&#xff0c;还需要流…