12.感知机以及多层感知机（MLP），激活函数

news2025/7/4 0:44:58

在这里插入图片描述
x和w都是向量，b是标量，感知机的输出是：w和x做内积之后+偏移b，最后加上一个函数（这个函数很多种选择）。

在这里插入图片描述

1. 训练感知机

在这里插入图片描述
如果当前是第i个样本，yi是真实标签值，<w,xi>+b得到的是预测值，如果二者相乘小于等于0，则表明分类错了，于是说明当前权重对分类是错误的，就对w和b都做一次更新。

解释一下，损失函数中，如果分类正确的话-y<w,x>是会小于0的，和0求max就是得到0，则梯度是一个常数，不会去做更新，对应上方的if、语句不成立。如果分类错误的话，第二项就会为正，会有梯度，进入到if语句里面。

损失函数求导，w的导数为yixi，b的导数为yi（损失函数中，把b写进了w和x向量里，b以增广矩阵的形式放到了w矩阵最后一列了）

感知机等价于用损失函数，使用批量大小为1做梯度下降。

2. 收敛定理

在这里插入图片描述

3. XOR问题

在这里插入图片描述

4. 对于感知机的总结

感知机是一个二分类模型，是最早的AI模型之一
它的求解算法等价于使用批量大小为1的梯度下降
它不能拟合XOR函数，导致第一AI寒冬

5. 学习XOR

在这里插入图片描述
一次分类不出，就先学一个简单的函数，再学一个简单函数，再用另一个简单函数组合之前学的两个函数。

6. 单隐藏层

在这里插入图片描述
隐藏层的大小是一个超参数，输入的大小是不能改变的，输出的大小看输入数据分为几类，而隐藏层有多大是能设计的。

在这里插入图片描述

注意，这里是解释单分类，而右边图片明显分类数为3，因此不要对应起来，具体解释如下：

在这里插入图片描述
Q：为什么需要非线性的激活函数？
答：假设激活函数为f（x）=x，也输出就是输入的话，则h = W1x+b1，再把h带入到第二个式子：o = W2Th+b2，则o = w2TW1x+b‘ ，并且w2TW1是一个向量，若把它记为W’ ，那么最后的输出是 o = w‘x+b’，仍然是一个线性模型，就无法解决XOR问题，也就等价于单层感知机。

在这里插入图片描述

7.几种激活函数

1. sigmoid激活函数

在这里插入图片描述

2. Tanh激活函数

在这里插入图片描述

蓝色曲线是红色曲线的soft版本，更平滑。

3. ReLU激活函数（常用）

主要的好处：算起来很快，不用像之前的函数做指数运算。

在这里插入图片描述

8. 多类分类

在这里插入图片描述

多类分类和softmax没有本质区别是因为，相对于softmax回归，唯一不同是加了隐藏层，加上隐藏层就变成了多层感知机，没有加就是softmax回归。

做多类分类的感知机如下：

在这里插入图片描述

9.多隐藏层：

每一个隐藏层都有自己的W和b。

在这里插入图片描述

总结

多层感知机使用隐藏层和激活函数来得到非线性模型
常用的激活函数是sigmoid，tanh，ReLU
使用softmax来处理多类分类
超参数为隐藏层数和各个隐藏层大小

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/72030.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

浅浅的分析Spring底层事务原理

浅浅的分析Spring底层事务原理

Spring事务底层原理一、EnableTransactionManagement工作原理二、Spring事务基本执行原理三、Spring事务的过程四、Spring事务传播机制五、Spring事务传播机制分类（1）案例分析、情况1（2）案例分析、情况2（3）…

阅读更多...

【正点原子FPGA连载】第三十二章OV5640摄像头RGB-LCD显示实验摘自【正点原子】DFZU2EG/4EV MPSoC 之FPGA开发指南V1.0

【正点原子FPGA连载】第三十二章OV5640摄像头RGB-LCD显示实验摘自【正点原子】DFZU2EG/4EV MPSoC 之FPGA开发指南V1.0

1）实验平台：正点原子MPSoC开发板 2）平台购买地址：https://detail.tmall.com/item.htm?id692450874670 3）全套实验源码手册视频下载地址： http://www.openedv.com/thread-340252-1-1.html 第三十二章OV564…

阅读更多...

深度学习——批量归一化（笔记）

深度学习——批量归一化（笔记）

主流的卷积网络基本都设计批量归一化这个层 1.为什么要批量归一化？ ①网络层很深，数据在底层，损失函数在最顶层。反向传播后，顶层的梯度大，所以顶层训练的较快。数据在底层，底层的梯度小，底层训…

阅读更多...

【开源项目】震惊JDBC查询比MyBatis查询慢

【开源项目】震惊JDBC查询比MyBatis查询慢

震惊JDBC查询比MyBatis查询快？ 文章编写起始原因，在编写项目的时候碰到一个深坑，JDBC获取5000条数据，居然耗时261s，MyBatis同样的操作，耗时12s左右，震惊。看到这里下巴都快掉下来了。不是网上都…

阅读更多...

Pyqt5 Key value动态创建 QTreeWidget

Pyqt5 Key value动态创建 QTreeWidget

在自己的应用上，需要根据读取的值来创建目录与子页，并打开对应的界面实现思路 1、定义数组存放 ｛（Key value index ）.....（Key_n value_n index_n ）｝ 2、获取相关数据&#x…

阅读更多...

【Java开发】 Spring 09 ：Spring Data REST 实现并访问简单的超媒体服务

【Java开发】 Spring 09 ：Spring Data REST 实现并访问简单的超媒体服务

Spring Data REST 是提供一个灵活和可配置的机制来编写可以通过HTTP公开的简单服务，简单来说，而且可以省去大部分controller和services的逻辑，因为Spring Data REST 已经为你都做好了，目前支持JPA、MongoDB、Neo4j、Solr、Cassand…

阅读更多...

Ribbon负载均衡

Ribbon负载均衡

Ribbon负载均衡 Ribbon是微服务架构中，可以作为负载均衡的技术实现，如下图所示 Ribbon负载均衡 1、消费者发起请求2、被负载均衡拦截器拦截3、将请求信息交给RibbonLoadBanlancerClient4、获取url的服务id5、DynamicServerListLoadBalancer拿到id去eur…

阅读更多...

java基础巩固-宇宙第一AiYWM：为了维持生计，架构知识+分布式微服务+高并发高可用高性能知识序幕就此拉开（二：网关balabala）~整起

java基础巩固-宇宙第一AiYWM：为了维持生计，架构知识+分布式微服务+高并发高可用高性能知识序幕就此拉开（二：网关balabala）~整起

上集，在架构知识分布式微服务高并发高可用高性能知识序幕就此拉开（一：总览篇）中，说到了当用户请求过来时，这个请求或者说URL先到服务调用端【咱们之前的项目中的Controller其实就算是一个服务调用方&#…

阅读更多...

VMware ESXi 8.0 SLIC Unlocker 集成网卡驱动和 NVMe 驱动 (集成驱动版)

VMware ESXi 8.0 SLIC Unlocker 集成网卡驱动和 NVMe 驱动 (集成驱动版)

发布 ESXi 8.0 集成驱动版，在个人电脑上运行企业级工作负载请访问原文链接：VMware ESXi 8.0 SLIC & Unlocker 集成网卡驱动和 NVMe 驱动 (集成驱动版)，查看最新版。原创作品，转载请保留出处。作者主页：www.sysi…

阅读更多...

【Pytorch】第 3 章：进行数值估计的蒙特卡洛方法

【Pytorch】第 3 章：进行数值估计的蒙特卡洛方法

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎 📝个人主页－Sonhhxg_柒的博客_CSDN博客 📃 🎁欢迎各位→点赞…

阅读更多...

Java ssh框架 mysql实现的进销存管理系统源码+运行教程+文档

Java ssh框架 mysql实现的进销存管理系统源码+运行教程+文档

今天给大家演示一下一款由sshmysql实现的进销存管理系统，其中struts版本是struts2，这个系统的功能非常完善，简直可以说是牛逼，到了可以用于企业直接商用的地步，此外该项目还带有完整的论文，是Java学习者及广…

阅读更多...

Spark 初识

Spark 初识

文章目录Spark 初识Spark是什么Apache Spark演变为什么使用Spark全快Spark组件Spark CoreSpark SQLSpark StreamingSpark MLlibSpark GraphXSparkRpySparkspark 在数仓的应用总结Spark 初识从今天开始我们进入数据仓库的查询引擎篇了，前面我们已经写了大量的文章介…

阅读更多...

三分钟了解LAP编程框架

三分钟了解LAP编程框架

针对Java开发者的灵魂拷问： 1、梳理的流程，关键逻辑是否有遗漏，理解一致吗？ 2、设计时，如何更方便的与产品沟通？原有的设计是否有不合理的？绘制的流程图大家都能理解吗？ 3、测试时&a…

阅读更多...

316页11万字AI赋能智慧水利大数据信息化平台建设和运营解决方案

316页11万字AI赋能智慧水利大数据信息化平台建设和运营解决方案

第一章系统综述 1.1 项目背景 1.2 系统概述 1.3 需求分析 1.3.1 中心管控需求 1.3.2 前端监测需求 1.4 建设目标 1.5 设计原则 1.6 设计依据第二章系统总体设计 2.1 总体设计思路 2.2 架构设计 2.2.1 逻辑架构 2.2.2 系统架构 2.3 关键技术应用 2.4 系统特色…

阅读更多...

代码随想录刷题|LeetCode 647. 回文子串 516.最长回文子序列

代码随想录刷题|LeetCode 647. 回文子串 516.最长回文子序列

647. 回文子串题目链接：https://leetcode.cn/problems/palindromic-substrings/ 思路动态规划思路 1、确定dp数组布尔类型的dp[i][j]：表示区间范围[i,j] （注意是左闭右闭）的子串是否是回文子串，如果是dp[i][j]为tr…

阅读更多...

【真的？】用 ChatGPT 写一篇 Python 翻译库博客，可以打 9 分

【真的？】用 ChatGPT 写一篇 Python 翻译库博客，可以打 9 分

今天来个大的实践项目，用 ChatGPT 写一篇博客，冲击一下热榜！ 从零开始玩 ChatGPT⛳️ ChatGPT 亮点⛳️ 账号篇⛳️ 第一次使用⛳️ 用 Python 实现一个英汉互译的小程序⛳️ googletrans 库核心用法⛳️ 再补充一些知识点⛳️ googletrans 和…

阅读更多...

功率放大电路和电压放大电路的区别是什么意思

功率放大电路和电压放大电路的区别是什么意思

功率放大电路和电压放大电路都属于模拟电路，是工程师日常经常用到的比较常见的模拟电路，很多小白工程师对于功率放大电路和电压放大电路的区别都很好奇，下面就来看看区别有哪些。图：功率放大电路与电压放大电路对比 1、功能和基本…

阅读更多...

docker之网络配置

docker之网络配置

目录一、网络模式1.bridge模式(默认模式)2.host模式3.初识网络模式二、bridge模式三、host模式四、自定义网络一、网络模式 Docker在创建容器时有四种网络模式：bridge/host/container/none，bridge为默认不需要用–net去指定，其他三种模式需要…

阅读更多...

微服务框架 SpringCloud微服务架构 19 文档操作 19.2 修改文档

微服务框架 SpringCloud微服务架构 19 文档操作 19.2 修改文档

微服务框架【SpringCloudRabbitMQDockerRedis搜索分布式，系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 SpringCloud微服务架构文章目录微服务框架SpringCloud微服务架构19 文档操作19.2 修改文档19.2.1 修改文档19.2.2 总结19 文档操作 19.2 修…

阅读更多...

推荐一款超级好用的工具：uTools详解使用

推荐一款超级好用的工具：uTools详解使用

介绍 uTools 是什么？下载并安装uTools 能做什么？一切皆插件超级面板 uTools 是什么？ uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件，打造你得心应手的工具集合。通过快捷键（默认 alt…

阅读更多...

推荐文章

最新文章