【笔记ing】AI大模型-04逻辑回归模型

news2025/4/16 23:26:29

一个神经网络结构,其中的一个神经网络层,本质就是一个逻辑回归模型

深度神经网络的本质就是多层逻辑回归模型互相连接或采用一定的特殊连接的方式连接在一起构成的。其中每一个层本质就是一个逻辑回归模型。

逻辑回归模型基本原理

逻辑回归(Logic)是一种广义线性回归模型(generalized linear model),其与多重线性回归有诸多的相同之处,但其实则是一个分类模型,属于有监督算法,主要用常见的二分类问题求解,是一种采用回归方法的分类模型。

逻辑回归的基本决策函数形态为:

其中的g(*)是可微函数,这类模型也被称为广义线性模型,函数映射关系f(x)被称作为联系函数link function,现今广泛熟知的逻辑回归就是诸多广义回归模型的其中一种。

在逻辑回归中,使用对数几率函数Logistic function作为g^-1(*).对数几率函数的表达式为:

对数几率函数叫做Sigmoid函数

Sigmoid函数是一个在生物学中常见的S型函数,也称作S行生长曲线。由于其单增以及反函数单增等特性,Sigmoid函数常被用作神经网络的激活函数,将变量映射到0-1之间。

利用这个对数几率函数,可以将z转化为一个(0,1)区间内的值。

对数几率函数重要的导数性质

如果将标签y表示分类结果,结合二分类赶驴模型可知,标签结果为正例反例的概率和为1

可以将y表示为出现正例的概率,将1-y表示为出现返利的概率

所以ln y/(1-y)中的y/(1-y)表示正反例出现概率的壁纸,这个比值称作几率,用来表示样本x出现正例的相对可能性。对几率继续取得对数,即ln y/(1-y)即称作对数几率。

上式实则是在利用线性回归模型的预测结果取得逼近真实标记的对数几率。

逻辑回归模型也称作对数几率模型。通过逻辑回归的决策函数给出证明,证明回归确实是一种专用于二分类问题求解的分类模型。

可以依据上述二分类场景进一步给出逻辑回归的损失函数。假设下述两个条件概率成立。

则逻辑回归的损失函数可以表达为关于待评估参数列向量w的似然函数:

当第i个样本的真实标签yi为1时,1-yi的结果就等于0,(1-yi的反^0=1,整体似然函数的极大值就与yi的反^yi有关,表示“预测的标签结果yi的反=1”的概率,如果这个概率能够为1(真实为1,预测为1),则其为必然事件,模型的效果就越好,损失函数就能达到极小化。

当第i个样本的真实标签yi为0时,1-yi的结果就等于1,(yi的反)^1=1,整体似然函数的极大值就与(1-yi的反)^(1-yi)有关,表示“预测的标签结果yi的反=1”的概率,如果这个概率能够为1(真实为0,预测为0),则其为必然事件,模型的效果越好,损失函数就能达到极小化。

对于每一条训练样本,如果总能保证yi的反^yi (1-yi的反)^(1-yi)总是达到最大值1,则构建的二分类模型必然是最想要的模型。

于是可以对每一条样本都来追求最大值1,于是将其连乘,求得的关于待估参数w的似然函数自然希望求得最大值,此时的模型就是一个最优模型。

对上述对数似然函数取负值,即得逻辑回归损失函数,

似然函数取得最大值时的待估参数即可取得最优解

对其取负值就表示:当似然函数取得最大值时,逻辑回归的损失函数将达到极小化

损失函数表达式即为神经网络模型中求解二分类问题时常采用的损失函数:二分类交叉熵损失函数

逻辑回归模型优点

逻辑回归模型可以直接对分类可能性进行建模,该模型不仅可以预测出标签所属的类别,还可以得到近似概率的预测,标签所属某类别的可能性,对于需要利用概率来辅助决策的场景很重要。

对数几率函数是任意阶均可导(知道n阶均可导,具有n阶可导行,因为:(e^x)'=e^x的凸函数,有很多数学相关性质,现有的很多数值优化算法都可直接用于其最优解的求解。

采用梯度下降法对其进行求解。

梯度下降法:数学:一元函数、多元函数微分、积分学章节中关于偏导数、方向导数、全微分及梯度的相关概念。数据挖掘算法:梯度下降法章节中关于梯度下降和梯度上升的相关概念。

逻辑回归模型的实现

借助Pytorch结合逻辑回归的决策函数及损失函数自行构建一个简单的逻辑回归模型。

导包

准备训练数据,暂不考虑数据集划分,构造一个假样本

实现逻辑回归模型对象

执行模型训练,观测模型训练过程,查看损失函数梯度下降过程

损失函数的值伴随迭代梯度下降过程在不断的趋近于极小化,表示模型的建模效果是正确的

逻辑回归模型与神经网络关系密切

逻辑回归的决策函数

决策函数可以看为一个矩阵的线性运算与一个非负函数的复合关系,最终输出y的反(开始更改名次称谓y的反之前称作标签,也即估计量,在此之后的神经网络中称为output layer)

yhat

单层感知机,是一种最简单的神经网络,其中的X即特征,在神经网络中一般称为输入层Input layer,w^T即参数(后续称作权重),Sigmod(w^T X+b)就是输出层output layer,Sigmod函数在神经网络中不再称作非线性函数,称为激活函数activate function

单层感知机引申:可以构建一种人工的类似神经元信息传递的过程,将输入层的数据逐层“传递”最终得到输出结果。使用多个人工神经元构建的多层感知机,就是一种最普遍的人工神经网络,在输入层与输出层之间加入隐藏层,隐藏层的层数可以任意。

深度学习是一种表征学习,要学习的是样本的特征,希望特征的学习更全面。

加入隐藏层的目的是:将特征通过隐藏层映射到更高维的空间,进行更高维的特征表达,能够将样本的特征表达的更清晰,模型学习的特征的效果也越好,最终所得输出层的结果也越符合模型建模方向。

单程感知机、多层感知机

————————————

仅用于本人学习

来源:网络

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2335375.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

记录学习的第二十五天

今天终于又开始更新了。实在是星期六的蓝桥杯给了我一个大大的打击,今天终于好不容易缓过来了,可以好好学算法了。 还是老规划,力扣的每日一题。不过今天的每日一题我之前做过了,就又提交了一次来签到。 之后三道哈希表题目。 我一…

linux电源管理(二),内核的CPUFreq(DVFS)和ARM的SCPI

更多linux系统电源管理相关的内容请看:https://blog.csdn.net/u010936265/article/details/146436725?spm1011.2415.3001.5331 1 简介 CPUFreq子系统位于drivers/cpufreq目录下,负责进行运行过程中CPU频率和电压的动态调整,即DVFS (Dynami…

ES6学习04-数组扩展:扩展运算符、新增方法

一、扩展运算符 1. 2. eg: 3. 二、新增方法 1. arguments 元素组合 类似数组对象 2.

滚轮控制目标臂长度调整相机距离

通过鼠标滚轮来控制摄像机目标臂长度 , 调整相机距离 看图就行,不多说,照着连就完事了

​‌FireCrawl‌爬虫工具​, Craw4ai

‌FireCrawl‌是一款开源的AI爬虫工具,专门用于Web数据提取,并将其转换为Markdown格式或其他结构化数据。FireCrawl特别适合处理使用JavaScript动态生成的网站,能够自动抓取网站及其所有可访问的子页面内容,并将其转换为适合大语言…

pyenv库应用入门与Ubuntu端安装实践

pyenv库应用入门与Ubuntu端安装实践 pyenv概述virtualenv、pyvenv、pyenvvirtualenvpyvenvpyenv Ubuntu端安装pyenv实践安装依赖报错解决安装pyenv配置环境变量更换pyenv源地址 pyenv基本用法安装成功服务器部署scrapyd pyenv概述 pyenv 是一个用于管理多个 Python 版本的工具…

CS5346 - Annotation in Visualization (可视化中的注释)

文章目录 Annotation 的重要性Levels of Annotation (注释的层级)Headings and IntroductionHeadings(标题)陈述型(Statement):突出结论或有趣发现疑问型(Question)&…

如何开发一套场外个股期权交易系统?个股期权交易软件包含:询价,报价,交易,持仓,行权,账户盈亏统计等

一、场外个股期权的定义与特点 场外个股期权(Over-the-Counter Equity Option)是一种由交易双方私下协商的非标准化金融衍生品合约,以特定个股为标的资产。与交易所上市的标准化期权不同,其合约条款(如行权价、到期日…

高速电路中的电阻、电容的选型及应用

2.1 电阻的应用 2.1.1 与电阻相关的经典案例 如果说芯片是电路的骨架,那么电阻就是在芯片之间起连接作用的关节。电阻的阻值、布放位置等,对设计的成功起着至关重要的作用。 【案例2.1】串联电阻过大,导致板间告警失败 某产品由业务板和主…

六、adb通过Wifi连接

背景 收集是荣耀X40,数据线原装全新的,USB连上之后,老是断,电脑一直叮咚叮咚的响个不停,试试WIFI 连接是否稳定,需要手机和电脑用相同的WIFI. 连接 1.通过 USB 连接手机和电脑(打开USB调试等这些都略过) adb device…

‌DeepSeek模型在非图形智能体的应用中是否需要GPU

答:不一定 概念 1、是否需要GPU与应用是否图形处理应用无关 2、文本内容智能体大多也需要GPU来提供更好的性能 3、‌DeepSeek模型在非图形智能体的应用中是否需要GPU取决于具体的模型版本和部署环境 不需要GPU的模型版本 ‌DeepSeek-R1-1.5B‌: 这…

4.14代码随想录第四十三天打卡

图论理论基础 https://www.programmercarl.com/kamacoder/%E5%9B%BE%E8%AE%BA%E7%90%86%E8%AE%BA%E5%9F%BA%E7%A1%80.html 98. 所有可达路径 (1)题目描述: (2)解题思路: #include <iostream> #include <vector> #include <list> using namespace std;vec…

【视频目标分割论文集】Efficient Track Anything0000

github 摘要 视频对象分割和追踪任意目标领域出现了强大的工具——分割任意模型 2&#xff08;SAM 2&#xff09;。SAM 2 实现令人印象深刻的视频对象分割性能的关键组成部分包括用于帧特征提取的大型多阶段图像编码器&#xff0c;以及存储过去帧记忆上下文以辅助当前帧分割的…

码率自适应(ABR)决策的直播场景

直播场景 1. 直播场景的普遍框架与工作原理 主播端&#xff1a;即各类主播&#xff08;游戏、网红歌手、户外达人等&#xff09;&#xff0c;通过手机端或者个人电脑在线直播录制个人活动。 编码服务器&#xff1a;主播端上传视频流以后&#xff0c;编码服务器根据相应的编码转…

SCP-Firmware安全通告:CVE-2024-11863和CVE-2024-11864

安全之安全(security)博客目录导读 目录 一、概述 二、CVE详情 三、受影响产品 四、修复建议 五、致谢 六、版本历史 一、概述 在SCP固件(SCP-Firmware)中发现两处安全漏洞&#xff0c;可能允许普通世界特权软件&#xff08;normal world privileged software&#xff…

双按键控制LED(中断优先级)

1.启动时&#xff0c;两个LED灯熄灭&#xff0c;1秒钟后&#xff08;定时器实现&#xff09;&#xff0c;LED自动点亮&#xff1b; 2.按键1按下后&#xff0c;通过中断int0把两个LED熄灭5s时间&#xff0c;int0优先级设置为最高&#xff08;优先级必须设置&#xff0c;设置后才…

(四)机器学习---逻辑回归及其Python实现

之前我们提到了常见的任务和算法&#xff0c;本篇我们使用逻辑回归来进行分类 分类问题回归问题聚类问题各种复杂问题决策树√线性回归√K-means√神经网络√逻辑回归√岭回归密度聚类深度学习√集成学习√Lasso回归谱聚类条件随机场贝叶斯层次聚类隐马尔可夫模型支持向量机高…

代码随想录第17天:二叉树

一、二叉搜索树的最近公共祖先&#xff08;Leetcode 235&#xff09; 由于是二叉搜索树&#xff0c;节点的值有严格的顺序关系&#xff1a;左子树的节点值都小于父节点&#xff0c;右子树的节点值都大于父节点。利用这一点&#xff0c;可以在树中更高效地找到最低公共祖先。 c…

面试篇 - GPT-1(Generative Pre-Training 1)

GPT-1&#xff08;Generative Pre-Training 1&#xff09; ⭐模型结构 Transformer only-decoder&#xff1a;GPT-1模型使用了一个12层的Transformer解码器。具体细节与标准的Transformer相同&#xff0c;但位置编码是可训练的。 注意力机制&#xff1a; 原始Transformer的解…

【从零实现高并发内存池】内存池整体框架设计 及 thread cache实现

&#x1f4e2;博客主页&#xff1a;https://blog.csdn.net/2301_779549673 &#x1f4e2;博客仓库&#xff1a;https://gitee.com/JohnKingW/linux_test/tree/master/lesson &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01; &…