深度学习中的logit到底是什么?

news2024/10/11 3:18:09

1. 问题

在做深度学习的过程中,经常会碰到logit。这个和在学校学的概率有出入,因而想弄明白这到底是个什么参数。

2. 使用logit的原因

定义几率(odds)和 logit 函数的主要原因在于使用了线性空间转换,使得非线性的概率关系问题变成线性化

  • 将非线性的概率关系线性化,使得线性回归模型可以处理分类问题;
  • 几率作为概率的一种解释方式,能提供直观的物理意义;
  • Logit 函数的逆函数(sigmoid)确保了预测的概率值在 0 到 1 之间;
  • 利于采用最大化似然估计方法来进行参数估计和模型优化。

3. 详细解释

通过这个定义,逻辑回归能够以一种线性方式处理分类问题,从而实现对概率的合理预测。

定义几率(odds)logit函数的原因,是为了将二分类问题中的概率关系转化为一种线性的表示,使得回归模型能够处理概率预测。这种定义背后有几层考虑:

3.1. 解决非线性问题

在二分类问题中,概率 ( p ) 的值介于 0 到 1 之间,这本质上是非线性的。直接用线性回归模型预测概率会导致一些问题,因为线性模型可能会产生不在 ( [0, 1] ) 范围内的值。而使用对数几率的定义(log odds)可以将概率映射到整个实数范围(从 − ∞ -\infty + ∞ +\infty +),这使得预测更加合理且线性化。
例如:

  • 当事件发生的概率 ( p ) 接近 0 时,logit ln ⁡ ( p 1 − p ) \ln\left(\frac{p}{1 - p}\right) ln(1pp) 的值接近 − ∞ -\infty
  • 当事件发生的概率 ( p ) 接近 1 时,logit 的值接近 + ∞ +\infty +

通过这个映射,logit 函数能够将 ( p ) 的非线性变化线性化,适应回归模型的需求。

3.2. 可解释性

几率(odds)作为概率的一种替代表示,其物理含义非常直观。几率表示事件发生的相对可能性,比如:

  • 如果某事件发生的概率 ( p = 0.75 ),那么几率 ( \frac{p}{1-p} = 3 ),意味着事件发生的可能性是其不发生的 3 倍。
  • 如果 ( p = 0.5 ),几率为 1,表示事件发生与不发生的可能性相等。

通过对几率取对数(logit),我们能够将这类相对关系进一步转换为实数范围,且通过线性变化表达分类问题的复杂性。

3.3. 线性模型的适应性

逻辑回归中用 logit 函数的一个重要原因是:线性模型不能直接拟合非线性概率。假设我们有一个简单的线性模型:

y = β 0 + β 1 x 1 + ⋯ + β n x n y = \beta_0 + \beta_1 x_1 + \dots + \beta_n x_n y=β0+β1x1++βnxn

如果直接将 ( y ) 作为概率 ( p ),可能会出现模型预测出负的概率值,或者超过 1 的概率值,这显然是不合理的。因此,logit 函数通过这种对数变换,使得线性模型能够更合理地预测分类问题中的概率。

具体来说,逻辑回归模型是将预测变量通过线性回归来预测 logit:

ln ⁡ ( p 1 − p ) = β 0 + β 1 x 1 + ⋯ + β n x n \ln\left(\frac{p}{1 - p}\right) = \beta_0 + \beta_1 x_1 + \dots + \beta_n x_n ln(1pp)=β0+β1x1++βnxn

通过这种方式,logit 保证了预测的概率 ( p ) 始终在 0 和 1 之间。

3.4. Logit 的逆变换(Sigmoid 函数)

Logit 函数的逆变换是 sigmoid 函数,也称为 Logistic 函数:

p = 1 1 + e − ( β 0 + β 1 x 1 + ⋯ + β n x n ) p = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \dots + \beta_n x_n)}} p=1+e(β0+β1x1++βnxn)1

这使得最终得到的概率始终处于 0 到 1 之间,从而解决了线性回归无法处理的非线性问题。

补充材料: 4. 最大化似然估计

在逻辑回归中,我们通常采用最大化似然估计(Maximum Likelihood Estimation, MLE)来优化模型参数。logit 函数的定义使得用最大似然方法推导损失函数时更为方便,也保证了损失函数是凸函数,从而更容易进行优化求解。

4.1. 最大似然估计(MLE)的基本思想

最大似然估计的核心思想是:我们希望找到一组模型参数,使得观测数据在当前模型下的出现概率最大化。换句话说,我们希望估计出一组参数,能够最可能地解释数据。

对于逻辑回归,假设输入特征为 ( X ),输出为 ( y ),我们希望找到一组参数 β 0 , β 1 , . . . , β n \beta_0, \beta_1, ..., \beta_n β0,β1,...,βn 来预测 ( y ) 的概率 p(y|X) 。逻辑回归模型预测的是事件发生的概率 ( p ) 和不发生的概率 ( 1 - p ):

p ( y = 1 ∣ X ) = 1 1 + e − ( β 0 + β 1 x 1 + . . . + β n x n ) p(y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + ... + \beta_n x_n)}} p(y=1∣X)=1+e(β0+β1x1+...+βnxn)1

这是通过逻辑回归模型的 sigmoid 函数(Logistic 函数)来得到的概率值。

4.2. 似然函数(Likelihood Function)

假设我们有一组训练数据 ( X 1 , y 1 ) , ( X 2 , y 2 ) , . . . , ( X n , y n ) (X_1, y_1), (X_2, y_2), ..., (X_n, y_n) (X1,y1),(X2,y2),...,(Xn,yn),每个样本 ( i ) 的输入是 X i X_i Xi,输出标签 y i y_i yi。我们可以构造似然函数,即模型参数使得整个数据集 ( X ) 产生的可能性:

L ( β ∣ X ) = ∏ i = 1 n p ( y i ∣ X i ) L(\beta|X) = \prod_{i=1}^{n} p(y_i|X_i) L(βX)=i=1np(yiXi)

对于二分类问题,如果 y i = 1 y_i = 1 yi=1,那么 p ( y i ∣ X i ) p(y_i|X_i) p(yiXi) 就是模型输出的概率 p;如果 y i = 0 y_i = 0 yi=0,则 p ( y i ∣ X i ) p(y_i|X_i) p(yiXi) 1 − p 1 - p 1p

因此,似然函数可以写成:

L ( β ∣ X ) = ∏ i = 1 n p i y i ( 1 − p i ) ( 1 − y i ) L(\beta|X) = \prod_{i=1}^{n} p_i^{y_i} (1 - p_i)^{(1 - y_i)} L(βX)=i=1npiyi(1pi)(1yi)

其中, p i = 1 1 + e − ( β 0 + β 1 x 1 + . . . + β n x n ) p_i = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + ... + \beta_n x_n)}} pi=1+e(β0+β1x1+...+βnxn)1 是样本 i 的预测概率。

5.3. 取对数似然函数(Log-Likelihood)

为了方便计算,我们通常取似然函数的对数,称为对数似然函数(log-likelihood function)

log ⁡ L ( β ∣ X ) = ∑ i = 1 n [ y i log ⁡ p i + ( 1 − y i ) log ⁡ ( 1 − p i ) ] \log L(\beta|X) = \sum_{i=1}^{n} [y_i \log p_i + (1 - y_i) \log (1 - p_i)] logL(βX)=i=1n[yilogpi+(1yi)log(1pi)]

这是因为对数运算可以将乘积转化为求和,使得计算更简单。这个对数似然函数是逻辑回归的目标函数,最大化这个对数似然函数相当于找到最优的参数 ( \beta ),使得模型最可能地解释数据。

5.4. 损失函数的推导

最大化对数似然函数等价于最小化负对数似然函数,因此我们可以定义损失函数为:

Loss ( β ) = − log ⁡ L ( β ∣ X ) = − ∑ i = 1 n [ y i log ⁡ p i + ( 1 − y i ) log ⁡ ( 1 − p i ) ] \text{Loss}(\beta) = - \log L(\beta|X) = - \sum_{i=1}^{n} [y_i \log p_i + (1 - y_i) \log (1 - p_i)] Loss(β)=logL(βX)=i=1n[yilogpi+(1yi)log(1pi)]

这个负对数似然函数就是逻辑回归的交叉熵损失函数(cross-entropy loss)。它衡量的是模型预测的概率分布与真实分布之间的差异。

5.5. logit 函数的作用

logit 函数 logit ( p ) = ln ⁡ ( p 1 − p ) \text{logit}(p) = \ln\left(\frac{p}{1-p}\right) logit(p)=ln(1pp)在推导过程中起到了重要的作用,它将非线性的概率 ( p ) 转换成了可以用线性模型表示的 log odds。具体地:

  • 我们通过线性回归模型来预测 logit 值 β 0 + β 1 x 1 + . . . + β n x n \beta_0 + \beta_1 x_1 + ... + \beta_n x_n β0+β1x1+...+βnxn,而这个 logit 值再通过 sigmoid 函数转化为概率。
  • 这种转化让我们能够在线性空间内处理分类问题,同时最大化似然估计来优化模型参数。

5.6. 优化过程

通过最小化负对数似然函数(或等价地最大化对数似然函数),我们可以通过梯度下降等优化算法来找到最优的模型参数。

5.7 小结

logit 函数的定义(即对几率取对数)是为了将二分类问题中的非线性概率变换为线性形式,使得逻辑回归可以利用线性回归模型预测事件发生的概率。这个线性化的过程使得我们可以使用最大似然估计法推导出损失函数,即交叉熵损失。通过最小化这个损失函数,我们能够优化逻辑回归模型的参数,从而更好地拟合数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2203938.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FFmpeg 简介及其下载安装步骤

目录 一、FFmpeg 简介 二、FFmpeg 安装步骤 2.1 打开官网 2.2 选择FFmpeg系统版本 2.3 下载FFmpeg压缩包 2.4 将下载好的压缩包进行解压 2.5 设置环境变量 2.5.1 在搜索栏中搜索【环境变量】,然后单击将其打开 2.5.2 找到系统变量中的【Path】,点…

实景三维赋能地下管线综合智管应用

在现代城市基础设施管理中,地下管线作为城市的生命线,其安全、高效的管理至关重要。随着实景三维技术的快速发展,地下管线管理迎来了新的发展机遇。本文将探讨实景三维技术如何赋能地下管线的综合智管应用。 一、地下管线管理面临的挑战 地…

Qt_软件添加版本信息

文章内容: 给生成的软件添加软件的版权等信息 #include <windows.h> //中文的话增加下面这一行 #pragma code_page(65001)VS_VERSION_INFO VERSIONINFO

java遍历数组填充排序

java数组 遍历数组 for循环 遍历二维数组 小案例 // 定义一个包名为nb package nb;// 定义一个名为ErWei的公共类 public class ErWei {// 主方法&#xff0c;程序的入口点public static void main(String[] args) {// 声明并初始化一个二维数组a&#xff0c;其中包含三个一…

jdbc连接数据库时 java.lang.RuntimeException错误解决

url中加入 useSSLfalse SSL(Secure Sockets Layer)&#xff0c;安全套接字协议。 在连接mysql时&#xff0c; 如果MySQL的版本为5.7以上时&#xff0c;必须加上useSSLfalse&#xff0c;直接通过用户账号和密码进行连接MySQL数据库&#xff1b;当MySQL的版本是5.7以下则不进行…

干部管理系统:全面提升干部管理效能

数字化浪潮下&#xff0c;干部管理系统作为管理利器&#xff0c;日益凸显其核心价值。该系统全面实现干部信息的数据化&#xff0c;涵盖从基础档案到教育、工作、培训及考核等全方位细节&#xff0c;信息详尽且条理清晰。这不仅极大提升了干部信息查询与更新的效率&#xff0c;…

中航资本:这个“舰队”猛攻!发生了什么?

今日早盘&#xff0c;A股商场动摇较大&#xff0c;但经过一段下挫之后&#xff0c;很快就被多头拉起。而从盘面来看&#xff0c;以代码601最初的大盘蓝筹股&#xff08;亦是高股息板块&#xff09;今日体现非常突发&#xff0c;盈利ETF大多涨幅在4%左右水平。那么&#xff0c;毕…

MR30系列IO——工业自动化的智慧纽带

一、引言 在工业自动化技术的广阔天地中&#xff0c;MR30系列IO模块、数字量模块以及模拟量模块构成了控制系统的核心基石。它们被广泛应用于可编程逻辑控制器&#xff08;PLC&#xff09;、分布式控制系统&#xff08;DCS&#xff09;等多种自动化系统中&#xff0c;为工业生…

安卓13屏蔽蓝牙匹配对话框 自动匹配 android13屏蔽蓝牙匹配对话框 自动匹配

总纲 android13 rom 开发总纲说明 文章目录 1.前言2.问题分析3.代码分析4.代码修改5.编译6.彩蛋1.前言 设置 蓝牙连接的时候,会有匹配对话框提示。我们来实现自动配对。 2.问题分析 这里我们是通过点击操作来实现功能的,所以我们思路可以是自动点击功能的实现。 3.代码分…

笔记||VUE3

侦听器 | Vue.js (vuejs.org) 模板引用 | Vue.js (vuejs.org)

Java 对接485协议数据基于jSerialComm库

Java 对接 485 协议数据的科普 一&#xff1a;引言 485协议&#xff0c;通常指的是RS-485&#xff0c;它是一种用于长距离通信的标准电气接入规范。由于其优越的抗干扰能力和较长的通信距离&#xff0c;RS-485在工业自动化、楼宇控制等领域得到了广泛应用。本篇文章将介绍如何…

基于Springboot+vue的漫画网站

一、系统架构 前端&#xff1a;vue | element-ui | html 后端&#xff1a;springboot | mybatis-plus 环境&#xff1a;jdk1.8 | mysql | maven | nodejs 二、代码及数据库 三、功能介绍 01. web端-首页1 02. web端-首页2 03. web端-登录 04. web端-注册 05. w…

免费分享:中国县级居民点

数据详情 1:100万中国县级居民点矢量数据 数据属性 数据名称&#xff1a;1:100万中国县级居民点矢量数据 数据时间&#xff1a;2010年之前 空间位置&#xff1a;全国 数据格式&#xff1a;Shp矢量 空间分辨率&#xff1a;- 坐标系&#xff1a;WGS1984 下载方法 打开数字…

5款人声分离免费软件分享,从入门到精通,伴奏提取分分钟拿捏!

人声分离通常是音乐制作、混音和卡拉OK中常用的重要技术之一。它的核心是将乐器伴奏从原始音轨中分离出来&#xff0c;使得用户可以单独处理或重混音频&#xff0c;创造出清晰干净的伴奏轨道。若缺乏强大的音频剪辑软件或专业人声分离工具&#xff0c;这一过程往往会比较困难。…

npm ERR! PhantomJS not found on PATH

安装phantomj时发生报错 old core-js versions could cause a slowdown up to 100x even if nothing is polyfilled. Some versions have web compatibility issues. Please, upgrade your dependencies to the actual version of core-js. npm ERR! code 1 npm ERR! path /va…

2024年【四川省安全员B证】新版试题及四川省安全员B证试题及解析

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年【四川省安全员B证】新版试题及四川省安全员B证试题及解析&#xff0c;包含四川省安全员B证新版试题答案和解析及四川省安全员B证试题及解析练习。安全生产模拟考试一点通结合国家四川省安全员B证考试最新大纲及…

[linux 驱动]网络设备驱动详解

目录 1 描述 2 结构体 2.1 net_device 2.2 sk_buff 2.3 net_device_ops 2.4 ethtool_ops 3 相关函数 3.1 网络协议接口层 3.1.1 dev_queue_xmit 3.1.2 netif_rx 3.1.3 alloc_skb 3.1.4 kfree_skb 3.1.5 skb_put 3.1.6 skb_push 3.1.7 skb_reserve 3.2 网络设备驱…

Meilisearch 和 Ollama 实现文本向量搜索

Meilisearch 是一个开源、快速、简洁的全文搜索引擎&#xff0c;专为构建高性能、实时的搜索功能而设计。其主要特点如下&#xff1a; 极速搜索&#xff1a;Meilisearch 使用反向索引来加速搜索查询&#xff0c;因此能够在海量数据中提供毫秒级的响应时间&#xff0c;尤其适合实…

SPSS 分类模型实训步骤 (以 Logistic 回归为例)

✅作者简介&#xff1a;2022年博客新星 第八。热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏…

VBA即用型代码手册:将工作表复制到已关闭的工作簿

我给VBA下的定义&#xff1a;VBA是个人小型自动化处理的有效工具。可以大大提高自己的劳动效率&#xff0c;而且可以提高数据的准确性。我这里专注VBA,将我多年的经验汇集在VBA系列九套教程中。 作为我的学员要利用我的积木编程思想&#xff0c;积木编程最重要的是积木如何搭建…