ccc-Logistic Regression-李宏毅(5)

news2024/12/23 10:07:11

文章目录

        • Step 1: Function Set
        • Step 2: Goodness of a Function
        • Step 3: Find the best function
        • Why not Logistic Regression + Square Error
        • Discriminative v.s. Generative
        • Multi-class Classification(3 Class)
        • Limitation of Logistic Regression
          • Cascading logistic regression models
        • Deep Learning!

上次通过贝叶斯推导出了一个线性的函数,这里尝试直接求解这个函数并称其为逻辑回归

Step 1: Function Set

在这里插入图片描述
它与linear regression模型不同在于输出:
在这里插入图片描述
其中 w : w i g h t w:wight w:wight , b : b i a s b:bias b:bias , x i : i n p u t x_i:input xi:input

Step 2: Goodness of a Function

假设N个training data从函数 f w , b ( x ) = P w , b ( C 1 ∣ x ) f_{w,b}(x)=P_{w,b}(C_1|x) fw,b(x)=Pw,b(C1x)产生,现在需要找到最好的参数 w ∗ w^* w b ∗ b^* b使 L ( w , b ) L(w,b) L(w,b)(likelihood)最大,公式表达如下:
在这里插入图片描述
通过对数似然可以转化成求解最小值,相乘转化成相加,同时约项有:
在这里插入图片描述
合并累加有:
在这里插入图片描述
Cross entropy意思是交叉熵,可以理解为两个伯努利分布的损失函数,当两者一样结果为0。与Linear Regression对比如下:
在这里插入图片描述

Step 3: Find the best function

image-20230211220700923
原始求解函式如下:
image-20230211220546373
第一项计算得:
image-20230211221237948
第二项计算得:
image-20230211221330057
代入原式整理后有:
image-20230211221612696
由这个结果可以知道,权重更新由3个参数决定:learning rate,x, y ^ n − f w , b ( x n ) \hat y_n-f_{w,b}(x^n) y^nfw,b(xn)即预测与实际的差异,表示如下:

Linear Regression与Logistic Regression梯度下降更新步骤相同:

但要注意Logistic的 y ^ \hat y y^是0或1,而Linear的是任意实数

Why not Logistic Regression + Square Error

三步建立Model如下:
在这里插入图片描述
但是这样会出现混淆,样本距离目标很近或很远时梯度计算都很小,这样会导致距离远时收敛过慢
image-20230211223001520
对比图如下:
在这里插入图片描述
可以看到,Cross Entropy距离目标越远,微分值越大,参数update越快;Square Error距离目标很远时候,微分值很小,参数update就很慢。可能你会想到,我们可以在Square Error的微分值很小的时候把learning rate设的大一点,但微分值很小的时候,也有可能是距离目标值很近,我们分不清楚微分值小时候是距离目标很近还是很远,所以没办法确定learning rate设置是小还是大。所以, 我们使用Cross Entropy可以让training顺利很多。

Discriminative v.s. Generative

  • 判别模型:如logistic regression直接寻找w和b
  • 生成模型:如Gaussian先假设再寻找(脑补特性)

不同方式具体表示图如下:
在这里插入图片描述
在本次实验中两者表现如下:
在这里插入图片描述
可以看到判别式效果好一些,一般也认为判别式效果更加。生成式有优势具体场景如下:
image-20230211225047197

GenerativeDiscriminative
概率联合概率P(X,Y)后验概率 P ( Y ∣ X ) P(Y|X) P(YX)
解释首先建立样本的联合概率概率密度模型P(X,Y),然后再得到后验概率 P ( Y ∣ X ) P(Y|X) P(YX),再利用它进行分类(所有概率进行比较,取最大的一个)输入属性X可以直接得到Y。有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型
特点尝试去找到底数据是怎么生成的,基于假设不进行过多假设,不关心数据产生,只关心差异
优点生成模型收敛速度比较快,即当样本数量较多时,生成模型能更快地收敛于真实模型直接学习 P ( Y ∣ X ) P(Y|X) P(YX)或f(X),可以对数据进行抽象、定义特征并使用特征,因此可以简化学习问题。直接面对预测,准确率较高
缺点需要更多的样本和更多计算,只需要做分类任务,就浪费了计算资源决策函数Y=f(X)或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX),不能反映训练数据本身的特性

Multi-class Classification(3 Class)

计算不同类别的z值,放入Softmax函数中(又称激活函数,即取指数后归一)
在这里插入图片描述 Softmax拉大最大值与最小值的差距,即强化最大值。之后就可以计算预测和真实的交叉熵
在这里插入图片描述
需要注意给分类增加限制,采用one-hot编码
在这里插入图片描述

Limitation of Logistic Regression

某些时候,Logistic Regression并不能做到分类成功,但数据有一个异或的关系时,是无论无和都分类不成功的:
在这里插入图片描述
可以人为Feature Transformation将样本位置进行转换尝试分类:
在这里插入图片描述
需要一种机器帮助Transformation的算法,下面就是咯!

Cascading logistic regression models

将样本的Logistic 用来做feature transformation,再另外用一个Logistic预测,具体图如下:
在这里插入图片描述
效果图如下:
在这里插入图片描述

Deep Learning!

多层的特征转换就形成了Neural Network(神经网络)即Deep learning 的领域!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/340111.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sklearn降维算法1 - 降维思想与PCA实现

目录1、概述1.1 维度概念2、PCA与SVD2.1 降维实现2.2 重要参数n_components2.2.1 案例:高维数据的可视化2.2.2 最大似然估计自选超参数2.2.3 按信息量占比选超参数1、概述 1.1 维度概念 shape返回的结果,几维几个方括号嵌套 特征矩阵特指二维的 一般来…

pwn手记录题2

fastbin_reverse_into_tcache(2.34) 本题所使用的libc版本为2.34;(最新版 libc2.34版本已经没有了所谓的hook函数,甚至exit_hook(实际为某个函数指针)也已经不能够使用;能够利用的手法已经很少了; 高版本glibc堆的几…

进程间通信(上)

进程间通信(上)背景进程间通信目的进程间通信发展进程间通信分类管道什么是管道匿名管道实例代码简单的匿名管道实现一个父进程控制单个子进程完成指定任务父进程控制一批子进程完成任务(进程池)用fork来共享管道站在文件描述符角…

C++:类和对象(中)

文章目录1 类的6个默认成员函数2 构造函数2.1 概念2.2 特性3 析构函数3.1 概念3.2 特性4 拷贝构造函数4.1 概念4.2 特性5 赋值运算符重载5.1 运算符重载5.2 赋值运算符重载5.3 前置重载和后置重载6 日期类的实现7 const成员8 取地址及const取地址操作符重载1 类的6个默认成员函…

【C++初阶】十三、模板进阶(总)|非类型模板参数|模板的特化|模板分离编译|模板总结(优缺点)

目录 一、非类型模板参数 二、模板的特化 2.1 模板特化概念 2.2 函数模板特化 2.3 类模板特化 2.3.1 全特化 2.3.2 偏特化 三、模板分离编译 四、模板总结(优缺点) 前言:之前模板初阶并没有把 C模板讲完,因为当时没有接触…

Java——聊聊JUC中的原子变量类

文章目录: 1.什么是原子变量类? 2.AtomicInteger(基本类型原子变量类) 3.AtomicIntegerArray(数组类型原子变量类) 4.AtomicMarkableReference(引用类型原子变量类) 5.AtomicInteger…

二叉树OJ题(上)

✅每日一练:100. 相同的树 - 力扣(LeetCode) 题目的意思是俩棵树的结构不仅要相同,而且每个节点的值还要相同,如果满足上面2个条件,则成立! 解题思路: 从三个方面去考虑&#xff1…

分布式之分布式事务V2

写在前面 本文一起来看下分布式环境下的事务问题,即我们经常听到的分布式事务问题。想要解决分布式事务问题,需要使用到分布式事务相关的协议,主要有2PC即两阶段提交协议,TCC(try-confirm-cancel)&#xf…

FPGA产业发展现状及人才培养研究报告

文章目录一、FPGA赋能智能时代二、FPGA市场现状及挑战2.1 FPGA市场发展现状2.2 FPGA主要应用场景2.3 人才问题成为FPGA发展的桎梏三、FPGA人才需求与人才培养3.1 FPGA人才需求特征3.2 FPGA人才培养现状3.2.1 培养主体3.2.2 培养机制3.2.3 培养人才的目的和宗旨3.2.4 FPGA人才培…

【C++】六个默认成员函数——取地址重载,const成员函数

🍅 初始化和清理 拷贝复制 目录 ☃️1.取地址重载 ☃️2.const取地址操作符重载 这两个运算符一般不需要重载,使用编译器生成的默认取地址的重载即可,只有特殊情况,才需要重载,比如想让别人获取到指定的内容&#xf…

计算机网络3:HTTP1.0和HTTP1.1的区别

目录1. HTTP是什么2.HTTP1.0和HTTP1.1的区别3.名词解释(1)If-Modified-Since(IMS)、Expires(2)If-None-Match,Etag(3)If-Unmodified-Since1. HTTP是什么 超文本传输协议…

2023全新SF授权系统源码 V3.7全开源无加密版本,亲测可用

2023全新SF授权系统源码 V3.7全开源无加密版本。网站搭建很简单,大致看来一下应该域名解析后上传源码解压,访问域名/install就能直接安装。 程序功能简介: 1.盗版入库(26种) 2.快捷登录 3.采用layuiadmin框架 4.易支付认证功能 5.程序自带商城系统…

SSO(单点登陆)

Single Sign On 一处登陆、处处可用 0、前置概念: 1)、单点登录业务介绍 早期单一服务器,用户认证。 缺点:单点性能压力,无法扩展 分布式, SSO(single sign on)模式 解决 : 用户身份信息独…

微信小程序Springboot vue停车场车位管理系统

系统分为用户和管理员两个角色 用户的主要功能有: 1.用户注册和登陆系统 2.用户查看系统的公告信息 3.用户查看车位信息,在线预约车位 4.用户交流论坛,发布交流信息,在线评论 5.用户查看地图信息,在线导航 6.用户查看个…

Win11自定义电脑右下角时间显示格式

Win11自定义电脑右下角时间显示格式 一、进入附加设置菜单 1、进入控制面板,选择日期和时间 2、选择修改日期和时间 3、选择修改日历设置 4、选择附加设置 二、自定义时间显示出秒 1、在选项卡中,选时间选项卡 2、在Short time的输入框中输入H:m…

家政服务小程序实战教程04-页面传参及表单容器

我们在上一篇已经介绍了在生命周期函数中预加载会员信息,首次使用小程序的用户需要进行注册,注册的时候需要选择对应的角色,本篇我们就介绍会员注册的功能。 01 创建页面 会员注册,我们分两个页面,一个是角色选择页面…

VSCode Markdown写作引入符合规范的参考文献

Markdown可以用来写论文,写论文的时候无一例外要用到参考文献,今天来谈谈怎么自动生成参考文献。之前讲了怎么导出的pdf,文章在这里 VSCode vscode-pandoc插件将中文Markdown转换为好看的pdf文档(使用eisvogel模板) …

CMake中target_precompile_headers的使用

CMake中的target_precompile_headers命令用于添加要预编译的头文件列表&#xff0c;其格式如下&#xff1a; target_precompile_headers(<target><INTERFACE|PUBLIC|PRIVATE> [header1...][<INTERFACE|PUBLIC|PRIVATE> [header2...] ...]) # 1 target_preco…

select 与 where、group by、order by、limit 子句执行优先级比较

当 select 和 其他三种语句的一者或者多者同时出现时&#xff0c;他们之间是存在执行先后顺序的。 他们的优先级顺序是&#xff1a;where > group by > select > order by > limit 目录 1、select 与 where 2、group by 与 where 、select 2、select 与 order…

【Call for papers】CRYPTO-2023(CCF-A/网络与信息安全/2023年2月16日截稿)

Crypto 2023 will take place in Santa Barbara, USA on August 19-24, 2023. Crypto 2023 is organized by the International Association for Cryptologic Research (IACR). The proceedings will be published by Springer in the LNCS series. 文章目录1.会议信息2.时间节…