【小白学机器学习26】 极大似然估计,K2检验,logit逻辑回归(对数回归)(未完成----)

news2024/11/28 0:58:06

目录

1 先从一个例题出来,预期值和现实值的差异怎么评价?

1.1 这样一个问题

1.2 我们的一般分析

1.3 用到的关键点1

1.4 但是差距多远,算是远呢?

2 极大似然估计

2.1 极大似然估计的目的

2.1.1 极大似然估计要解决什么问题?

2.1.2 极大似然估计的原则:

2.2 什么是极大似然估计?

2.2.1 定义

2.2.2  似然率,likehood

2.3 如何理解

2.4 如何落地?具体用什么来验证极大似然估计? K2检验

3 K2检验 (K^2检验,K^2显著度检验)

3.1 K2检验

3.2 K2值de公式

3.3 K2值de判断逻辑

3.4 具体步骤

3.5 K2值表

3.5.1 K2分布表

3.5.2 特点

3.6 K2分布的曲线

3.6.1 曲线图形

3.6.2 特点

3.7 K2检验有2个要素

3.8 K2检验的过程

3.8.1 K2值独立检验

4 对数回归

4.1 什么叫对数回归 logit regression

4.1.1 似然率,likehood

4.1.2 从概率到→发生率

4.1.3 发生率的对然对数回归

5 为什么要用对数回归?

5.1 线性回归的局限性

5.1.1 具体举个例子

5.2 什么原因引起的?

5.3 怎么解决? 

5.3.1 解决办法

5.3.2 对数回归的方法 logit regression

5.3.3 概率转化为发生率后,发生率的变化不对称

6 和机器学习的sigmoid函数(也叫逻辑函数)的关系(待完善)


1 先从一个例题出来,预期值和现实值的差异怎么评价?

1.1 这样一个问题

SPSS,还有戏说统计那本数上都有

一个关于员工其实的数据例子,其中假设有这么一些数据
整体员工里,黑人和白人的比例,60:40
经理员工里,黑人和白人的比例,4:20

那么我们简单一看,就知道这两者比例不一样,那么这两者差距够大吗?是否可以作为黑人被歧视的证据之一呢?

1.2 我们的一般分析

  • 第1:我们先有现在的这个现实数据了,但是我们不知道是否合理
  • 第2:我们假设每个人都是平等的有成为经理的可能性。
  • 先假设前提55开,也就是每个黑人和白人都是50%可能成为经理
  • 那么假设员工人数里,就是合理现状,往下推论
  1. 现实的世界:SUM=24, 经理的现状4/20
  2. 按50%推测世界:(60*0.5=30) / (20*0.5=10)=3:1 ,SUM里应该分布是18/6
  • 实际的和我们推测的数据差异很大,从而说明有问题,应然和实然差距太远

1.3 用到的关键点1

现实值,和预期值的差异,就是关键!

  1. 现实值VS预期值,对比
  2. 现实的世界 / 实然的世界:
  3. 按50%推测世界/ 应然的世界:

1.4 但是差距多远,算是远呢?

  • 这就需要用到假设检验了
  • 假设检验的方法就是,一般设定原假设,两者没差异H0。
  • 然后给定一个我们能接受的显著度比如5%,双边检验。如果我们检验出来的值对应的概率,大于5%,我们就接受原接受。
  • 如果对应的概率小于我们设定的显著度,那我们认为:在H0的假设下,现实已经发生的是小概率事件,不应该发生,从而拒绝原假设。

2 极大似然估计

2.1 极大似然估计的目的

上面引出的问题:预期值和现实值的差异怎么评价,就是极大似然估计要解决的问题

2.1.1 极大似然估计要解决什么问题?

  • 极大似然估计要解决什么问题?:是用来判断预期值和现实值之前的差距,从而去推测过去应该是什么样子!

2.1.2 极大似然估计的原则:

  • 极大似然估计的原则:现实一定是对应过去发生最大的概率的分支!
  • 如果按照H0假设,推测发现已经存在的现实,并不是最大概率(小于显著度),那么就拒绝原假设!

2.2 什么是极大似然估计?

2.2.1 定义

定义:在现实已经发生的基础上,去回溯到过去,推测过去的某个时刻,自然量和因变量是什么样的关系时,现实的发生概率最大?这个推测过程,就是极大似然估计

简单定义:

  • 过去最大概率对应的那个分支,极有可能就是现实!
  • 现实就是,过去发生的各种可能里概率最大的那种情况!

2.2.2  似然率,likehood

  • 现在的可能性—针对是未来,概率,probility
  • 过去的可能性—针对是过去,似然率,likehood

2.3 如何理解

     可以认为是一个类似坐上时光机去回溯,或者就是思想试验的东西
     这个思想试验,是一个模型,就是认为现在往回去倒推,过去自变量和因变量的关系,现实应该是其中发生概率最大的可能对应的那个事件。如果推导不是这也,那就错了。这个就是极大似然估计。

2.4 如何落地?具体用什么来验证极大似然估计? K2检验

见下面


3 K2检验 (K^2检验,K^2显著度检验)

3.1 K2检验

  • chi-square test of independence
  • K2检验和 自由度 高度相关
  • K2就是chi-square,也就是 “ chi 的平方值 ”

3.2 K2值de公式

  • K2=Σ(观察值-预期值)^2/预期值
  • K2=(O1-E1)^2/E1+(O2-E2)^2/E2+…..+ (On-En)^2/En

3.3 K2值de判断逻辑

  • 需要查表,根据当前的df+概率值的 二维交叉表,可以查到当前的K2值,在指定的df下,其发生的概率大多是多大,如果是小概率的事件,就拒绝。因为极大概率不会发生!
  • 这也就是极大似然估计的逻辑。

3.4 具体步骤

  • K2值是作为一个查表数值
  • 去一个 df*概率的二维交叉表里去差K2数值在那一列!(df决定了行,df和K2共同决定了列!)
  • 这样反查概率。
  • 用概率率来判断,如果概率很小,证明是小概率事件,发生可能性很小,拒绝H0假设!

3.5 K2值表

3.5.1 K2分布表

  • 横轴,行:自由度,DF
  • 纵轴,列:概率
  • 表中的值,K2值

3.5.2 特点

  • 自由度df越大,自由的单元格就更多,表里同样概率对应的K2值就会更大
  • 反过来说,也就是出现较大K2值的概率就越大

3.6 K2分布的曲线

3.6.1 曲线图形

  • 横轴表示K2值,x
  • 纵轴表示概率值,f(x)
  • 不同的曲线表示不同df对应的  K2-概率曲线--也就是图上的K参数

  • 看经典的K2的曲线。
  • 自由度比较小的时候,单调下降
  • 自由度比较大之后就开始接近正态分布的钟形曲线了,超过20接近正态

  • T值检验T值也和自由度有关系,但关系比较松散不用太关心。
  • 因为T检验一般检验连续变量,连续变量自由度很容易超过20,一般不考虑这个限制。
  • 但是K2分布,一定要看自由度DF
  • 一般自由度越大的K2曲线,K2的值,均值都会更大。

3.6.2 特点

可以看到变化

  • 1 前面k=1 k=2的事后,是个完全单调下降的曲线,从df=3开始就开始接近正态分布,
  • 2 自由度越大,越接近于正态分布
  • 3 在自由度比较大时,比如df大于8,大于20,都可以比较多条曲线,就是同样的K2值(平行于纵轴的竖线)与对应的不同曲线的相交点,DF越大的曲线对应的概率越大
  • 反过来说,就是比较不同的自由度,自由度越大的曲线,对应同样的K2值,其对应的纵轴的概率会越大!

3.7 K2检验有2个要素

  • 自由度
  • K2值

3.8 K2检验的过程

3.8.1 K2值独立检验

  • 先检验,算出来了确定的K2值的结果下,来判断,
  •  如果自由度小,K2一般越大,越表示发生的概率小。
  • 因而根据最大似然估计,推测 现在不可能是小概率发生,从而用K2检验拒绝了原来的假设。
  • 极大似然估计认为,现在一定是 在过去那个事件点发生的概率最大!

4 对数回归

4.1 什么叫对数回归 logit regression

  • 对数回归,即发生率的自然对数回归.
  • 是以过去的可能性/概率为因变量(/结果)的回归分析

这里面有很多子概念,下面逐个拆解

  • 过去的可能性/概率probility=似然率 likehood
  • 发生率
  • 发生率的对然对数回归
  • 为什么要用对数回归

4.1.1 似然率,likehood

  • 现在的可能性—针对是未来,概率,probility
  • 过去的可能性—针对是过去,似然率,likehood

4.1.2 从概率到→发生率

  • 我们这里不直接衡量,过去事情的发生率α,而是衡量其发生率
  • 发生率=某个事件发生的概率/此事件不发生的概率
  • α/(1-α)

4.1.3 发生率的对然对数回归

  • 发生率的对然对数回归
  • Ln(α/(1-α))
  • 这个才是对数回归中,概率的测量单位: 发生率的自然对数。


5 为什么要用对数回归?

因为线性回归经常会遇到问题

5.1 线性回归的局限性

有时候用线性回归会出现 负数系数,负数截距等,而这是逻辑上不可能的情况

  • 比如上学年数是收入的负相关系数,截距也为负等等
  • 还会出现概率超过1情况
  • 等等逻辑上很怪异的情况

5.1.1 具体举个例子

比如现实中的成绩只有 合格,不合格两档次,而且又没有具体的分数,我们需要分析人们及格的概率,需要怎么做呢?如果我们这么设计

5.2 什么原因引起的?

线性回归遇到问题的原因

  • 原因1:如果纯都是定量数据就没问题,但是一旦里面混入了定性/定类数据,就有了问题
  •            比如分析模型里有,年龄,成绩,这种定比数据,还有男女,是否经理这种定类数据都作为自变量时就有可能出现这样的情况
  • 原因2:本身变量之间的关系就很复杂,不适合用线性关系来描述
  • 原因3:其他

5.3 怎么解决? 

5.3.1 解决办法

1 对数回归是方法之一:用对数函数处理后,结果还可以用线性表示

2 其他方法

5.3.2 对数回归的方法 logit regression

  • 其实还是用的线性回归,只是用对数函数做了中转。
  • 因为必须改成曲线回归
  • 如何做曲线回归,很难
  • 而用对数,可以变换成其他直线回归

5.3.3 概率转化为发生率后,发生率的变化不对称


概率转化为发生率后,发生率的变化不对称。但是发生率的自然对数。Log of  it =p/(1-p) 却是对称的,正是利用了对数函数的这一效果。

  • 概率,转化为发生率后,发生率的变化不对称。
  • 发生率不对称,因为是比率,分母分子变化不对等
  • 0.9/0.1=9            变化大,发生率变化小
  • 0.99/0.01=99
  • 0.999/0.001=999
  • 0.9999/0.0001=9999  微量变化小,反而发生率变化很大。

  • 转化为发生率的自然对数。
  • Log of  it =ln(p/(1-p))
  • e=2.718
  • 所以用自然对数,变成稳定的-4.5~4.5之间了

6 和机器学习的sigmoid函数(也叫逻辑函数)的关系(待完善)

【机器学习】逻辑回归原理(极大似然估计,逻辑函数Sigmod函数模型详解!!!)-腾讯云开发者社区-腾讯云在KNN算法中直接可以得出预测结果,但是如果想输出预测结果,还要输出预测结果的概率,这时候就需要使用逻辑回归解决问题。icon-default.png?t=O83Ahttps://cloud.tencent.com/developer/article/2450449https://zhuanlan.zhihu.com/p/696212659icon-default.png?t=O83Ahttps://zhuanlan.zhihu.com/p/696212659

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2227753.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Mount Image Pro,在取证安全的环境中挂载和访问镜像文件内容

天津鸿萌科贸发展有限公司从事数据安全服务二十余年,致力于为各领域客户提供专业的数据恢复、数据备份解决方案与服务,并针对企业面临的数据安全风险,提供专业的相关数据安全培训。 天津鸿萌科贸发展有限公司是 GetData 公司数据恢复与取证工…

什么是元件符号什么是封装

话不多说直接上图 左上角就可以理解为元件的符号,右上角可以理解为元件的封装,右下角是封装得3D图,左下角是真实的芯片。 同时注意我们元件符号的小孔,在封装和焊接时我们可以参照小孔的位置以及对应的引脚。如下图所示&#xff…

AUTOSAR 规范中的设计模式:传感器执行器模式

在 AUTOSAR Adaptive Platform (AP) 规范中,传感器执行器模式是一种典型的设计模式,主要用于实时控制系统中,用来实现传感器数据的获取和执行器指令的发送。该模式通过分离传感器和执行器的实现,使其独立运行并且能够通过某种通信…

【网页设计】学成在线案例

Demo 典型的企业级网站,目的是为了整体感知企业级网站的布局流程,复习以前知识。 集合代码见文章最后。 5.1 准备素材和工具 学成在线 PSD 源文件。开发工具 PS(切图) sublime(代码) chrome&#xff0…

第三十三篇:TCP协议如何避免/减少网络拥塞,TCP系列八

一、流量控制 一般来说,我们总是希望数据传输得更快一些,但是如果发送方把数据发送得太快,接收方可能来不及接收,造成数据的丢失,数据重发,造成网络资源的浪费甚至网络拥塞。所谓的流量控制(fl…

基础知识-因果分析-daythree-独立性检验-贝叶斯公式及应用

根据概率乘法公式有P(AB)P(B|A)P(A)变形为除法形式,则有 更一般地,假设事件的集合B1,B2,…,Bn构成样本空间的一个划分,则根据全概率公式有 将式(2.14)中的B替换为Bi,则有 再代入P(A)的全概率计算…

QT界面开发--我的第一个windows窗体【菜单栏、工具栏、状态栏、铆接部件、文本编辑器、按钮、主界面】

经过前面的铺垫,今天我们就开始我们图形化界面之旅了,我们的第一个窗体主要包括:菜单栏、状态栏、工具栏、铆接部件、还有Qt提供的一些主窗体的API。 第一部分:主界面(QMainWindow) 当创建好项目后,我们直接运行&…

Docker镜像的创建、修改与导出

Docker镜像的创建、修改与导出 前言一、创建Docker镜像1. 基于已有镜像创建方法一:修改现有镜像方法二:使用Dockerfile通过源码编译安装nginx二、修改Docker镜像1. 基于已有镜像创建新镜像方法一:修改现有镜像2. 使用`docker commit`命令创建新镜像方法一:提交正在运行的容…

3GPP协议解读_NTN系列(一)_38.811_非地面网络(NTN)的背景、应用场景和信道建模

非地面网络 1. Scope4. 非地面网络背景介绍4.1 5G中的非地面网络4.2 非地面网络在5G中的用例4.3 卫星和空中接入网的架构4.4 卫星和空中接入网终端的特点4.5 空气/星载飞行器特性4.6 NTN的覆盖模式4.7 NTN网络架构选项4.8 频谱 5. 非地面网络应用场景5.1 应用场景概览5.2 属性介…

基于SSM+小程序的智慧旅游平台登录管理系统(旅游2)

👉文末查看项目功能视频演示获取源码sql脚本视频导入教程视频 1、项目介绍 旅游平台开发微信小程序功能有管理员和用户。 1、管理员功能有个人中心,用户管理,景点分类管理,旅游景点管理,景点购票管理,景…

函数式接口与回调函数实践

函数式接口与回调函数实践 一、Java 的函数式接口 是指仅包含一个抽象方法的接口,通常用于 lambda 表达式或方法引用。Java 8 引入了很多内置的函数式接口,比如 Runnable、Callable、Predicate、Function、Consumer 等 演示,数据类型转换的函…

小米迎来「新起点」:硬核创新从超越到引领,小米SU7 Ultra 发布

发布 | 大力财经 10月29日,小米15系列暨小米澎湃OS 2新品发布会在北京召开,小米集团创始人、董事长兼CEO雷军宣布了小米汽车原型车在纽北跑出6分46秒874的圈速,登顶“纽北全球最速四门车”的好消息,并领衔发布了小米15系列手机、…

Go语言优秀的web框架推荐-酒香也怕巷子深 好的框架也需要宣传

温馨提示:我们分享的文章是给需要的人,不需要的人请绕过,文明浏览,误恶语伤人! 前言 俗话说得好“酒香也怕巷子深”,好的东西不宣传也不能让大家知晓!需要的人无法获取好的东西,好…

双十一特辑,解决铲屎官难题——性价比高的宠物空气净化器推荐

谁家好人受得了猫咪这么掉毛啊!最近换季,掉毛情况越发严重,家里都快被毛发淹没了。每天下班回来,第一件事就是清扫一地的猫毛。那就算了,一呼吸还收获一鼻子浮毛,又是沉重一击,这日子快要没法过…

如何在 Windows 上安装 Python:一步一步的指南

Python 已成为 当今最受欢迎的编程语言之一,在商业的各个领域中广泛应用。开发者使用 Python 构建应用程序和开发网站,而数据工程师则使用 Python 进行数据分析、统计分析以及构建机器学习模型。 检测是否已安装Python 默认情况下,Windows …

自动驾驶-传感器简述

自动驾驶车辆上的传感器类型包含激光雷达、毫米波雷达、相机、imu、rtk、超声波雷达等,这些传感器用来接收外部世界多姿多彩的信号,根据接收到的信号,车载大脑对信号进行处理,那信号的准确程度就尤为重要。 本文将各个传感器的特性…

文本列的性能优化?深入Oracle全文索引

一.什么是全文索引? 全文索引通过分析和处理文本,将文档中的单词分解为词条(tokens),然后存储词条与其所在文档的映射关系。这使得数据库可以快速定位包含特定关键字的记录,而不必对所有文本逐字匹配。 二…

解决IllegalAccessException: java.lang.Class<xxx.xActivity> is not accessible

异常信息 Caused by: java.lang.IllegalAccessException: java.lang.Class<com.xxx.xActivity> is not accessible from java.lang.Class<android.app.AppComponentFactory>at java.lang.Class.newInstance(Native Method)at android.app.AppComponentFactory.inst…

基于spootboot学生选课系统设计与实现

资料下载 https://download.csdn.net/download/qq_63753925/89888794 https://download.csdn.net/download/qq_63753925/89888793 https://download.csdn.net/download/qq_63753925/89885091 https://download.csdn.net/download/qq_63753925/89882320 摘 要 近年来&#xf…

计算机网络IP地址分类,子网掩码,子网划分复习资料

IP 地址的概念 IP 地址是独立于硬件地址的逻辑地址&#xff0c;它是由软件提供的地址。 IP 地址是网络层地址。 IP 编址方案和分类 IP 地址由 32 位二进制数构成&#xff0c;分为前缀(网络地址)和后缀(主机地址) 同一网段中每台计算机的 IP 地址是唯一的网络地址的分配全球…