人工智能与机器学习原理精解【11】

news2024/11/17 7:26:49

文章目录

  • 广义线性模型
    • 基础
    • 理论
      • 泊松分布的基本公式
        • 一、基本公式
        • 二、泊松分布的特点
        • 三、泊松分布的应用场景
        • 四、泊松分布与二项分布的关系
        • 五、总结
      • 泊松回归例子1
        • 例子背景
        • 模型设定
        • 数据收集
        • 模型拟合
        • 结果解释
        • 预测
        • 应用场景
      • 泊松回归例子2
        • 背景
        • 数据准备
        • 模型设定
        • 模型拟合
        • 结果解释
        • 预测
      • 泊松回归例子3
      • 泊松分布
        • 泊松分布的定义
        • 泊松分布的计算
        • 泊松分布的例子
      • 广义线性模型(Generalized Linear Models, GLMs)概述
        • 定义
        • 性质
        • 计算
        • 示例
      • 逻辑回归概述
        • 基本概念
        • Sigmoid函数
        • 参数估计
        • 模型评估
        • 应用场景
        • 逻辑回归的计算过程
        • 逻辑回归的例子
        • 逻辑回归的例题
      • 泊松回归模型概述
        • 一、定义与基本原理
        • 二、模型形式
        • 三、模型特点
        • 四、参数估计
        • 五、应用实例
        • 六、注意事项
  • 参考文献

广义线性模型

基础

  • y = β 0 + β 1 x 1 + β 2 x 2 + . . . + β n x n y=\beta_0+\beta_1x_1+\beta_2x_2+...+\beta_nx_n y=β0+β1x1+β2x2+...+βnxn
    y = β 0 + β 1 x 1 2 + β 2 x 2 2 + β 3 x 1 x 2 + β 4 x 1 + β 5 x 2 y=\beta_0+\beta_1x_1^2+\beta_2x_2^2+\beta_3x_1x_2+\beta_4x_1+\beta_5x_2 y=β0+β1x12+β2x22+β3x1x2+β4x1+β5x2
    等等之类属于线性模型,其中第2个相对于 β \beta β而言,也是线性模型。
  • 泊松回归
    1.泊松回归假设反应变量Y是泊松分布,并假设它期望值的对数可被未知参数的线性组合建模

log ⁡ ( λ ) = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n \log(\lambda) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n log(λ)=β0+β1x1+β2x2++βnxn

其中, λ \lambda λ 是泊松分布的期望(即均值), β 0 \beta_0 β0 是截距项, β 1 , β 2 , … , β n \beta_1, \beta_2, \ldots, \beta_n β1,β2,,βn 是回归系数, x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn 是自变量(解释变量)。
泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型
在这里插入图片描述
在这里插入图片描述
2.泊松分布(Poisson分布),是一种统计与概率学里常见到的离散概率分布

Poisson分布概率函数为:
在这里插入图片描述
泊松分布的参数 λ 是单位时间 ( 或单位面积 ) 内随机事件的平均发生次数 泊松分布的期望和方差均为 λ 泊松分布的参数\lambda是单位时间(或单位面积)内随机事件的平均发生次数\\泊松分布的期望和方差均为\lambda 泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数泊松分布的期望和方差均为λ
泊松分布适合于描述单位时间内随机事件发生的次数。

1.特征
(1)泊松分布是一种描述和分析稀有事件的概率分布。要观察到这类事件,样本含量必须很大 。
(2) λ \lambda λ是泊松分布所依赖的唯一参数。
值愈小,分布愈偏倚,随着 λ \lambda λ增大,分布趋于对称。
(3)当 λ \lambda λ=20时分布泊松分布接近于正态分布;
λ \lambda λ> =50时,可以认为泊松分布呈正态分布。
2.在实际工作中,当 λ ≥ 20 \lambda \ge 20 λ20时就可以用正态分布来近似地处理泊松分布的问题。
3.在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客、某放射性物质发射出的粒子、显微镜下某区域中的白血球等等,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布P(λ)。因此,泊松分布在管理科学、运筹学以及自然科学的某些问题中都占有重要的地位。
引用内容 来自百度百科

  • 泊松回归模型是广义线性模型之一
    λ = e − 3 + 0.3 x \lambda=e^{-3+0.3x} λ=e3+0.3x,如下图所示。
    - λ i = e β 0 + Σ j = 1 p β j X i j \lambda_i=e^{\beta_0+\Sigma_{j=1}^{p}\beta_jX_{ij}} λi=eβ0+Σj=1pβjXij
    两边取对数,将因变量和自变量之间的关系线性化,生成标准连结方程
    l o g e ( λ i ) = β 0 + Σ j = 1 p β j X i j log_e(\lambda_i)=\beta_0+\Sigma_{j=1}^{p}\beta_jX_{ij} loge(λi)=β0+Σj=1pβjXij

理论

下面内容来自文心一言的自动生成

泊松分布的基本公式

泊松分布(Poisson Distribution)是一种统计与概率学中常见的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年发表。泊松分布主要用于描述在固定时间或空间内,随机事件发生的次数。以下是对泊松分布公式的详细解释:

一、基本公式

泊松分布的概率质量函数(Probability Mass Function, PMF)为:

P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λkeλ

其中:

  • X X X 是随机变量,表示在固定时间或空间内随机事件发生的次数。
  • k k k X X X 的一个具体取值,表示发生了 k k k 次事件。
  • λ \lambda λ 是泊松分布的参数,表示单位时间(或单位面积)内随机事件的平均发生次数。
  • e e e 是自然对数的底数,约等于2.71828。
  • k ! k! k! k k k 的阶乘,即 k × ( k − 1 ) × ⋯ × 2 × 1 k \times (k-1) \times \cdots \times 2 \times 1 k×(k1)××2×1,特别地, 0 ! = 1 0! = 1 0!=1
二、泊松分布的特点
  1. 离散性:泊松分布是一个离散型随机变量分布,其取值只能是非负整数。
  2. 参数唯一性:泊松分布仅由参数 λ \lambda λ 决定, λ \lambda λ 越大,表示单位时间内随机事件发生的平均次数越多。
  3. 期望与方差:泊松分布的期望 E ( X ) E(X) E(X) 和方差 V a r ( X ) Var(X) Var(X) 均等于 λ \lambda λ
三、泊松分布的应用场景

泊松分布在实际中有广泛的应用,特别是在以下场景中:

  1. 电话呼叫:在一段时间内,电话交换台接到的呼叫次数通常服从泊松分布。
  2. 交通事故:在一段时间内,某路段上发生的交通事故次数也常被视为服从泊松分布。
  3. 放射性衰变:在放射性物质中,原子核的衰变次数在一定时间内也服从泊松分布。
四、泊松分布与二项分布的关系

泊松分布可以看作是二项分布在 n n n 很大而 p p p 很小时的极限情况。当 n → ∞ n \to \infty n n p → λ np \to \lambda npλ 时,二项分布 B ( n , p ) B(n, p) B(n,p) 趋近于泊松分布 P o i s ( λ ) Pois(\lambda) Pois(λ)

五、总结

泊松分布是一种重要的离散概率分布,其公式 P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λkeλ 描述了单位时间(或空间)内随机事件发生的次数为 k k k 的概率。泊松分布具有广泛的应用场景,并且在概率论和统计学中占有重要地位。

泊松回归例子1

  • 泊松回归(Poisson Regression)是一种广义线性模型,用于建立离散型响应变量(计数数据)与一个或多个预测变量之间的关系。
  • 它基于泊松分布的假设,即响应变量的期望值服从泊松分布,并且该期望值的对数可以被预测变量的线性组合所建模。
    以下是泊松回归的一个详细例子:
例子背景

假设我们想要预测某条道路在一天内发生的交通事故次数。交通事故次数是一个典型的计数数据,适用于泊松回归模型。我们有两个预测变量:道路的平均日车流量(x1,单位:万辆)和道路的平均日行人流量(x2,单位:万人次)。

模型设定

泊松回归的模型形式通常可以表示为:

log ⁡ ( λ ) = β 0 + β 1 x 1 + β 2 x 2 \log(\lambda) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 log(λ)=β0+β1x1+β2x2

其中, λ \lambda λ 是交通事故次数的期望值(即泊松分布的参数), β 0 \beta_0 β0 β 1 \beta_1 β1 β 2 \beta_2 β2 是模型参数,需要通过数据估计得到。

数据收集

我们收集了某条道路一段时间内的交通事故次数数据,以及对应日期的车流量和行人流量数据。这些数据构成了我们的样本数据集。

模型拟合

使用统计软件(如R、Python的statsmodels等)拟合泊松回归模型。在拟合过程中,软件会基于极大似然估计(Maximum Likelihood Estimation, MLE)方法来估计模型参数 β 0 \beta_0 β0 β 1 \beta_1 β1 β 2 \beta_2 β2

结果解释

假设拟合后的模型参数估计结果为: β 0 = − 2 \beta_0 = -2 β0=2 β 1 = 0.05 \beta_1 = 0.05 β1=0.05 β 2 = 0.02 \beta_2 = 0.02 β2=0.02。则模型可以表示为:

log ⁡ ( λ ) = − 2 + 0.05 x 1 + 0.02 x 2 \log(\lambda) = -2 + 0.05 x_1 + 0.02 x_2 log(λ)=2+0.05x1+0.02x2

- β 1 = 0.05 \beta_1 = 0.05 β1=0.05表示,当日车流量每增加1万辆,交通事故次数的期望值的对数将增加0.05。这意味着交通事故次数本身将按指数方式增长,但具体增长量取决于当前的期望值。
- β 2 = 0.02 \beta_2 = 0.02 β2=0.02表示,当日行人流量每增加1万人次,交通事故次数的期望值的对数将增加0.02,同样意味着交通事故次数将按指数方式增长。

预测

一旦我们有了模型参数,就可以使用模型来预测不同车流量和行人流量下的交通事故次数。例如,如果某日的车流量为10万辆,行人流量为5万人次,则预测的交通事故次数的期望值的对数为:

log ⁡ ( λ ) = − 2 + 0.05 × 10 + 0.02 × 5 = − 2 + 0.5 + 0.1 = − 1.4 \log(\lambda) = -2 + 0.05 \times 10 + 0.02 \times 5 = -2 + 0.5 + 0.1 = -1.4 log(λ)=2+0.05×10+0.02×5=2+0.5+0.1=1.4

将期望值的对数转换回期望值(即交通事故次数),需要计算 e − 1.4 e^{-1.4} e1.4的值,这将给出一个具体的预测数值。

应用场景

泊松回归在多个领域都有广泛应用,包括但不限于:

  • 交通事故预测:预测道路或区域的交通事故次数。
  • 疾病发病率分析:分析特定人群中疾病的发生次数。
  • 网站访问量预测:预测网站在特定时间段内的点击次数或访问量。
  • 零售销售分析:模拟商店在一定期间内的顾客数量或销售次数。

泊松回归为处理计数数据提供了一个强大的建模框架,能够帮助研究者和数据科学家解析和预测涉及计数的现象。

泊松回归例子2

研究吸烟对人群死亡风险的影响

背景

假设进行了一项队列研究,目的是探讨吸烟是否会增加人群的死亡风险。在该研究中,研究者记录了随访期间内每个参与者的吸烟状态(是否吸烟)以及他们的死亡情况。此外,还记录了每个参与者的随访时间(以人年数表示),以便计算死亡率。

数据准备
  • 响应变量:死亡人数(Deaths),这是一个计数数据,表示在随访期间内因各种原因死亡的参与者数量。
  • 暴露变量:随访人年数(Person-years),表示参与者在研究中的总随访时间,是死亡率的分母。
  • 解释变量
    • 吸烟状态(Smokes):一个二元变量,表示参与者是否吸烟(是=1,否=0)。
    • 年龄类别(Agecat):一个分类变量,表示参与者的年龄分组,可能需要通过虚拟变量编码进行处理。
模型设定

泊松回归模型假设死亡人数服从泊松分布,并且其期望值的对数(即log(λ))是解释变量的线性函数。在本例中,模型可以表示为:

log ⁡ ( λ ) = β 0 + β 1 Smokes + β 2 Agecat \log(\lambda) = \beta_0 + \beta_1 \text{Smokes} + \beta_2 \text{Agecat} log(λ)=β0+β1Smokes+β2Agecat

其中, λ \lambda λ是泊松分布的期望(即期望的死亡人数), β 0 , β 1 , β 2 \beta_0, \beta_1, \beta_2 β0,β1,β2是需要估计的回归系数。注意,由于年龄是分类变量,因此 β 2 \beta_2 β2实际上是一个向量,包含了每个年龄类别相对于基准类别的回归系数。

模型拟合

在统计软件(如Stata、R等)中,可以使用相应的命令或函数来拟合泊松回归模型。以Stata为例,可以通过以下步骤进行:

  1. 准备数据,确保数据格式正确,包括死亡人数(Deaths)、随访人年数(Person-years)、吸烟状态(Smokes)和年龄类别(Agecat)。
  2. 调用泊松回归命令,将死亡人数作为响应变量,随访人年数作为暴露变量,吸烟状态和年龄类别作为解释变量。

在Stata中,具体操作可能类似于:

poisson Deaths pyears i.smokes##i.agecat, expose(pyears)

注意:这里的##i.前缀是用于处理分类变量和交互作用的,具体语法可能因Stata版本和上下文而异。实际使用时,请参考Stata的官方文档或相关教程。

结果解释

拟合完成后,软件将输出回归系数的估计值、标准误、z值、p值等统计量。这些统计量可以用于解释吸烟状态和年龄类别对死亡风险的影响。

  • 如果吸烟状态的回归系数 β 1 \beta_1 β1显著为正,则表明吸烟与死亡风险增加有关。
  • 年龄类别的回归系数将提供不同年龄组相对于基准组死亡风险的差异。
预测

利用拟合好的泊松回归模型,可以对新的个体或群体在给定吸烟状态和年龄类别下的死亡风险进行预测。这些预测结果可以用于公共卫生政策制定、健康风险评估等领域。

通过这个例子,我们可以看到泊松回归在分析计数数据、特别是与罕见事件发生率相关的数据时的强大功能。

泊松回归(Poisson Regression)是广义线性模型(Generalized Linear Model, GLM)的一种,特别适用于分析计数数据,即表示某个事件在特定时间或空间内发生次数的数据。以下是一个具体的例子来说明泊松回归的应用:

泊松回归例子3

研究药物对癫痫发病次数的影响

背景
假设我们进行了一项临床研究,旨在评估某种新药物对癫痫患者发病次数的影响。研究收集了多名癫痫患者的数据,包括他们在接受治疗前后的癫痫发病次数,以及患者的年龄、性别、体重等基本信息。

数据准备

  • 响应变量:癫痫发病次数(Y),这是一个计数数据,表示患者在一段时间内(如一个月)的癫痫发病次数。
  • 解释变量
    • 治疗组别(Treatment,Trt):表示患者是否接受了新药物治疗,是分类变量(如治疗组=1,对照组=0)。
    • 年龄(Age):可能影响癫痫发病次数的连续变量。
    • 性别(Gender):可能影响癫痫发病次数的分类变量,但在本例中为简化起见,可能不纳入模型或作为控制变量。
    • 其他可能的协变量,如体重、基础疾病状况等,根据实际情况决定是否纳入模型。

模型设定
我们假设癫痫发病次数Y服从泊松分布,并且其期望值的对数(即log(λ))是解释变量的线性函数。因此,泊松回归模型可以表示为:

log ⁡ ( λ ) = β 0 + β 1 Trt + β 2 Age \log(\lambda) = \beta_0 + \beta_1 \text{Trt} + \beta_2 \text{Age} log(λ)=β0+β1Trt+β2Age

其中, λ \lambda λ 是泊松分布的均值(即期望的癫痫发病次数), β 0 , β 1 , β 2 \beta_0, \beta_1, \beta_2 β0,β1,β2是需要估计的回归系数。

模型拟合
使用统计软件(如R、Python的statsmodels库、Stata等)来拟合泊松回归模型。在R中,可以使用glm()函数,并设置family参数为poisson()来指定泊松分布。

# 假设data是包含响应变量和解释变量的数据框
# 拟合泊松回归模型
poisson_model <- glm(Y ~ Trt + Age, data = data, family = poisson())

# 查看模型摘要
summary(poisson_model)

结果解释
拟合完成后,我们可以查看模型的摘要输出来了解每个解释变量对癫痫发病次数的影响。输出结果通常包括回归系数的估计值、标准误、z值、p值等统计量。

  • 治疗组别(Trt):如果Trt的系数(\beta_1)显著(即p值小于显著性水平,如0.05),则表明新药物对癫痫发病次数有显著影响。系数的符号和大小可以进一步解释这种影响的方向和程度。例如,如果(\beta_1)为负,则表明接受新药物治疗的患者癫痫发病次数减少。
  • 年龄(Age):同样,如果Age的系数(\beta_2)显著,则表明年龄对癫痫发病次数有显著影响。

预测
利用拟合好的泊松回归模型,我们可以预测新患者在接受新药物治疗后一定时间内的癫痫发病次数。通过输入患者的年龄和治疗组别(是否接受新药物治疗),模型将输出预测的癫痫发病次数的期望值。

这个例子展示了泊松回归在评估药物疗效或干预措施效果方面的应用。通过合理的模型设定和参数估计,泊松回归能够为研究者提供有关计数数据生成机制的有用信息,并帮助进行准确的预测和决策。

泊松分布

泊松分布的定义

泊松分布(Poisson Distribution)是以18~19世纪的法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)命名的,是一种离散概率分布。它用于描述在固定时间间隔或空间内,随机事件发生的次数。这些事件以一个已知的常数平均速率发生,并且事件之间是独立的,即一个事件的发生不影响另一个事件的发生。

泊松分布的计算

泊松分布的概率质量函数(PMF)公式为:

P ( X = k ) = λ k e − λ k ! P(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λkeλ

其中:

  • P ( X = k ) P(X=k) P(X=k) 表示随机变量X取值为k的概率。
  • λ \lambda λ是泊松分布的参数,表示单位时间内随机事件的平均发生率。
  • k ! k! k! 表示k的阶乘,即 k × ( k − 1 ) × ( k − 2 ) × ⋯ × 3 × 2 × 1 k \times (k-1) \times (k-2) \times \cdots \times 3 \times 2 \times 1 k×(k1)×(k2)××3×2×1

要计算泊松分布的概率,需要知道(\lambda)的值和随机变量X的取值k。

  • λ \lambda λ必须为正数,因为泊松分布描述的是随机事件发生的次数,次数不能为负。
  • k 必须为非负整数,因为泊松分布是离散概率分布,只能取整数值。
泊松分布的例子

以下是几个泊松分布的实际应用例子:

  1. 电话呼叫中心

    • 场景:一个电话呼叫中心每分钟接到的呼叫数量。
    • 假设:每分钟平均接到3个呼叫 λ = 3 \lambda = 3 λ=3
    • 计算:
      • 接到0个呼叫的概率: P ( X = 0 ) = 3 0 e − 3 0 ! ≈ 0.0498 P(X=0) = \frac{3^0 e^{-3}}{0!} \approx 0.0498 P(X=0)=0!30e30.0498
      • 接到1个呼叫的概率: P ( X = 1 ) = 3 1 e − 3 1 ! ≈ 0.149 P(X=1) = \frac{3^1 e^{-3}}{1!} \approx 0.149 P(X=1)=1!31e30.149
      • 以此类推,可以计算接到任意数量呼叫的概率。
  2. 网络服务器

    • 场景:用户向网络服务器发送请求的数量。
    • 假设:每秒平均收到5个请求 λ = 5 \lambda = 5 λ=5
    • 计算:
      • 收到0个请求的概率: P ( X = 0 ) = 5 0 e − 5 0 ! ≈ 0.0067 P(X=0) = \frac{5^0 e^{-5}}{0!} \approx 0.0067 P(X=0)=0!50e50.0067
      • 收到1个请求的概率: P ( X = 1 ) = 5 1 e − 5 1 ! ≈ 0.0337 P(X=1) = \frac{5^1 e^{-5}}{1!} \approx 0.0337 P(X=1)=1!51e50.0337
      • 以此类推。
  3. 餐厅顾客点餐

    • 场景:餐厅每小时接待的顾客数量。
    • 假设:每小时平均接待20个顾客 λ = 20 \lambda = 20 λ=20
    • 计算:
      • 接待0个顾客的概率极低,几乎不可能发生 P ( X = 0 ) ≈ 2.06 × 1 0 − 9 P(X=0) \approx 2.06 \times 10^{-9} P(X=0)2.06×109
      • 接待1个顾客的概率也很低 P ( X = 1 ) ≈ 4.12 × 1 0 − 8 P(X=1) \approx 4.12 \times 10^{-8} P(X=1)4.12×108
      • 接待更多顾客的概率随着k的增加而逐渐降低,但总体趋势符合泊松分布。
  4. 快递公司包裹派送

    • 场景:快递公司每小时派送的包裹数量。
    • 假设:每小时平均派送10个包裹 λ = 10 \lambda = 10 λ=10
    • 计算:
      • 派送0个包裹的概率: P ( X = 0 ) = 1 0 0 e − 10 0 ! ≈ 4.54 × 1 0 − 5 P(X=0) = \frac{10^0 e^{-10}}{0!} \approx 4.54 \times 10^{-5} P(X=0)=0!100e104.54×105
      • 派送1个包裹的概率: P ( X = 1 ) = 1 0 1 e − 10 1 ! ≈ 4.54 × 1 0 − 4 P(X=1) = \frac{10^1 e^{-10}}{1!} \approx 4.54 \times 10^{-4} P(X=1)=1!101e104.54×104
      • 以此类推。

这些例子展示了泊松分布在描述随机事件发生次数方面的广泛应用。通过设定合适的 λ \lambda λ值,并利用泊松分布的概率质量函数,可以计算出在固定时间间隔或空间内发生特定次数事件的概率。

泊松回归(Poisson Regression)是广义线性模型(Generalized Linear Model, GLM)的一种,特别适用于分析计数数据,这些数据通常表示在特定时间或空间内某事件的发生次数。以下是一个具体的例子来详细说明泊松回归的应用:

广义线性模型(Generalized Linear Models, GLMs)概述

定义

广义线性模型是线性模型的推广,旨在解决普通线性回归模型无法处理因变量离散,并发展能够解决非正态因变量的回归建模任务的建模方法。它通过联结函数(也称为连接函数或链接函数)建立响应变量的数学期望值与线性组合的预测变量之间的关系。具体来说,给定响应变量 Y i Y_i Yi服从指数族分布,有 g ( μ i ) = X i T β g(\mu_i) = X_i^T\beta g(μi)=XiTβ,其中 g g g为连接函数, X i T X_i^T XiT为自变量, μ i = E ( Y i ∣ X i T ) \mu_i = E(Y_i|X_i^T) μi=E(YiXiT)为条件期望。

性质
  1. 非限制性分布:广义线性模型不要求响应变量服从正态分布,而是允许响应变量服从指数族分布,这包括正态分布、二项分布、泊松分布等,从而大大扩展了模型的适用范围。

  2. 连接函数:连接函数 g g g是广义线性模型的核心,它定义了响应变量的均值(或某种变换后的均值)与线性预测器之间的关系。不同的连接函数适用于不同类型的响应变量分布。

  3. 系统性与随机性:广义线性模型由随机成分、系统成分和连接函数三部分组成。系统成分描述了自变量与响应变量之间的关系(通过线性预测器),随机成分则定义了响应变量的分布特性。

  4. 参数估计:广义线性模型通过极大似然估计方法估计模型参数,即找到使观测数据似然函数最大化的参数值。

计算

广义线性模型的计算主要涉及以下几个方面:

  1. 模型设定

    • 确定响应变量的分布类型(如正态分布、二项分布、泊松分布等)。
    • 选择合适的连接函数,该连接函数应能合理地描述响应变量的均值与线性预测器之间的关系。
  2. 极大似然估计

    • 构建似然函数,即观测数据在给定模型参数下的概率。
    • 通过数值方法(如Newton-Raphson方法、Fisher-scoring方法、Iteratively Re-weighted Least Squares方法等)求解使似然函数最大化的参数值。
  3. 模型评估

    • 使用统计指标(如AIC、BIC、残差分析等)评估模型的拟合优度。
    • 进行模型诊断,检查模型假设是否满足,如响应变量的分布是否与假设一致、连接函数是否适当等。
  4. 预测与应用

    • 使用拟合好的模型进行预测,即给定新的自变量值,计算响应变量的预测值。
    • 将模型应用于实际问题解决,如分类、回归等。
示例

以逻辑回归为例,它是广义线性模型的一种特殊形式,用于处理二分类问题。逻辑回归的连接函数是对数几率函数(logit function),即 g ( μ ) = log ⁡ μ 1 − μ g(\mu) = \log\frac{\mu}{1-\mu} g(μ)=log1μμ
响应变量 Y Y Y服从二项分布(Bernoulli分布)
其概率密度函数为 p ( y ∣ μ ) = μ y ( 1 − μ ) 1 − y p(y|\mu) = \mu^y(1-\mu)^{1-y} p(yμ)=μy(1μ)1y,其中 y ∈ { 0 , 1 } y \in \{0, 1\} y{0,1}
在逻辑回归中,我们通常将 μ \mu μ解释为正类( y = 1 y=1 y=1)的概率。

通过上述定义、性质和计算过程的介绍,可以看出广义线性模型是一种灵活且强大的统计建模工具,能够处理多种类型的数据和响应变量分布。

逻辑回归概述

逻辑回归(Logistic Regression)是一种广泛使用的统计方法,尽管名字中包含“回归”,但它实际上是一种分类算法,主要用于二分类问题。逻辑回归通过逻辑函数(通常是sigmoid函数)来预测一个事件发生的概率。

基本概念

在逻辑回归中,我们假设响应变量(或称目标变量)是二元的,即它只能取两个值,通常用0和1表示。例如,在邮件分类问题中,0可以表示“垃圾邮件”,1可以表示“非垃圾邮件”。

Sigmoid函数

逻辑回归使用一个称为sigmoid函数的逻辑函数来将线性回归模型的输出(一个连续的实数值)转换为概率值。sigmoid函数的公式为:

σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+ez1

其中, z z z 是线性回归模型的输出,即 z = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n z=β0+β1x1+β2x2++βnxn(对于n个自变量)。sigmoid函数将 z z z的值映射到 ( 0 , 1 ) (0, 1) (0,1)区间内,这个值可以解释为给定输入下,目标变量为1(即正类)的概率。

参数估计

逻辑回归的参数(即 β 0 , β 1 , … , β n \beta_0, \beta_1, \ldots, \beta_n β0,β1,,βn)通常通过最大似然估计(MLE)来求解。由于逻辑回归的响应变量服从二项分布(在每次观测中,事件发生的概率为 p p p,不发生的概率为 1 − p 1-p 1p),我们可以构建似然函数,并通过最大化这个似然函数(或其对数形式,即对数似然函数)来找到最优的参数值。

模型评估

逻辑回归模型的性能可以通过多种指标来评估,包括但不限于:

  • 准确率(Accuracy):正确预测的样本数占总样本数的比例。
  • 精确率(Precision):被模型预测为正类的样本中,真正为正类的样本所占的比例。
  • 召回率(Recall)或真正率(True Positive Rate, TPR):在所有实际为正类的样本中,被模型正确预测为正类的样本所占的比例。
  • F1分数(F1 Score):精确率和召回率的调和平均数,用于综合评估模型的性能。
  • ROC曲线AUC值:ROC曲线展示了不同阈值下真正率(TPR)与假正率(FPR)的关系,AUC值是ROC曲线下的面积,用于量化模型的分类能力。
应用场景

逻辑回归由于其简单性和可解释性,在许多领域都有广泛的应用,包括但不限于:

  • 垃圾邮件检测
  • 信用卡欺诈检测
  • 医疗诊断(如疾病预测)
  • 广告点击率预测
  • 客户流失预测

尽管逻辑回归在处理非线性关系时可能不如某些更复杂的模型(如随机森林、梯度提升机等),但它仍然是一个强大且受欢迎的工具,特别是在需要可解释性和快速计算的场景中。
逻辑回归(Logistic Regression)的计算过程、例子和例题涉及多个方面,以下将分别进行说明。

逻辑回归的计算过程

逻辑回归的计算过程主要包括以下几个步骤:

  1. 模型定义

    • 逻辑回归模型通过sigmoid函数将线性回归的输出转换为概率值。sigmoid函数的公式为:
      σ ( z ) = 1 1 + e − z \sigma(z) = \frac{1}{1 + e^{-z}} σ(z)=1+ez1
      其中, z = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n z=β0+β1x1+β2x2++βnxn β 0 \beta_0 β0 是截距, β 1 , … , β n \beta_1, \ldots, \beta_n β1,,βn 是回归系数, x 1 , … , x n x_1, \ldots, x_n x1,,xn 是自变量。
  2. 参数估计

    • 使用最大似然估计(MLE)或梯度下降法(Gradient Descent)等优化算法来估计模型的参数(即 β 0 , β 1 , … , β n \beta_0, \beta_1, \ldots, \beta_n β0,β1,,βn)。
    • 最大化似然函数(或其对数形式)来找到最优的参数值。
  3. 模型评估

    • 使用准确率、精确率、召回率、F1分数、ROC曲线和AUC值等指标来评估模型的性能。
逻辑回归的例子

以下是一个逻辑回归的例子,用于预测客户是否会流失:

  1. 数据准备

    • 假设有一份包含7000组客户数据的表格,其中包括客户的多个特征(如年龄、收入、交易次数等)以及一个目标变量“是否流失”(0表示未流失,1表示流失)。
  2. 划分数据集

    • 使用train_test_split函数将数据划分为训练集和测试集,例如测试集占总数据的20%。
  3. 模型训练

    • 使用LogisticRegression类从sklearn.linear_model模块中创建一个逻辑回归模型。
    • 使用训练集数据训练模型,即调用模型的fit方法。
  4. 预测与评估

    • 使用训练好的模型对测试集进行预测,获取预测结果。
    • 使用准确率、召回率等指标评估模型性能。
逻辑回归的例题

假设有一份关于学生考试成绩的数据集,目标是根据学生的多个特征(如学习时间、复习次数、课堂参与度等)预测学生是否能够通过考试(0表示未通过,1表示通过)。

步骤

  1. 数据预处理

    • 加载数据,并进行必要的清洗和预处理,如处理缺失值、异常值等。
  2. 特征选择与目标变量定义

    • 选择与学生考试成绩相关的特征作为自变量,将“是否通过考试”作为目标变量。
  3. 划分数据集

    • 使用train_test_split函数将数据划分为训练集和测试集。
  4. 模型训练

    • 初始化逻辑回归模型,并使用训练集数据训练模型。
  5. 预测与评估

    • 使用训练好的模型对测试集进行预测,获取预测结果。
    • 计算并输出模型的准确率、召回率等指标,以评估模型性能。

请注意,由于这里是一个假设的例题,因此没有提供具体的代码实现和数据集。在实际应用中,您需要根据具体的数据集和需求进行相应的数据处理和模型训练。

泊松回归模型概述

泊松回归模型(Poisson Regression Model)是统计学中用于对计数数据和列联表进行建模的一种广义线性模型(Generalized Linear Model, GLM)形式。以下是对泊松回归模型的详细解释:

一、定义与基本原理

泊松回归模型假设响应变量Y具有泊松分布,并假设其期望值的对数可以通过未知参数的线性组合来建模。这种模型特别适用于分析计数数据,即表示某个事件在特定时间或空间内发生次数的数据。

二、模型形式

泊松回归模型的数学形式通常可以表示为:

log ⁡ ( λ ) = β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n \log(\lambda) = \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n log(λ)=β0+β1x1+β2x2++βnxn

其中, λ \lambda λ 是泊松分布的期望(即均值), β 0 \beta_0 β0 是截距项, β 1 , β 2 , … , β n \beta_1, \beta_2, \ldots, \beta_n β1,β2,,βn 是回归系数, x 1 , x 2 , … , x n x_1, x_2, \ldots, x_n x1,x2,,xn 是自变量(解释变量)。

三、模型特点
  1. 适用性:泊松回归模型特别适用于计数数据的分析,如某段时间内的交通事故次数、某地区内的疾病发生次数等。
  2. 对数链接函数:模型通过对数链接函数将线性预测器(即 β 0 + β 1 x 1 + β 2 x 2 + ⋯ + β n x n \beta_0 + \beta_1x_1 + \beta_2x_2 + \cdots + \beta_nx_n β0+β1x1+β2x2++βnxn)与泊松分布的期望值(即 λ \lambda λ)联系起来。
  3. 方差等于均值:在泊松分布中,方差等于均值(即 Var ( Y ) = λ \text{Var}(Y) = \lambda Var(Y)=λ),这一特性在泊松回归模型中同样适用。
四、参数估计

泊松回归模型的参数(即 β 0 , β 1 , … , β n \beta_0, \beta_1, \ldots, \beta_n β0,β1,,βn)通常通过极大似然估计(Maximum Likelihood Estimation, MLE)方法进行估计。极大似然估计的目标是找到一组参数值,使得在给定这组参数值下观测到数据的概率(即似然函数)达到最大。

五、应用实例

泊松回归模型在多个领域都有广泛的应用,如:

  • 医学研究:分析某种疾病在特定人群中的发病率。
  • 交通工程:预测某条道路上某时间段内的交通事故次数。
  • 市场营销:分析某种促销活动对产品销售量的影响。
六、注意事项
  • 当计数数据的方差远大于均值时,泊松回归模型可能不再适用,此时可以考虑使用负二项回归模型等更灵活的模型。
  • 在应用泊松回归模型时,需要注意数据的完整性和准确性,以及自变量的选择和模型的验证。

综上所述,泊松回归模型是一种重要的统计分析工具,特别适用于计数数据的分析和建模。通过合理的模型设定和参数估计,可以为实际问题的解决提供有力的支持。

参考文献

1、文心一言
2、《广义线性模型》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1963291.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

红外视觉简介:近红外图像与中远红外图像

在本教程中,您将学习红外成像的基础知识,包括: 什么是红外图像:近红外与中远红外红外摄像机的类型它们有什么用处什么是红外图像?近红外图像 在开始处理这种奇怪的图像之前,我们应该了解它们的来源。 我们都熟悉常见的数字彩色可见图片(图 1,左),因为我们每年都会用…

“华数杯”全国大学生数学建模竞赛含金量如何?

“华数杯”全国大学生数学建模竞赛是由华中师范大学主办的一项全国性的大学生数学建模竞赛。该竞赛旨在提高大学生的数学建模能力和实践能力,增强大学生的创新意识和团队协作精神。 搜集一些评价,有人说该竞赛的含金量较高,但是也有一些人认为其认可度不高,报名费用较贵。…

【漏洞复现】华天动力OA downloadWpsFile.jsp 任意文件读取漏洞

0x01 产品简介 华天动力OA是一款将先进的管理思想、 管理模式和软件技术、网络技术相结合&#xff0c;为用户提供了低成本、 高效能的协同办公和管理平台。 0x02 漏洞概述 华天动力OA downloadWpsFile.jsp 接口处存在任意文件读取漏洞&#xff0c;未经身份认证的攻击者可利用…

springboot民办高校科研项目管理系统-计算机毕业设计源码54009

摘 要 21世纪的今天&#xff0c;随着社会的不断发展与进步&#xff0c;人们对于信息科学化的认识&#xff0c;已由低层次向高层次发展&#xff0c;由原来的感性认识向理性认识提高&#xff0c;管理工作的重要性已逐渐被人们所认识&#xff0c;科学化的管理&#xff0c;使信息存…

Chat2DB新推Chat2Excel,让数据对话跃然纸上

Excel 智能问答 Chat2Excel 1. 创建新聊天 点击左侧AI对话&#xff0c;进入对话界面。点击加号""按钮以开始一个新的对话。 新建对话选择表格类型, 选择上传excel文档。 双击对话名称可以修改对话名称。现在我们就可以开始针对于Excel进行智能问答了。 2. 智能…

小程序开发_02项目构成

一、项目的基本结构 二、小程序的页面组成部分 三、json配置文件 ① project.config.json文件 作用&#xff1a;项目的配置文件&#xff0c;用来记录对小程序开发工具所作的个性化配置 ② sitemap.json 作用&#xff1a;是否允许被微信引擎搜索,不希望被搜索dis ③ app.jso…

Pycharm打开 .xlsx文件 使用系统自带的软件

问题由来 最初默认是使用自带的软件打开 同事电脑默认打开方式是pycharm&#xff0c;有点不好弄&#xff0c;希望打开方式是默认系统默认&#xff1b; 自己尝试修改了一下自己的.xlsx打开方式&#xff0c;无法解决同事问题&#xff0c;后删除默认&#xff0c;自己电脑就出现乱码…

软考网络工程师 VS 华为认证HCIP,中级认证里哪个更香?

在网络工程师的专业发展道路上&#xff0c;技能的提升可以说是升职加薪的第一要点。 如果有想要考证的网工朋友&#xff0c;想来软考和华为认证&#xff0c;基本都是绕不开的。 很多朋友都会在软考中级的网络工程师认证和华为HCIP之间感到犯难&#xff0c;一样都是中级认证&…

GIT版本管理与分支控制

目录 1、了解Git功能 2、第一次使用Git&#xff08;首次配置好&#xff0c;后续不用再操作&#xff09; 打开git后端 设置用户签名 结果 3、初始项目架构 创建本地新仓库并初始化 文件添加到本地仓库 a.文件添加缓存区 b.缓存区内容提交到本地仓库 c.改写提交的注释 …

Miniconda快速安装conda

关注B站可以观看更多实战教学视频&#xff1a;hallo128的个人空间 安装官方网址&#xff1a;https://docs.anaconda.com/miniconda/#quick-command-line-install 1. Miniconda for Windows curl https://repo.anaconda.com/miniconda/Miniconda3-latest-Windows-x86_64.exe -o …

Python酷库之旅-第三方库Pandas(048)

目录 一、用法精讲 171、pandas.Series.nlargest方法 171-1、语法 171-2、参数 171-3、功能 171-4、返回值 171-5、说明 171-6、用法 171-6-1、数据准备 171-6-2、代码示例 171-6-3、结果输出 172、pandas.Series.nsmallest方法 172-1、语法 172-2、参数 172-3、…

刷新历史新高后又大跌!剖析黄金现在适合投资吗?

近期现货黄金价格的波动再度受到世界投资者的瞩目&#xff0c;先是七月上旬受美国CPI数据走弱、美联储降息预期增强等因素的影响&#xff0c;金价出现了十分强势的上涨&#xff0c;而且刷新历史高点2482。但从七月下旬开始&#xff0c;市场开始消化降息的预期&#xff0c;并且部…

Kimi与AiPPT合作:一键生成PPT的新体验

Kimi AiPPT 又是一次强强联手&#xff01;这次 Kimi 与 AiPPT 达成协作&#xff0c;作为国内领先的智能助手和宏大的PPT制作平台&#xff0c;两者携手推出的一键生成PPT功能。这次合作直接合并了双方各自的优势&#xff0c;通过“一键生成PPT”的创新服务&#xff0c;极大地提…

昇思25天学习打卡营第20天|ShuffleNet 图像分类案例:模块、训练与评估

目录 基于 MindSpore 的分组卷积类定义与实现 基于 MindSpore 的 ShuffleV1Block 类定义与数据处理 基于 MindSpore 的 ShuffleNetV1 网络定义与构建 Cifar-10 数据集的获取、预处理与分批操作 基于 ShuffleNetV1 模型在 CPU 上的训练配置与执行 ShuffleNetV1 模型在 CPU …

【神器分享】自从用了这个神器,大规模RNA-seq数据挖掘我也可以

咱不来虚的&#xff0c;只分享干货&#xff0c;不谈枯燥的理论&#xff0c;只来通俗易懂的操作。先来看一张图&#xff1a; 通过这张图展示的是 GEO数据库中的 RNA-seq数据与芯片数据积累随时间的变化&#xff0c;很显然测序数据从2015年开始就已经超过了芯片数据的累积 &#…

EtherCAT运动控制器上位机之Python+Qt(一):链接与单轴运动

ZMC408CE硬件介绍 ZMC408CE是正运动推出的一款多轴高性能EtherCAT总线运动控制器&#xff0c;具有EtherCAT、EtherNET、RS232、CAN和U盘等通讯接口&#xff0c;ZMC系列运动控制器可应用于各种需要脱机或联机运行的场合。 ZMC408CE支持8轴运动控制&#xff0c;最多可扩展至32轴…

AI初学者必看: 什么是大型语言模型 (LLM)?

介绍 “人工智能&#xff08;AI&#xff09;”一词于 1956 年问世&#xff0c;如今已为大家所熟知。然而&#xff0c;在 ChatGPT 迅速流行之前&#xff0c;AI 的使用和讨论大多局限于科学研究或虚构电影。如今&#xff0c;AI 尤其是生成式 AI 已成为大家热议的话题。 初学者生…

使用Process Explorer和Dependency Walker排查dll动态库加载失败的问题

目录 1、问题描述 2、如何调试Release版本的代码&#xff1f; 3、使用Process Explorer查看exe主程序加载的dll库列表&#xff0c;发现mediaplay.dll没有加载起来 4、使用Dependency Walker查看rtcmpdll.dll的库依赖关系和接口调用情况&#xff0c;定位问题 4.1、使用Depe…

html+css+js 实现3D透视倾斜按钮,javascript库之vanilla-tilt.js详解

前言&#xff1a;哈喽&#xff0c;大家好&#xff0c;今天给大家分享htmlcss 绚丽效果&#xff01;并提供具体代码帮助大家深入理解&#xff0c;彻底掌握&#xff01;创作不易&#xff0c;如果能帮助到大家或者给大家一些灵感和启发&#xff0c;欢迎收藏关注哦 &#x1f495; 文…

常用游戏运行库 v4 官方版下载与安装教程 (游戏DLL补全包)

前言 游戏运行库包含了VC运行库合集&#xff0c;.NET2.0到.NET4.8合集&#xff0c;DirectX9.0 Rapture3D 等游戏必备的系统组件&#xff0c;如果你的游戏安装后无法运行&#xff0c;那么安装这些组件基本上就可以解决。本必备运行库安装包集成32位和64位运行库&#xff0c;是目…