python统计分析——使用AIC进行模型选择

news2024/11/18 16:30:54

参考资料:用python动手学统计学

1、导入库

# 导入库
# 用于数值计算的库
import numpy as np
import pandas as pd
import scipy as  sp
from scipy import stats
# 用于绘图的库
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
# 用于估计统计模型的库
import statsmodels.formula.api as smf
import statsmodels.api as sm

2、数据准备

data=pd.DataFrame({
    'beer':np.array([45.3, 59.3, 40.4, 38. , 37. , 40.9, 60.2, 63.3, 51.1, 44.9, 47. ,
                     53.2, 43.5, 53.2, 37.4, 59.9, 41.5, 75.1, 55.6, 57.2, 46.5, 35.8,
                     51.9, 38.2, 66. , 55.3, 55.3, 43.3, 70.5, 38.8]),
    'temp':np.array([20.5, 25. , 10. , 26.9, 15.8,  4.2, 13.5, 26. , 23.3,  8.5, 26.2,
                     19.1, 24.3, 23.3,  8.4, 23.5, 13.9, 35.5, 27.2, 20.5, 10.2, 20.5,
                     21.6,  7.9, 42.2, 23.9, 36.9,  8.9, 36.4,  6.4])
})
data.head()

4、建立线性模型

# 利用普通最小二乘法(ordinary least squares)拟合线性模型
lm=smf.ols(formula="beer ~ temp",data=data).fit()
# 查看模型的AIC值
lm.aic

        现在模型里只有temp(气温)这一个解释变量,我们不妨对比一下它和空模型的AIC。下面建立一个空模型,当没有解释变量时,定位“beer~1”。

# 设置空模型
null_model=smf.ols("beer ~ 1",data=data).fit()
# 查看空模型的AIC值
null_model.aic

由两个拟合结果可以看出,含有解释变量的模型的AIC值更小,所以认为“包含结实变量(气温)的模型预测精度更高”,即用来预测啤酒销售额的模型应该考虑气温因素。

5、分步计算AIC值,已加深印象。

AIC的计算式为:

AIC=-2×(最大对数似然-参与估计的参数个数)

接下来只需要知道参与估计的参数个数即可。这个值没有包含在模型里,但我们可以先找到解释变量的个数:

事实上,截距(β0)也参与了估计,所以上面的结果加上1就是参与估计的参数个数。最终AIC计算如下:

注:在确定参与估计的参数个数方面也有很多做法。有时也会算上多余参数(这种情况下AIC就是210.909)。R语言等工具有时也会各处多余参数的个数。

        AIC的核心是各个AIC之间的对比,其绝对值并不重要。通过相同做法计算出来的AIC的大小关系是不变的,只要不更换做法,就不会影响模型选择,就意味着我们要避免跨工具计算AIC。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1462220.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C++医学临床影像信息管理系统源码

一、医学影像信息系统概述 在现代医疗行业中,医学影像信息系统包括RIS,按照DICOM3.0国际标准设计,是由高性能服务器、网络和存储设备组成的硬件支撑平台,以大型关系数据库作为数据和影像的存储和管理工具,以医学影像的…

USB基础概念介绍

一. usb是什么 Universal Serial Bus,简称 USB,是一种串口总线的标准,在现实中频繁应用于 3C 数码产品,电脑、手机、打印机、游戏机等,被称为万能接口,目前已经发展为行业标准。 二、usb传输标准 自1996…

navicat连接云服务器(宝塔)

下面介绍两种navicat连接云服务器(宝塔)的方法 一、通过ssh配置(安全) 打开navicat,配置新链接的SSH(主机:填写公网IP,用户名和密码是服务器的账号密码) 在常规填写数据…

智慧城市环卫车辆监控管理方案

二.方案设计 智慧城市环卫系统主要包括以下几个方面: 1、通过 RFID 实时自动采集功能,自动统计了解各处垃圾桶每天清理情况; 2、GPS 与 DTU 透传相结合,实时掌握保洁及垃圾车辆的工作状态, 行驶路线以及任…

C 嵌入式系统设计模式 08:硬件代理模式

本书的原著为:《Design Patterns for Embedded Systems in C ——An Embedded Software Engineering Toolkit 》,讲解的是嵌入式系统设计模式,是一本不可多得的好书。 本系列描述我对书中内容的理解。本文章描述访问硬件的设计模式之一&…

ElasticStack安装(windows)

官网 : Elasticsearch 平台 — 大规模查找实时答案 | Elastic Elasticsearch Elastic Stack(一套技术栈) 包含了数据的整合 >提取 >存储 >使用,一整套! 各组件介绍: beats 套件:从各种不同类型的文件/应用中采集数据。比如:a,b,cd,e,aa,bb,ccLogstash:…

堆的结构实现与应用

目录 前言: 1.认识堆 a.如何认识堆? b.大根堆与小根堆 c.堆应用的简单认识 2.堆的结构与要实现的功能 3.向上调整算法 4.向下调整算法 5.向堆插入数据并建堆 6.堆的大小 7.堆的判空 8.取堆顶数据 9.删除堆顶数据 10.向上调整时间复杂度 11.向下调整时…

Js如何判断两个数组是否相等?

本文目录 1、通过数组自带方法比较2、通过循环判断3、toString()4、join()5、JSON.stringify() 日常开发,时不时会遇到需要判定2个数组是否相等的情况,需要实现考虑的场景有: 先判断长度,长度不等必然不等元素位置其他情况考虑 1…

jmeter下载base64加密版pdf文件

一、何为base64加密版pdf文件 如下图所示,接口jmeter执行后,返回一串包含大小写英文字母、数字、、/、的长字符串,直接另存为pdf文件后,文件有大小,但是打不开;另存为doc文件后,打开可以看到和…

Docker技术仓库

数据卷 为什么用数据卷? 宿主机无法直接访问容器中的文件容器中的文件没有持久化,导致容器删除后,文件数据也随之消失容器之间也无法直接访问互相的文件 为解决这些问题,docker加入了数据卷机制,能很好解决上面问题…

MT8788|MTK8788安卓核心板参数_4G联发科MTK模块

MT8788核心板是一款功能强大的4G全网通安卓智能模块。该模块采用了联发科AIOT芯片平台,具有长达8年的生命周期。MT8788模块内置了12nm制程的八核处理器,包括4个Cortex A73和4个Coretex A53,主频最高可达2.0GHZ。标配内存为4GB64GB&#xff0c…

Github 2024-02-22 开源项目日报 Top10

根据Github Trendings的统计,今日(2024-02-22统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目4非开发语言项目2Go项目2HTML项目1Dart项目1Vue项目1JavaScript项目1TypeScript项目1 《Hello 算法…

HarmonyOS开发技术全面分析

系统定义 HarmonyOS 是一款 “ 面向未来 ” 、面向全场景(移动办公、运动健康、社交通信、媒体娱乐等)的分布式操作系统。在传统的单设备系统能力的基础上,HarmonyOS提出了基于同一套系统能力、适配多种终端形态的分布式理念,能够…

node版本管理工具之nvm的安装和使用

一、nvm的介绍 1,什么是nvm? nvm是Node Version Manager的简称,即为node版本管理工具 2,为什么要选择使用nvm? nodejs使用的场景越来越多,因为是开源软件,具备大多数开源软件都存在的"…

测试多线程架构的问题

在测试多线程架构时,需要考虑多个方面以确保系统的稳定性和性能。以下是一些关键问题,需要在测试过程中特别关注: 线程同步 多线程环境中,线程同步是非常重要的问题。由于多个线程可能同时访问共享资源,因此需要使用…

启动node服务报错Error: listen EACCES: permission denied 0.0.0.0:5000

启动node服务报错: 解决方案: 将监听端口改成3000或者其他 修改后结果: 参考原文: Error: listen EACCES: permission denied_error when starting dev server: error: listen eacc-CSDN博客

git版本回退在eclipse和命令中的操作

一.背景 老程序员了,熟悉eclipsesvn,git用的不溜。近几年用了git,偶尔修改了某个文件希望放弃本次修改重新恢复到最新版本重新修改。或者回退到某个版本,再修改。记录一下Eclipse中的操作,和命令操作的情况。 二.Ecli…

六、回归与聚类算法 - 线性回归

目录 1、线性回归的原理 1.1 应用场景 1.2 什么是线性回归 1.2.1 定义 1.2.2 线性回归的特征与目标的关系分析 2、线性回归的损失和优化原理 2.1 损失函数 2.2 优化算法 2.2.1 正规方程 2.2.2 梯度下降 3、线性回归API 4、回归性能评估 5、波士顿房价预测 5.1 流…

Java 注解机制解密并发编程的时间之谜:揭开Happens-Before的神秘面纱

优质博文:IT-BLOG-CN 一、简介 为什么需要happens-before原则: 主要是因为Java内存模型 , 为了提高CPU效率,通过工作内存Cache代替了主内存。修改这个临界资源会更新work memory但并不一定立刻刷到主存中。通常JMM会将编写的代码…

2024.4.21

多进程实现拷贝 #include <myhead.h> //定义结构体 typedef struct INFO {const char *src_file;const char *dest_file;int mv;int size;}info_t;//获取源文件的大小并且创建目标文件 int size_creat(const char *src_file,const char *dest_file) {//获取源文件的大小…