模型不达标调整

news2024/9/26 5:25:00

一 、模型不达标调整

模型构建就是——科学的研究问题的数学表达;比如线性回归模型中的模型公式。

在进行建模时,很多同学会遇到模型不达标的问题,这种情况很常见,通常需要进行模型不达标的调整。

模型不好如何处理

模型拟合不好,我们能想到的原因主要有以下几个方面

其一:样本的多少

通常情况下,样本越多,样本的数据质量越高,那么会对模型拟合有正向的帮助;

其二:测量指标的好坏与多少

如果选取的指标不能很好地代表所研究的问题,那么指标的选取就存在问题,会影响到后续模型的拟合;同时,指标如果过少(考虑不全面,如缺少控制变量)、过多(指标冗杂、重复指标较多)都会影响到模型的好坏。

其三:模型存在潜在问题

例如:忽略了异方差和共线性的问题,导致模型不好。

其四:模型需要更换

如果无论如何调整都无法很好的拟合模型,则需要考虑更换模型。

综上所述:当模型不好时,可以从样本变化、指标变化、模型修正、模型更换四个方面进行调整。

① 样本变化

  • 增加样本

数据分析中,一般来讲,样本量越多越好,样本量过少会引起数据分析结果的代表性降低;因此增加样本量,可以作为调整模型的一种方式。

增加样本可以从两方面考虑:

其一加入新样本,扩大整体样本量;

其二将缺失值进行填补

SPSSAU系统数据处理->异常值功能,可将缺失数据(null)进行填补。SPSSAU当前支持平均值、中位数、众数和随机数填补等。一般情况下,平均值、中位数或众数使用较多。

  • 删减样本

如果样本数据质量不高,缺失值和异常值较多,同样会影响到模型的拟合。那么,删减样本也可以作为模型调整的一种方式。

删减样本包括无效值处理和异常值处理两方面。对于异常值,常见的处理方法比如缩尾or截尾处理;同样,可以在SPSSAU系统->数据处理板块进行操作。

② 指标变化

  • 替换法

指标的选取会影响模型拟合效果,如果使用不合适的指标描述所研究问题,那么错误的指标得到的模型自然是错误的。虽然一些指标代表的意义乍一看相近,可以替换使用,但是“差之毫厘失之千里” ,所以,将指标进行替换可以作为一种模型调整方式。

例如:一般使用人均GDP而不使用GDP衡量一个地区的发展水平

  • 增加指标

如果指标的选取并不全面,无法涵盖绝大部分信息,那么模型自然也是不好的,所以增加指标为指标变化调整的另一种方式。例如:研究地区经济的发展时,忽略了控制变量人口,那么就需要相应地增加控制变量(干扰变量);或者其他容易忽略的个体属性(如年龄、性别等)、遗漏变量等。

  • 删除指标

将重复指标或者质量差的指标进行删除,也是模型调整的一种方式。例如:研究学生学习水平时,“ 学历 ” 和 “ 受教育年限 ” 之间一定存在很强的共线性,二者取其一即可。

③ 模型修正

模型不达标还可能是因为忽略了一些需要在意的问题,比较常见的有是否存在异方差或共线性问题。

  • 异方差问题

处理异方差问题有三种办法,分别是数据处理(取对数等)、稳健标准误回归、FGLS回归

  • 共线性问题

如果出现多重共线性问题,一般可有3种解决办法:一是使用逐步回归分析(让模型自动剔除掉共线性过高项);二是使用岭回归分析(使用数学方法解决共线性问题);三是进行相关分析,手工移出相关性非常高的分析项(通过主观分析解决),然后再做线性回归分析。

④ 模型更换

如果无论如何调整都无法很好的拟合模型,则需要考虑更换模型。

例如:使用结构方程模型研究影响关系时,模型不达标,可以考虑将结构方程模型改为路径分析;或者改为研究线性回归模型。

或者,在研究线性回归模型时,可以改为研究二元logit回归(例如将收入换成“高收入和低收入”两类)。

二、减少模型不达标问题经验说明

为了尽量避免模型不达标的情况,应该从前期样本准备、指标选择就做好准备。接下来,小编将说明前期数据以及模型的一些基本准备;并使用问卷式模型以及计量式模型进行举例,分享一些模型构建的注意事项。

1、数据准备

  • 数据样本量尽量多

保证样本量尽量多的目的有两个分别是:稳健性检验、防止样本有缺失

  • 数据完善性

缺失样本不能过多,会影响分析结果

  • 指标有预留

指标最好在开始的时候,就多预留出几个,其目的有三,分别是:用作控制变量、稳健性检验、替换作用。

说明——稳健性检验

稳健性检验通俗的讲,就是改变某个特定的参数,进行重复的实验,来观察实证结果是否随着参数设定的改变而发生变化,如果改变参数设定以后,结果发现符号和显著性发生了改变,说明不是稳健性的,需要寻找问题的所在。一般根据自己文章的具体情况选择稳健性检验 ① 从数据出发,根据不同的标准调整分类,检验结果是否依然显著 ② 从变量出发,从其他的变量替换,如:研发金额投入可以使用研发项目数量衡量 ③ 从计量方法出发,可以用OLS等进行回归,看结果是否依然显著

2、模型准备

  • 在找数据时,应该大概知道模型是什么样子

带着目的找数据,可以节省时间,提高数据准确性以及与研究问题的匹配度。

  • 模型尽量有备选

如果一个模型不合适,可以及时更换模型,不至于重头再来,节省时间与精力。

3、问卷式模型

例如:研究商超购物满意度模型

数据准备:上图中六个变量分别对应的数据

可以从样本量、样本特征、变量测量3个角度做文章

问卷设计注意事项:

  • 一个指标尽量多对应问卷题目,建议4~7个

便于后续的筛选、删除;在后面的调整模型时也可能用到。

  • 其他相关数据——人口统计学变量

干扰变量(控制变量)的设计可用于模型调整、丰富分析内容。

基于结构方程模型的黑龙江冰雪旅游游客满意度研究-成春蕾

  • 必填题目设置——用于模型调整和稳健性检验使用

基于结构方程模型的黑龙江冰雪旅游游客满意度研究-成春蕾

  • 筛选题设置——用于筛选适合样本

例如:消费次数1次/年,2~5次/年,5~10次/年,10次以上/年;如果填写问卷的参与调查的人在该商超的消费次数过低,自然应该被排除在外,不属于我们研究的合适样本。同时,筛选题的设置可用于后续模型的调整和模型稳健性检验使用。

基于结构方程模型的黑龙江冰雪旅游游客满意度研究-成春蕾

  • 样本量

收集的问卷有效样本量应该在问卷题目个数的5倍以上,若样本数据偏离正态分布,则样本量最好为问卷题目数的10倍以上,以便模型数据更具有说服力。

问卷研究常用方法:

SPSSAU系统中,提供多种主流问卷研究方法,常见的主要有信度分析、效度分析、多选题分析、调节作用、中介作用、路径分析、结构方程模型等方法。

同学们可结合自己所研究问题,进行方法的选择。如果不知道自己应该进行哪种分析,还可以在SPSSAU官网右上角客服中心联系人工客服,会有专业老师解答问题。

4、计量式模型

例如:高管团队特征对企业创新投入的影响

  • 数据准备:各个变量分别对应的数据
  • 样本量、指标变化、模型更换
  • 确定自变量、控制变量、因变量

自变量(解释变量):女性高管人数、高管团队任期、高管团队受教育水平(受教育年限)等

控制变量:企业资产、企业盈利指标ROA、政府补贴等

因变量(被解释变量):研发投入金额

注意事项:

  • 数据尽量多

例如:使用多个年份、多个行业(国有企业、外资企业等)的数据

可以达到样本筛选、模型调整、稳健性检验、丰富研究、异常数据清理的目的。

高管团队特征对企业创新的影响研究——王彩虹

  • 指标更换

例如:高管团队任期替换为高管团队更换频率

受教育水平替换为受教育年限

研发投入金额替换为研发项目数量等等

指标更换对应数据准备中的指标有预留,为的是后续进行模型不达标调整、稳健性检验等等。

高管团队特征对企业创新的影响研究——王彩虹

  • 模型更换

例如:OLS回归->robust回归

OLS回归->面板模型

OLS回归->是否加入控制变量 / 控制变量的变化等等

模型更换是进行模型不达标调整的最后底线

计量研究常用方法:

在计量经济研究中,可选择的方法更多,需要结合所研究内容以及自身专业进行判断,可以在SPSSAU官网查看每种方法的帮助手册进行方法的学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/127230.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用扩散模型训练文本贴图

🍿*★,*:.☆欢迎您/$:*.★* 🍿 整个代码除了数据处理 其他是借鉴而来 那么说说 数据处理 采取的是使用pil 将某种字体中文写入到图片上去 而后生成图,最后进行加噪生成数据集 简单的利用生成器进行 batch 训练了100epoch 可以简单的生成一些带有文字的图 import numpy a…

数据可视化①:dashboard展示大学生就业现状

大学生就业是和我们息息相关的话题,每一位大学生都关注着,我们常常在网络上看到有关大学生就业的话题,比如毕业季的一些讨论。在大一的创新创业课中,我们也了解到自己所学的专业和以后如何就业,往哪方面就业。但我们了…

linux下安装java环境(小D课堂)

VirtualBox下载安装: 官网去下载就好了。 然后安装就可以了。 然后我们去安装我们的centos7. 然后我们可以从这里选择,然后进行下载。 这里我就用它默认的大小,后面还可以去改。 然后这个虚拟机我们就创建完成了。 我们去双击打开它&#xff…

2023年MCM/ICM美国大学生数学建模竞赛报名通知

一、竞赛背景 美国大学生数学建模竞赛(MCM/ICM)由美国数学及其应用联合会主办, 是唯一的国际性数学建模竞赛,自1985年以来,美国大学生数学建模竞赛已经成功举办38届,也是世界范围内最具影响力的数学建模竞…

微信小程序集成three.js--2.创建不同材质的物体

1.实例演示 小程序集成Three.js,创建不同材质的物体2.源码 (1)引入three.js库文件 import * as THREE from ../../libs/three.weapp.js import {OrbitControls } from ../../jsm/controls/OrbitControls const app getApp() 库文件下载及配置看这里ht…

【STM32F4系列】【HAL库】【自制库】模拟IIC主机

介绍 本项目是利用GPIO模拟I2C的主机 网上常见的是模拟I2C主机 本项目是作为一个两个单片机之间低速通信的用法 协议介绍请看,传送门 模拟从机请看这里 主机 功能描述 I2C按字节(Byte)读写I2C读写寄存器I2C连续读写 编程思路解析 主机是时钟信号的发起方,起始和中止信号…

【Python百日进阶-数据分析】Day141 - plotly桑基图:plotly.graph_objects.Sankey()

文章目录一、语法二、参数三、返回值四、实例4.1 基本桑基图4.2 桑基图的hovertemplate和customdata4.3 定义节点位置4.4 带有彩色链接的更复杂的桑基图4.5 Dash中的桑基图4.6 风格桑基图一、语法 用于网络流量数据分析的桑基图。节点在 中指定,nodes源和目标之间的…

Flutter GetX系列教程---BottomSheet

安装 将 GetX 添加到你的 pubspec.yaml 文件中 dependencies:get: ^4.6.5在需要用到的文件中导入,它将被使用。 import package:get/get.dart;BottomSheet介绍 BottomSheet 是底部弹出的一个组件,常用于单选、验证码二次校验弹窗等,GetX的…

Go语言设计与实现 -- singleflight

这个东西很重要,可以经常用在项目当中,所以我们单独拿出来进行讲解。 在使用它之前我们需要导包: go get golang.org/x/sync/singleflightgolang/sync/singleflight.Group 是 Go 语言扩展包中提供了另一种同步原语,它能够在一个服…

【NCC】之二:积分图加速均值计算

文章目录<center> 积分图 integral image1. 原理&#xff1a;2. 示例3. 计算区域均值4. 计算区域方差5. 积分图示例6. 计算积分图的源码7. 用积分图加速NCC参考积分图 integral image1. 原理&#xff1a; Summed Area Table是一种数据结构和算法&#xff0c;用于快速有效…

【math】大规模对称正定稀疏线性方程组的求解与代数多重网格

大规模对称正定稀疏线性方程组的求解与代数多重网格代数多重网格问题定义迭代法的优畧几何多重网格代数多重网格代数多重网格 你好&#xff01;代数多重网格一个很有意思的话题。 问题定义 很多问题都可以抽象为求解下列优化的问题&#xff1a; 对于图像问题&#xff0c;一…

安全、稳定的工业蜂窝路由器具有怎样的特性?

一、前言 传统路由器通过电缆或光纤线路访问Internet&#xff0c;在很多场景或区域下存在着很大的局限性&#xff0c;例如在行驶的火车上&#xff0c;在固定电话稀缺或没有其他接入方式的地区都是十分受限的。随着科技的发展&#xff0c;很多行业应用都需要具有更强大功能的路…

3 高级面向对象编程实例

高级OOP 1 继承 是一种基于已有类创建新类的机制 class 子类名 extends 父类{类体; }public class Extends_v1 {public static void main(String[] args) {Extendsclass01 ex new Extendsclass01();} } class Baseclass01{public int num;public void setNum(int n){num n…

java之线程死锁和ThreadLocal的使用

线程死锁&#xff1a; 线程死锁是指两个或者两个以上的线程在执行过程中&#xff0c;由于竞争资源或者彼此通信而造成的一种阻塞的现象,若无外力的作用,它们都将无法继续执行下去。 此时应用系统就处于了死锁状态&#xff0c;这些永远在互相等待的线程称为死锁线程。 如下图…

文本中按规则分组区段随机抽样

【问题】 This is a bit complex, and I greatly appreciate any help! I am trying to randomly sample rows from a .csv file. Essentially, I want a resulting file of unique locations (Locations are specified by Easting and Northing columns of the data file, be…

ServletContext和过滤器

✅作者简介&#xff1a;热爱国学的Java后端开发者&#xff0c;修心和技术同步精进。 &#x1f34e;个人主页&#xff1a;Java Fans的博客 &#x1f34a;个人信条&#xff1a;不迁怒&#xff0c;不贰过。小知识&#xff0c;大智慧。 &#x1f49e;当前专栏&#xff1a;JAVA开发者…

BM30 二叉搜索树与双向链表

题目 输入一棵二叉搜索树&#xff0c;将该二叉搜索树转换成一个排序的双向链表。如下图所示&#xff1a; 数据范围&#xff1a;输入二叉树的节点数0≤n≤1000&#xff0c;二叉树中每个节点的值0≤val≤1000. 要求&#xff1a;空间复杂度O(1)&#xff08;即在原树上操作&#x…

低代码对比分析,从工程化上看产品的优劣

低代码算是这几年在IT行业内越来越尖锐的讨论了&#xff0c;而且随着这两年大厂的大量裁员&#xff0c;更是亲者痛仇者快的事情&#xff0c;因为很多大厂发现把一些低端的研发岗位干掉了&#xff0c;反而整个体系在工具的辅助运转下&#xff0c;效率更高&#xff0c;执行力更优…

【Python数据分析】Python模拟登录(一) requests.Session应用

最近由于某些原因&#xff0c;需要用到Python模拟登录网站&#xff0c;但是以前对这块并不了解&#xff0c;而且目标网站的登录方法较为复杂&#xff0c; 所以一下卡在这里了&#xff0c;于是我决定从简单的模拟开始&#xff0c;逐渐深入地研究下这块。 注&#xff1a;本文仅为…

Python学习基础笔记五十九——封装和@property

1、私有属性的一个用法&#xff1a; class Room:def __init__(self, name, length, width):self.name nameself.__length lengthself.__width widthdef area(self):return self.__length * self.__widthwei Room(Wei, 2, 1) print(wei.area()) 2、getter和setter&#xf…