泰尔指数案例分析

news2024/11/25 15:41:43

泰尔指数是一种衡量‘不平均’的指数,比如用于衡量‘贫富差异’,也或者衡量大气污染的水平是否一致,二氧化碳排放水平差异情况等。泰尔指数的数学原理是‘熵’,‘熵’是一种衡量数据‘有序性’的指标,当‘熵’值越大时,数据越无序,那么意味着‘不平均’情况越严重。

泰尔指数正式分析前需要了解两个基本的名词,如下:

结合具体的泰尔指数计算原理,其可分为四种类型的泰尔指数,分别是T指数、L指数、GE1指数和GE0指数,四种类型的指数在原理上稍有区别,但应用上均是对‘不平均’情况的衡量,其中T指数使用最多。比如研究我国贫富差距‘收入不均’问题,但是每个省的GDP或者人口基数并不一致,即计算泰尔指数的时候,如果某个省GDP更多,或者人口更多,那么其对于整体收不均的影响作用会更高。T指数正是基于GDP作为权重,GDP越大时该省对于整体泰尔指数的影响会越大;类似地,也可使用人口作为权重,当人口越多时,该省对于泰尔指数的影响会越大,L指数正是基于人口作为权重进行计算。基于上述原理,在计算T指数或L指数时,通常需要提供类似GDP和人口共两项数据。

如果提供的原始数在为人均GDP一项(没有GDP和人口两项数据),那么此时则需要使用GE1或GE0指数,其只需要提供人均GDP这样的1项数据进行计算,GE1和GE0是基于广义熵概念计算得到,二者区别在于广义熵时的alpha值,GE1时alpha值为1,GEO时alpha值为0,GE1和GE0指数使用相对较少。

除上述外,还需要理解的一个名词为Group项,计算泰尔指数时,很可能出现‘层次聚集’数据,比如中国包括31省,每个省包括很多个市,每个市包括很多个县,每个县还可包括很多个乡镇。带有此类聚集特征的数据,即具有Group项,比如省份、市、县均为Group项。当数据完全没有Group项时,比如直接31个省(共31行数据)的GDP和人口,计算泰尔指数,此时则称为普通泰尔指数。比如数据包括31个省,每个省比如有6个市,共计31*6=186行数据时(省-》市),此时具有1个Group项即省,此时称为一阶泰尔指数。比如数据包括31个省,每个省比如有6个市,每个市有10个县,那么此处有2个Group项(省-》市-》县),分别是省和市,省的层级最高即Group1,市的层级稍低为Group2,此时计算的泰尔指数称为二阶泰尔指数。

理论上还会有三阶泰尔指数、四阶泰尔指数等,实际情况中由于数据的可获取性及研究目的需要等,实际使用极少,通常情况下一阶泰尔指数较多。SPSSAU默认提供最多两个Group项即最多二阶泰尔指数,如果两个group项均不放入,那么为普通泰尔指数,如果放入1个Group项那么为一阶泰尔指数,如果放入2个Group项则为二阶泰尔指数。

与此同时,在计算泰尔指数时,很多时候需要对比不同年份数据情况,当数据中包括多个年份时,比如最近10年数据,且31个省,每省6个市,共计为10*31*6=1860行时,可将年份进行设置,系统会自动遍历计算出分别10年的泰尔指数。


泰尔指数案例

1 背景

当前有中国2012 ~ 2021共计10年各省的GDP数据、人口和人均GDP数据,将省分成七大区域(分别是华北、东北、华东、华中、华南、西南、西北),分析中国人均GDP收入的差异情况,对比各大区域的具体差异情况等,部分数据如下图所示:

明显地,数据中包括1个Group项即‘区域’,并且为10年,共计为310行数据,本案例为一阶泰尔指数,并且为10年分别进行计算对比。如果省份再继续往下细分为市,那么省就是另外一个Group即二阶泰尔指数。

2 理论

如果计算泰尔指数时,涉及到一阶或者二阶,即当提供的数据具有聚集性时,那么泰尔指数则会进行拆分为比如组内和组间指数。具体说明如下表格:

如果是普通泰尔指数,那么直接就只得到1个泰尔指数值。如果是一阶泰尔指数,比如本案例为‘区域-》省’这样的数结构时,泰尔指数可具体细分为组内TWR和组间TBR,比如本案例分为7个区域,那么7个区域之间的收不均则叫组间TBR,每个区域(比如华北区域)内各个省之间的差异则叫组内TWR。如果是二阶泰尔指数,比如‘区域-》省-》市’这样的数据结构,各个区域之间的差异称为‘组间TBR’,各个省之间的差异称为‘省间TBP’,以及各个省包括很多个市,比如浙江省包括10个市,那么此10个省之间的差异,则称为‘组内TWP’即省内差异情况。

3 操作

本例子中操作截图如下:

  • 泰尔指数类型选择最常用的T指数,T指数时要求提供GDP和人口共两项数据,以及本案例包括10年,因而将年份放入对应框中。
  • 本案例为一阶泰尔指数(区域-》省)结构,Group项为区域,因而将其放入Group1项中。需要提示的是,案例数据最细粒度单位为省,此处省并不Group项。

4 SPSSAU输出结果

泰尔指数模型输出泰尔指数分解和贡献值两类结果指标,并且以图形进行展示,说明如下:

当‘普通泰尔指数’即没有Group项时,仅展示1个泰尔指数值。如果是一阶或者二阶泰尔指数,则会涉及到泰尔指数分解,以及各Group项对应的泰尔指数,以及各Group项时贡献值情况。本案例数据为一阶泰尔指数,因而会输出泰尔指数分解结果,Group项时泰尔指数结果。

泰尔指数的理解较为简单,但其计算公式相对复杂,为更好地理解泰尔指数原理,下述以一阶泰尔指数的计算公式为便进行说明。

上述四个式子中,T表示整体泰尔系数,Ti表示第i个区域的泰尔系数,TWR表示组内泰尔系数即区域内部泰尔系数,TBR表示组间泰尔系数即区域之间泰尔系数。Ln表示取对数的意思,各个符号说明如下:

  • i: 区域的编号
  • j: 省的编号
  • Y:GDP加总
  • Yi: 某区域gdp
  • Yij:某区域某省gdp
  • N:人口加总
  • Ni: 某区域人口
  • Nij:某区域某省人口

5文字分析

本案例时泰尔指数分为TWR和TBR,TWR表示组内泰尔系数即各个区域内部的贫富差异(T是泰尔指数的简写,W是within即组内的简写,R是区域Region的简写),TBR表示组间泰尔系数即区域与区域之间的贫富差异情况(T是泰尔指数的简写,B是between即组间的简写,R是区域Region的简写)。整体上看,各个年份上,整体泰尔指数变化不大,意味着各年份对比来看,贫富差异并没有明显的变化,从2016年起泰尔系数稍有减少,意味着贫富差异现象整体上有着微弱的减少趋势。TWR和TBR对比上,TWR相对明显更高,意味着当前的贫富差异主要是体现在区域与区域之间,而区域内部的贫富差异相对较小。泰尔系数分解可见下图。

特别提示:

泰尔指数是基于熵值原理进行计算,泰尔系数的大小并无绝对意义,其只有相对大小意义,并不能说3就比0.1绝对更高,而应该站在同一对比水平上进行对比。

具体针对各个区域上看,整体对比七大区域的贫富差异情况可知,整体上看,华北地区的贫富差异明显最高,泰尔系数基本均在0.1或者以上,意味着华北地区当前的贫富差异现象相对明显,可能由于北京作为国家行政中心极强,但华北的基它地区,比如河北、山西、内蒙古等省市的收入明显更低导致。接着,华南和华东地区也有着较强的贫富差异现象,但比起华北来看还是较弱。西北地区和西南地区这两个地区贫富差异现象较弱,另外东北地区和华中地区的贫富现象相对最低,意味着该两个地区的人均收水平相对更加均衡。

除了分析各个区域的泰尔指数得到贫富差异情况外,还可分析各个区域对于整体泰尔指数的影响作用情况即贡献值分析。

上表格展示各个区域泰尔指数的贡献情况,本案例数据使用泰尔T指数,其基于GDP作为贡献值大小标准。因而当某区域的GDP越高时其对整体泰尔指数(即整体贫富差异)的作用力度越大。上表格和下图可以看到,整体上看,华东地区的贡献值相对最高,这是由华东地区包括浙江、江苏、山东等经济大省决定。而华中、华北、华南对于整体贫富差异的影响作用力度较高,西南地区次之,东北和西北这两个地区对于泰尔指数的作用力度相对最小。

6 剖析

泰尔指数分析涉及以下几个关键点,分别如下:

  • 特别注意正确的数据格式。比如是‘省-》市’数据,即最小粒度单位是市,那么有两列分别标识省和市,但省才是聚集性group。如果有多年数据,那么其仅仅是重复,行数成年份倍数增长而已。
  • 泰尔指数包括四种类型,T指数、L指数、GE1和GE0,T指数和L指数时,需要传入比如GDP和人口这两项数据,因为衡量不平均是由人均GDP决定,T指数计算贡献值时使用GDP这样的数据,L指数计算贡献值时使用L指数这样的数据,其中T指数使用最多。GE1和GE0这两个指数使用相对较少,其利用广义熵进行计算,而且其要求传入的数据为比如人均GDP这1个数据,GE1时贡献值是由group内样本个数及数据大小共同决定,GE0时贡献值是由group内样本个数决定。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1020376.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GEE:快速实现NDVI时间序列NDVI线性趋势和变化敏感性计算(斜率、截距)

作者:CSDN @ _养乐多_ 本博客将向您介绍如何使用Google Earth Engine(GEE)平台来处理Landsat 5、7和8的卫星图像数据,计算NDVI的斜率和截距,以及如何导出这些结果供进一步分析使用。 文章目录 一、代码详解1.1 核心代码详解1.2 核心代码详解1.3 代码框架介绍二、完整代码…

buuctf web [极客大挑战 2019]Http

进入题目上下翻找了一下,没有什么突破口 检查了一下源码,有一个跳转页面 点击页面,跳转到了新的地方 新页面里没有别的跳转接口 但是页面中有提示:It doesnt come from https://Sycsecret.buuoj.cn 打开burp 页面提示要求来自h…

群体遗传学必备知识锦囊

群体遗传学应知应会 今天分享一篇关于群体遗传学的笔记,主要参考了网络公开资料以及公开发表的文献,包含群体遗传的概述、研究方法、应用领域、分析流程、统计学原理、群体结构评估等。 群体和个体有什么区别? 在遗传学中,群体和个…

innovus: 各种padding一勺烩

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 instance padding specifyInstPad $instance_name -left/-right $site_num site_num指的是padding的大小以site宽度为单位。 module padding setPlaceMode -place_global_mo…

人工智能训练师

人工智能训练师是一个较新的职业,2020年2月才被正式纳入国家职业分类目录。他们主要负责在人工智能产品使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业。 这个职业的背景源于AI公司从客户(用户)那里获取…

mac office2019

目录 简介 macoffice2019 安装步骤 总结 简介 macoffice2019 Mac Office 2019是微软为苹果Mac系统用户推出的办公软件套装。它包括了Word、Excel、PowerPoint等常用应用程序,并且提供了一系列全新的功能和工具,以提升用户的办公效率和创造力。 Mac O…

容器核心技术之Namespace与Cgroup

容器是一种流行的虚拟化技术,它允许我们在同一台计算机上与其他进程在独立环境中运行进程。那么容器是如何做到这一点的呢?为此,容器是从 Linux 内核的一些新功能构建的,其中两个主要功能是“namespace”和“cgroup”。 1.Namespa…

IDE VS2012正则替换 并将捕获的内容放入替换的字符串中$1

场景: 我想把ESLOG_INF(("deviceName %s", deviceName));只要一对括号,即ESLOG_INF(“deviceName %s”, deviceName); 获取不想替换的内容 先用正则 ESLOG_INF\(\((.*)\)\);捕获 不想替换的内容 "deviceName %s", deviceName放…

Qt --- Day01

效果图&#xff1a; 头像的圆形未实现 单击登陆&#xff0c;触发信号与槽 enter_widget.h #ifndef ENTER_H #define ENTER_H#include <QDialog> #include<QLabel> #include<QTimer> class enter_widget : public QDialog {Q_OBJECT public:explicit enter_…

【面试题】前端应该了解的个JavaScript技巧有什么?

前端面试题库 &#xff08;面试必备&#xff09; 推荐&#xff1a;★★★★★ 地址&#xff1a;前端面试题库 【国庆头像】- 国庆爱国 程序员头像&#xff01;总有一款适合你&#xff01; 简介 如果你用这些技巧优化你的js码&#xff0c;它可以帮助你编写更干净、…

AUTOSAR通信篇 - CAN网络通信(五:ComM)

文章目录 模块交互EcuM交互BswM交互NvM交互CanSM交互NM交互 ComM功能Paritial Network Cluster 管理Partial Network Cluster 管理功能ComM PNC状态机在主状态COMM_PNC_NO_COMMUNICATION中PNC的行为PNC网关相关的要求 从断电进入PNC主状态COMM_PNC_NO_COMMUNICATION时在主状态C…

微软发现影响 Linux 和 macOS系统的 ncurses 库漏洞

微软在 ncurses&#xff08;new curses 的缩写&#xff09;编程库中发现了一组内存损坏漏洞&#xff0c;威胁者可利用这些漏洞在易受攻击的 Linux 和 macOS 系统上运行恶意代码。 微软威胁情报研究人员 Jonathan Bar Or、Emanuele Cozzi 和 Michael Pearse 在今天发布的一份技…

GcExcel:Java 应用创建、修改和保存 Excel 电子表格 -Crack

在 Java 应用程序中创建、修改和保存 Excel 电子表格&#xff1a; GrapeCity Documents for Excel&#xff0c;Java 版 (GcExcel) 是一个高速 Java Excel 电子表格 API 库&#xff0c;不需要依赖于 Microsoft Excel。用户可以通过 Java 应用程序以编程方式创建、编辑、导入和导…

PP-Tracking之C++部署

文章目录 概要环境fastdeploy源码编译PP-Tracking源码编译使用参考概要 PP-Tracking是基于飞桨深度学习框架的业界首个开源实时跟踪系统。针对实际业务的难点痛点,PP-Tracking内置行人车辆跟踪、跨镜头跟踪、多类别跟踪、小目标跟踪及流量计数等能力与产业应用,同时提供可视…

大数据学习1.5-单机Hadoop

1.修改主机信息 vi /etc/hosts 2.修改信息如下(这里第三位一定是自己的IP 每个人都不一样) 192.168.216.140 hadoop01 192.168.216.141 hadoop02 192.168.216.142 hadoop033.修改Hadoop配置信息-1进入配置信息文件 cd /usr/local/hadoop/hadoop-2.7.1/etc/hadoop/ 4.修改Had…

wx-open-subscribe自定义样式和按钮无效【已解决】

有一个需求&#xff0c;是在微信公众号中加下类似于小程序的的那个订阅消息弹框&#xff0c;需要用户点击允许才可以给用户推送消息。如下图 微信官方文档&#xff1a;wx-open-subscribe 官方示例如下&#xff1a; 这个代码一看也能看明白&#xff0c;<wx-open-subscribe包…

【计算机网络】——数据链路层(应用:介质访问控制)

//仅做个人复习和技术交流&#xff0c;图片取自王道考研&#xff0c;侵删 一、大纲 1、介质访问控制 信道划分介质访问控制 随机访问介质访问控制 2、局域网 3、广域网 4、数据链路层设备 二、介质访问控制 省流&#xff1a;把广播信道通过介质访问控制机制 逻辑上转换为 …

Window 10安装MySQL 5.7

1、访问如下链接进行下载&#xff1a;Mysql官方下载地址 官方地址下载的东西没有那么多病毒~。这东西见仁见智吧哈哈~。有些人不怕这个。 注意安装上面这个下面的是test 2、填写mysql的环境变量 具体操作步骤如下&#xff1a; 在桌面按下快捷键“WinR”输入“control sysdm…

JVM内存模型(JMM)

目录 一、运行时数据区域划分 ​编辑 二、线程私有的 1、程序计数器 2、虚拟机栈&#xff08;VM Stack&#xff09; 3、本地方法栈 三、线程公有的 1、堆 2、元空间 Java程序把内存控制权利交给JVM虚拟机&#xff0c;一旦出现内存泄漏和溢出方法的问题&#xff0…

Webpack使用output配置打包代码信息和自动清理打包目录

一、修改代码打包后的文件名 二、自动清理打包目录 如果我们将打包文件名修改再进行打包&#xff0c;会发现之前不同名的打包文件会进行保留 在output对象中配置clean属性可自动清理打包目录 三、指定打包文件的目录 四、指定多个打包文件文件名