【数据统计】— 峰度、偏度、点估计、区间估计、矩估计、最小二乘估计

news2024/9/20 21:29:10

【数据统计】— 峰度、偏度、点估计、区间估计、矩估计、最小二乘估计

  • 四分位差
  • 异众比率
  • 变异系数
    • 利用数据指标指导建模思路
  • 形状变化
    • 数据分布形态
      • 峰度: 度量数据在中心聚集程度
      • 偏度
    • 利用数据指标指导建模思路
  • 参数估计
    • 点估计
    • 区间估计
    • 矩估计
      • 举例:黑白球(矩估计)
    • 最小二乘估计(Least Square Estimate, LSE)
      • 举例:黑白球(最小二乘估计)

四分位差

  • 一组数据的上四分位数和下四分位数的差,也称为内矩
  • 若上四分位数为𝑄𝑈,下四分位数为𝑄𝐿,则四分位差为在这里插入图片描述
  • 特点
    • Q是区间[𝑄𝐿, 𝑄𝑈]的长度
    • 区间[𝑄𝐿, 𝑄𝑈]含有50%的数据
    • 四分位数不会受到数据中极端值的影响
      在这里插入图片描述

异众比率

在这里插入图片描述

变异系数

在这里插入图片描述

利用数据指标指导建模思路

  • 若均值与中位数接近,且偏度接近0,可知数据分布是近似对称的,建模时可考虑运用对称信息
  • 若极差或四分位差较大,建模时需考虑数据是否有长尾现象在这里插入图片描述

形状变化

数据分布形态

  • 数据分布形态反映了一组数据分布的整体形状信息。
  • 两种最常用的反映数据形状变化的指标:
    • 峰度
    • 偏度

峰度: 度量数据在中心聚集程度

  • 峰度(Kurtosis)是描述总体中所有取值
    分布形态陡峭程度 or 平坦程度
  • 峰度的具体计算公式为:在这里插入图片描述
  • 正态分布的峰度值为3
    • 个别软件将峰度值减3, 如:SPSS等
  • 与正态分布相比较
    • 峰度=0表示该总体数据分布与正态分布的陡缓程度相同
    • 峰度>0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰
    • 峰度<0表示该总体数据分布与正态分布相比较为平坦,为平顶峰
      在这里插入图片描述

偏度

  • 偏度(Skewness)描述的是某总体取值分布的对称性

  • 偏度的具体计算公式为:在这里插入图片描述

  • 正态分布的偏度值为0

  • 某个总体

    • 偏度=0表示数据分布形态与正态分布的偏斜程度相同
    • 偏度>0表示数据分布形态与正态分布相比为正偏或右偏,即有一条长尾巴拖在右边,数据右端有较多的极端值
    • 偏度<0表示数据分布形态与正态分布相比为负偏或左偏,即有一条长尾拖在左边,数据左端有较多的极端值在这里插入图片描述

利用数据指标指导建模思路

  • 峰度的应用
  • 正态分布
  • 拉普拉斯分布:更好的拟合0出现概率较大的稀疏数据在这里插入图片描述
  • 泊松分布:
    • 例如,POI(兴趣点)位置的访问频率
  • 幂律分布:对数空间下呈现出线性关系(80-20法则)
    • 例如:社交网络(Social Network), 图网络分析
      在这里插入图片描述在这里插入图片描述

参数估计

  • 参数(parameter)
    • 参数 是用来描述总体数据特征的度量
  • 统计量(statistic)
    • 统计量 是用来描述样本数据特征的度量
      • 由试验计算得出,不依赖于任何其他未知的量(特别是不能依赖于总体分布中所包含的未知参数)
  • 参数估计(parameter estimation)
    • 是统计推断的基本问题之一:用样本统计量估计总体的参数
      • 参数未知的真实
      • 统计量已知的估计
    • 例:掷骰子例子

点估计

  • 点估计:用样本统计量𝜃 的某个取值直接作为总体参数𝜃的估计值
    • 简单来说,直接以样本指标来估计总体指标
    • 总体的某个特征值,如数学期望、方差和相关系数等
    • 用样本均值 x x x直接作为总体均值 μ μ μ的估计值
    • 用样本方差 s 2 s^2 s2直接作为总体方差 σ 2 σ^2 σ2的估计值
    • 点估计的常用方法
      • 矩估计
      • 最小二乘估计
      • 极大似然估计
      • 最大后验概率
      • 贝叶斯估计

区间估计

  • 区间估计:从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计
    • 用数轴上的一段经历或一个数据区间,表示总体参数的可能范围。这一段距离或数据区间称为区间估计的置信区间

矩估计

  • 原理:大数定律(大量试验中的事件出现频率=它的概率)

  • 矩估计是基于 “替换”思想,即用样本矩估计总体矩

    • 均值,方差
  • 随机变量的矩

    • K阶原点矩:一阶原点矩表示期望在这里插入图片描述
    • K阶中心距:在这里插入图片描述
      • 二阶中心矩表示方差
      • 三阶中心矩表示偏度
      • 四阶中心矩表示峰度
    • 在这里插入图片描述
  • 数学上,“矩”是一组点组成的模型的特定的数量测度

举例:黑白球(矩估计)

  • 例:假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。每次任意从已经摇匀的罐中拿1个球出来,记录球的颜色,然后把拿出来的球再放回罐中。假如在前面的100次重复记录中,有70次是白球。请问罐中白球所占的比例是多少?
  • 解:用样本中白球比例的均值作为估计代替总体均值。即估计结果为罐中白球所占的比例70% =7/10。符合直观

最小二乘估计(Least Square Estimate, LSE)

  • 参数估计量应该使得模型能最好地拟合样本数据,即估计值与观测值之差的平方和最小
  • 目标:最小化估计值𝑦与观测值 y ^ \hat{y} y^之差的平方和 m i n L ( θ ) = ∑ i = 1 N ( y − y ^ ) 2 min L(θ)=\sum^N_{i=1}(y-\hat{y})^2 minL(θ)=i=1N(yy^)2
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

举例:黑白球(最小二乘估计)

  • 问题:假如有一个罐子,里面有黑白两种颜色的球,数目多少不知,两种颜色的比例也不知。每次任意从已经摇匀的罐中拿1个球出来,记录球的颜色,然后把拿出来的球再放回罐中。假如在前面的100次重复记录中,有70次是白球。请问罐中白球所占的比例是多少?
  • 请使用最小二乘估计方法,求解上述问题在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/441009.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

修改键盘映射(注册表)Scancode Map

1.win R 打开 cmd命令框&#xff0c;输入regedit 2.赋值这个地址到蓝色框里&#xff1a; 计算机\HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Keyboard Layout 3.右键 ->新建->二进制值&#xff0c;命名为 Scancode Map 4.现在来讲解怎么使用这个二进制表修…

LC串联谐振回路

理想LC串联谐振回路 下图是理想的LC串联谐振回路&#xff0c;不考虑L C的等效电阻。理想的LC回路没有任何损耗。 理想LC串联谐振的回路阻抗为&#xff1a; 令虚部为0&#xff0c;就可求出谐振角频率W0 可得谐振角频率&#xff1a; 可得谐振频率&#xff1a; 因为 所以电…

计算机网络之运输层

协议 协议就是计算机与计算机之间通信的“约定”&#xff0c;既为规则&#xff0c;只有遵循这个约定&#xff0c;双方就可以进行通信。 进程之间的通信 从通信和信息处理的角度来看&#xff0c;运输层向上面的应用层提供通信的服务&#xff0c;属于面向通信的最高层&#xf…

Redis哨兵(非集群 Rrdis 的高可用性 )

Redis哨兵(非集群 Rrdis 的高可用性 ) 1. 什么是哨兵 吹哨人巡查监控后台 master 主机是否故障,如果故障了根据投票数自动将某一个从库转换为新主库,继续对外服务 Redis哨兵在不使用Redis集群时为Redis提供高可用性 2. 作用 无人值守运维 3. 哨兵作为分布式系统 Redis S…

console.log(obj)不一定能的到obj当前的值

1.Log (anObject)的输出具有误导性; 只有在控制台中展开 > 时才能解析显示的对象的状态。它不是您在 console.log 对象时对象的状态。 相反&#xff0c;尝试 console.log (Object.keys ()) &#xff0c;或者甚至console.log(JSON.parse(JSON.stringify(obj))) &#xff0c;…

黑盒(功能)测试基本方法

1、黑盒测试的概念 1、什么是黑盒测试 &#xff08;1&#xff09;黑盒测试又称功能测试、数据驱动测试或基于规格说明书的测试&#xff0c;是一种从用户观点出发的测试。 &#xff08;2&#xff09;测试人员把被测程序当作一个黑盒子。 2、黑盒测试主要测试的错误类型有 &…

JVisualVM、Visual GC

JVisualVM JVisualVM Java VisualVM 是一款 JDK 自带免费的性能分析工具 public class JVisualVM {public static void main(String[] args) {Thread t1 new Thread(() -> {while (!Thread.currentThread().isInterrupted()) {}}, "JVisualVM测试子线程");t1.…

flinkcdc 动态的增加新的同步表到同一个作业中

背景 flinkcdc 2.0版本上线了一个新功能–支持动态加表这个是很有用的feature&#xff0c;本文介绍在开发中如何使用。 设想下假如你一个 CDC pipeline 监控了 4 张表&#xff0c;突然有天业务需求需要再加几张表&#xff0c;你肯定不想另起作业 (浪费资源)&#xff0c;那么这…

大数据——HDFS(分布式文件系统)

一&#xff0c;分布式系统概述 Hadoop的两大核心组件 HDFS&#xff08;Hadoop Distributed Filesystem&#xff09;&#xff1a;是一个易于扩展的分布式文件系统&#xff0c;运行在成百上千台低成本的机器上。HDFS具有高度容错能力&#xff0c;旨在部署在低成本机器上。HDFS主…

日撸 Java 三百行day34

文章目录 说明Day34 图的深度优先遍历1.思路2.代码3.总结1.在广度遍历中借助了队列2.在深度优先遍历借助了栈。 说明 闵老师的文章链接&#xff1a; 日撸 Java 三百行&#xff08;总述&#xff09;_minfanphd的博客-CSDN博客 自己也把手敲的代码放在了github上维护&#xff1a…

Android 开发之核心技术点——性能优化篇(带面试题)~

性能优化对于Android开发的重要性非常大。随着Android设备的不断升级&#xff0c;用户对应用的要求也越来越高&#xff0c;包括应用的运行速度、响应速度、流畅度等方面。如果应用的性能不能满足用户的需求&#xff0c;很可能会导致用户流失、差评以及应用被卸载等情况。 另外…

boot-admin整合flowable官方editor-app进行BPMN2.0建模

boot-admin整合flowable官方editor-app源码进行BPMN2.0建模 正所谓百家争鸣、见仁见智、众说纷纭、各有千秋&#xff01;在工作流bpmn2.0可视化建模工具实现的细分领域&#xff0c;网上扑面而来的是 bpmn.js 这个渲染工具包和web建模器&#xff0c;而笔者却认为使用flowable官…

2023零基础快速跟上人工智能第一梯队

写在前面&#xff1a;有关人工智能学什么&#xff0c;怎么学&#xff0c;什么路线等一系列问题。我决定整理一套可行的规划路线&#xff0c;希望帮助准备入门的朋友们少走些弯路。 下面我会推荐一个比较快速可行的学习模板&#xff0c;并附上我认为比较好的学习资料。 新手不建…

git使用规范文档

git使用规范文档 Git使用规范流程图 开发人员操作步骤&#xff1a; 第一步&#xff1a;clone代码 在你的本地代码库进行从远程仓库clone代码操作&#xff08;100%表示clone完成&#xff09; 进入项目文件&#xff0c;右键Git Bash Here 切换到你所进行开发的分支上 拉取该分…

JavaSE学习进阶day05_02 常见的数据结构和List接口

第三章 数据结构&#xff08;掌握&#xff09; 3.1 数据结构介绍 数据结构 : 数据用什么样的方式组合在一起。 科班出身的同学我想你对数据结构一点也不陌生&#xff0c;不知道你记不记得&#xff0c;当时学习数据结构的逻辑结构中的集合时&#xff0c;只是简单了解它&#…

hackathon 复盘:niche 海外软件工具正确的方法 6 个步骤

上周末&#xff0c;去参加了北京思否 hackathon&#xff0c;两天时间内从脑暴 & 挖掘软件 IDEA -> Demo 研发路演&#xff0c;这次经历让我难忘。这里我的看法是每个开发者圈友&#xff0c;都应该去参加一次 hackathon ~ 做 niche 软件正确的方法 这边先说结论&#xf…

vmware下Ubuntu系统中安装vscode

文章目录 前言&#xff1a;在线下载&#xff1a;离线下载包&#xff1a;配置C/C环境 前言&#xff1a; 这篇博客是为后面交叉编译程序放到树莓派上运行做的准备。同时也是自己在装过程中的一个记录。 在线与离线安装的唯一不同就是获取安装包是在线下载还是别的地方拷贝过来以…

【数据结构】- 链表之单链表(中)

文章目录 前言一、单链表(中)1.1 头删1.2尾删1.2.1第一种方法&#xff1a;1.2.2第二种方法&#xff1a;1.2.3多因素考虑 二、完整版代码2.1 SList.h2.2 SList.c2.3 Test.c 总结 前言 千万不要放弃 最好的东西 总是压轴出场 本章是关于数据结构中的链表之单链表(中) 提示&#…

数据结构与算法基础(王卓)(26)线性表的查找(2):顺序查找(二分查找、分块查找)

二、折半查找&#xff08;二分或对分查找) 前置条件和前面一样 最开始根据PPT示(实)例写出的程序框架&#xff1a; 一开始&#xff1a; low&#xff1a;第一位 high&#xff1a;最后一位 mid&#xff1a;正中间 查找数小于mid&#xff1a; 把high移动到mid前面一位&#xff08;…

从0搭建Vue3组件库(四): 如何开发一个组件

本篇文章将介绍如何在组件库中开发一个组件,其中包括 如何本地实时调试组件如何让组件库支持全局引入如何在 setup 语法糖下给组件命名如何开发一个组件 目录结构 在packages目录下新建components和utils两个包,其中components就是我们组件存放的位置,而utils包则是存放一些…