【小白学机器学习6】真实值,观测值,拟合值,以及数据的误差的评价:集中趋势,离散度,形状等

news2024/12/23 12:26:29

目录

1 世界上有哪几种值?只有3种值

1.1 真值/真实值/理想值/主观值(形而上学世界里)

1.2 实际值/现实值/观测值/样本值(看到的/记录下来的)

1.3 拟合值/预测值(算出来的)

2  对数据的各种描述

2.1 维度1:总体和相对指标

2.2 数据分析的角度描述数据

2.2.1 为什么有这个角度?

2.2.2 具体是3个: 数据的集中趋势,数据的离散趋势,数据的形状

2.2.3 分散程度/ 离散程度

2.2.4 离散程度,集中趋势:相对的一对指标

3 数据的集中程度

3.1 数据的集中程度的定义

3.2 数据的集中程度的多种指标

3.3 中位数

3.4 众数

3.5 分位数

3.6 百分位数

4 数据的离散程度

4.1 数据的离散程度

4.2 数据的离散程度的多种指标

4.3 极差(Range)

4.4 平均差  

4.4.1 平均差

4.4.2 平均差必须用abs()

5 用来衡量形态的:变异指标

5.1  变异系数

5.2 偏态与峰度测度

5.3 偏态系数

5.4 峰态系数

6 数据标准化


1 世界上有哪几种值?只有3种值

世界上的值,从这个逻辑上,严格的被划分为了这3类:大脑里想象相信的,可以看到+记下来的,自己算的,

  • 大脑里想象相信的:真实值
  • 可以看到+记下来的:实际值/观测值
  • 自己算的:拟合值/预测值

1.1 真值/真实值/理想值/主观值(形而上学世界里)

  • 比如丢硬币的任意一边的概率=0.5,这个就是真实值
  • 真实,语言意义所指的层面是,理想世界,数学理想世界的那个真实。
  • 也是个理想值,主观的
  • 整个主观是指不存在现实里,只存在形而上学层次的值。

1.2 实际值/现实值/观测值/样本值(看到的/记录下来的)

  • 因为是观察到真实世界里发生了的,从而记录下来的
  • 这个才是客观的
  • 注意:客观的不是真实的(这个要有一定哲学形而上学的思维)
  • 这个客观是指,现实中记录的数。
  • 特殊情况:有些观测值具有直观的唯一确定性。此时观测值=真实值
    • 比如概率之和,怎么测都一定符合100%?
    • 虽然这些情况下,观测值==真实值,但是概念上仍然独立分开,可以认为是刚好相等。

1.3 拟合值/预测值(算出来的)

  • 用模型去拟合现有的观测值/样本值,目的是为了产生一些现实中没有的预测值(如时间序列未来的预测值)。
  • 但是同时,因为模型拟合很难100%贴合观察数据,对于之前的观测值/样本值,也产生了对应的拟合值。
  • 这个也是客观存在得,算出来的值。
  • 模型Function(观察值)→ 拟合值+预测值

2  对数据的各种描述

  • 对数据可以进行描述,也需要描述
  • 一个系列的数据,描述存在多种不同的维度
    • 比如从总体还是部分的区别来描述
    • 从相对和绝对的角度
    • 从数据分析的角度

2.1 维度1:总体和相对指标

  • 总量指标, sum,比如总利润等等
  • 相对指标, ratio percent,比如同比环比等等

2.2 数据分析的角度描述数据

2.2.1 为什么有这个角度?

       假如我们有多组数据,每组数据各有差别,因为我们要描述数据,就必须把下面的这些问题搞清楚:

  • 比如
  • 有的数据很集中,有的数据很分散
  • 有的数据很符合观察数据,有的偏离非常园
  • 有的数据呈现圆形,有的呈现正态分布,有的是直线型。。。。

2.2.2 具体是3个: 数据的集中趋势,数据的离散趋势,数据的形状

  • 描述数据分布的集中趋势:反映数据向其中心靠拢或聚集程度
  • 描述数据分布的离散程度:反映数据远离中心的趋势或程度
  • 描述数据分布的形状变化:反应数据分布的形状特征

2.2.3 分散程度/ 离散程度

  • 分散程度,离散程度,虽然好像在非数学领域有时候有区分, 据我了解好像没看到数学领域区别,暂时认为是一个东西了。
  • 比如经济学领域
  • 离散程度:variance/ standard deviation数据之间本身的分散程度大,波动大,不够集中聚拢。
  • 分散程度:diversification分散化风险的意思

2.2.4 离散程度,集中趋势:相对的一对指标

  • 我认为是相对的一对指标,但略有差别,不能互相替代。
  • 数据资料的频数分布有集中趋势和离散趋势两个主要特征。
  • 仅仅用集中趋势来描述数据的分布特征是不够的,只有把两者结合起来
  • 举例:我们经常会碰到平均数相同的两组数据其离散程度不同。

3 数据的集中程度

3.1 数据的集中程度的定义

  • 集中趋势(central tendency):集中趋势反映了一组数据的中心点位置所在及该组数据向中心靠拢或聚集的程度。(描述数据中心)
  • 适合查看符合正态分布等数据。
  • 如果数据本身比较偏,看集中趋势意义大吗?

3.2 数据的集中程度的多种指标

  • 在统计学中,集中趋势或中央趋势,在口语上也经常被称为平均,
  • 表示一个机率分布的中间值。
  • 最常见的几种集中趋势包括算数平均数、中位数及众数
    • 平均值,
    • 代数平均值
    • 几何平均值
    • 加权平均值,如期望就是一种以概率为权重的加权平均数
    • 调和平均数

3.3 中位数

  • 中位数:数据序列序号中间的那个数

3.4 众数

  • 众数:   出现次数最多的数

3.5 分位数

  • 分位数(百分位数):经常画箱图
  • 2分位数,50%左右,其实就是中位数
  • 四分位数,下四分位数25%
  • 十分位数:1/10

3.6 百分位数

  • 百分位数,尤其是,正态分布的,68%,95%,99% 等3 个区间
  • 正态分布的3σ原则为:
    • 数值分布在(μ-σ,μ+σ)中的概率为0.6827;
    • 数值分布在(μ-2σ,μ+2σ)中的概率为0.9545;
    • 数值分布在(μ-3σ,μ+3σ)中的概率为0.9973

4 数据的离散程度

4.1 数据的离散程度

所谓离散程度(Measures of Dispersion),即观测变量各个取值之间的差异程度。它是用以衡量风险大小的指标

  • 离散程度反映了各个数据属性值远离其中心值的程度,是数据分布的另一个重要特征。
  • 数据的离散程度越大,则集中趋势的测度值对该组数据的代表性就越差,反之亦然。
  • 反映各变量值远离其中心值的程度,是数据分布的另一个重要特征
  • 从另一个侧面说明 集中趋势测度值的代表程度  (数据距离集中区域分散程度)
  • 离散程度越大,均值代表的东西就越少。
  • 离散趋势适用情况:均数相差不大,单位相同的资料。

4.2 数据的离散程度的多种指标

  • 极差
  • 方差
  • 标准差
  • 四分位数间距。

4.3 极差(Range)

  • 极差又称全距, 常规理解:数据宽度?跨度?
  • 是观测变量的最大取值与最小取值之间的离差,也就是观测变量的最大观测值与最小观测值之间的区间跨度.极差的计算公式为:   
  • R= Max(Xi) - Min(Xi)
  • 容易受极端值的影响
  • 极差是用来衡量数据的最大值与最小值之间的差异程度。
  • 极差简单易懂,但只考虑了数据的两个极端值,不能完全反映数据集的分散情况。

4.4 平均差  

4.4.1 平均差

  • 平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数.
  • 它综合反映了总体各单位标志值的变动程度.
  • 平均差越大,则表示标志变动度越大,反之则表示标志变动度越小
  • 其实就是, 平均差=Σ|Xi-X均值|/n

4.4.2 平均差必须用abs()

  • 必须用 abs() ,否则离散程度的正负差别就会互相抵消,无法反映离散程度!
  • 其实就是, 平均差=Σ(Xi-X均值)/n 是错的

5 用来衡量形态的:变异指标

  • 偏态和峰态(形状)反映数据总体分布形态的指标
  • 变异系数(Coefficient of Variation):
  • 变异系数是标准差与均值之比,用来比较不同数据集的离散程度。
  • 变异系数可以消除数据单位的影响,更适合用于比较不同尺度或大小的数据集。

5.1  变异系数

变异系数= 标准差除以均值。

离散系数相同时

需要对比两件事物的离散程度,是利用变异系数进行对比。

从公式来看变异系数是以其数学期望为单位去度量随机变量取值波动程度的特征数,标准差的量纲与数学期望的量纲是一致的,所以变异系数是一个无量纲的量,也说明消除了量纲对波动的影响。

5.2 偏态与峰度测度

  • 偏态与峰度测度(偏态及其测度、峰度及其测度)。
  • 偏态:反映数据分布不对称的方向和程度
  • 峰态:反映数据分布图的尖峭程度或扁平程度

5.3 偏态系数

  • 是数据分布偏斜程度的测度
  • 偏态系数 = 0时:对称分布
  • 偏态系数 > 0时:右偏分布
  • 偏态系数 < 0时:左偏分布

5.4 峰态系数

  • 是数据分布尖峭程度的测度
  • 峰态系数 = 0时:峰度适中
  • 峰态系数 > 0时:尖峰分布
  • 峰态系数 < 0时:偏平分布

6 数据标准化

定义:数据指数化

  • 意义:能够去除数据的单位限制,将其转化为无单位的纯数值,便于不同单位或量级的指标能够进行比较和加权
  • 0-1标准化:也叫离差标准化,是对原始数据进行线性变换,是结果落到 [0,1] 区间
  • z-score标准化:也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1490000.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高级大数据技术 实验一 scala编程

​ 高级大数据技术 实验一 scala编程 写的不是很好&#xff0c;大家多见谅&#xff01; 1. 计算水仙花数 实验目标; &#xff08;1&#xff09; 掌握scala的数组&#xff0c;列表&#xff0c;映射的定义与使用 &#xff08;2&#xff09; 掌握scala的基本编程 实验说明 …

力扣hot100:438.找到字符串中所有字母异位词

26个字符&#xff0c;我复制怎么了&#xff1f;26个字符我比较个数怎么了&#xff1f; 顶多时间复杂度*26 本题用固定窗口大小的滑动窗口每次比较包含26个元素的数组次数&#xff0c;最容易写。 动态窗口大小哈希表存数值&#xff08;双指针差值&#xff09;难想难写。 一、动态…

【CSS】(浮动定位)易忘知识点汇总

浮动特性 加了浮动之后的元素,会具有很多特性,需要我们掌握的. 1、浮动元素会脱离标准流(脱标&#xff1a;浮动的盒子不再保留原先的位置) 2、浮动的元素会一行内显示并且元素顶部对齐 注意&#xff1a; 浮动的元素是互相贴靠在一起的&#xff08;不会有缝隙&#xff09;&…

第五套CCF信息学奥赛c++练习题 CSP-J认证初级组 中小学信奥赛入门组初赛考前模拟冲刺题(阅读程序题)

第五套中小学信息学奥赛CSP-J考前冲刺题 二、阅读程序题 (程序输入不超过数组或字符串定义的范围&#xff0c;判断题正确填√错误填X;除特殊说明外&#xff0c;判断题 1.5分&#xff0c;选择题3分&#xff0c;共计40分) 第一题 递归函数 1 #include<iostream> 2 usin…

Java实现手机库存管理

一、实验任务 编写一个程序&#xff0c;模拟库存管理系统。该系统主要包括系统首页、商品入库、商品显示和删除商品功能。每个功能的具体要求如下&#xff1a; 1.系统的首页&#xff1a;用于显示系统所有的操作&#xff0c;并且可以选择使用某一个功能。 2.商品入库功能&…

MyCAT集群——MyCAT2如何配置读写分离

先搭载MySQL一主两从 192.168.20.110MyCAT192.168.20.111Master192.168.20.112slave1192.168.20.113slave2 配置就不写了&#xff0c;比较基础&#xff0c;写一下步骤 1.进入mysql配置文件或者其子配置文件&#xff0c;添加server_id,开启gtidgtid_modeON,enforce-gtid-cons…

【C语言】linux内核netif_receive_skb

一、中文注释 /*** netif_receive_skb - 从网络处理接收缓冲区* skb: 要处理的缓冲区** netif_receive_skb() 是主要的数据接收处理函数。* 它总是成功的。由于拥塞控制或协议层的原因&#xff0c;缓冲区可能在处理过程中被丢弃。** 这个函数只能在软中断&#xff08;softirq&…

MATLAB知识点:while-end循环语句

​讲解视频&#xff1a;可以在bilibili搜索《MATLAB教程新手入门篇——数学建模清风主讲》。​ MATLAB教程新手入门篇&#xff08;数学建模清风主讲&#xff0c;适合零基础同学观看&#xff09;_哔哩哔哩_bilibili 节选自​第4章&#xff1a;MATLAB程序流程控制 除了for-end语…

S5---FPGA-K7板级电源硬件实战

视频链接 FPGA-K7板级电源硬件实战01_哔哩哔哩_bilibili FPGA-K7板级电源硬件实战 基于K7 板级的系统框图 2、基于K7 板级的电源设计细则 2.1、K7 FPGA功耗评估 KINTEX-7 FPGA电源有数字电源VCCINT, VCCBRAM, VCCAUX, VCCAUX_IO &#xff0c;VCCO和模拟电源VMGTAVCC ,VMGTAV…

uniapp 项目 浏览器chrome使用vue devtool 识别不了 in not detect

问题 uniapp的项目&#xff0c;vue2&#xff0c; chrome 分析 添加了运行时&#xff0c;指定模板h5.html 指定的h5.html重置了运行根目录&#xff0c;导致了vue dev tool在运行时&#xff0c;chrome上识别不了。 解决&#xff1a; 方法1&#xff1a; 只能调试的时候,不加sati…

AI EARTH——1972-2019全球不透水面30米分辨率产品(GISA-2.0)

1972-2019全球不透水面30米分辨率产品(GISA-2.0) 武汉大学Landsat全球地物识别年度产品前言 – 人工智能教程 时相&#xff1a; 1972-2019 范围&#xff1a; 全球 数据来源&#xff1a; 武汉大学&#xff08;黄昕教授团队&#xff09; 引用代码&#xff1a; dataset …

CRMCHAT修复获取客户ip信息,地区信息

CRMCHAT修复获取客户ip信息&#xff0c;地区信息-TP源码网原因&#xff1a; 因pv.sohu.com/cityjson?ieutf-8接口已无法正确获取ip信息&#xff0c;导致后台站点统计无法正确获取用户ip信息&#xff0c;无法获取地区信息 修改 注释掉无用接口地址 修复ip信息 也可以使用&…

C++惯用法之RAII思想: 资源管理

C编程技巧专栏&#xff1a;http://t.csdnimg.cn/eolY7 目录 1.概述 2.RAII的应用 2.1.智能指针 2.2.文件句柄管理 2.3.互斥锁 3.注意事项 3.1.禁止复制 3.2.对底层资源使用引用计数法 3.3.复制底部资源(深拷贝)或者转移资源管理权(移动语义) 4.RAII的优势和挑战 5.总…

XUbuntu22.04之如何找到.so库所在的软件包?(二百一十六)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…

Jupyter Notebook的安装和使用(windows环境)

一、jupyter notebook 安装 前提条件&#xff1a;安装python环境 安装python环境步骤&#xff1a; 1.下载官方python解释器 2.安装python 3.命令行窗口敲击命令pip install jupyter 4.安装jupyter之后&#xff0c;直接启动命令jupyter notebook,在默认浏览器中打开jupyte…

C/C++ 乘积尾零问题(蓝桥杯)

如下的10行数据&#xff0c;每行有10个整数&#xff0c;请你求出它们的乘积的末尾有多少个零&#xff1f; 5650&#xff0c;4542 3554 473 946 4114 3871 9073 90 4329 2758 7949 6113 5659 5245 7432 3051 4434 6704 3594 9937 1173 6866 3397 4759 7557 3070 2287 1453 9899…

stressapptest源码剖析:主函数main解析和sat类头文件分析

主函数main解析和sat类头文件分析 一、简介二、入口函数main.cc剖析三、SAT压力测试对象接口和数据结构总结 一、简介 stressapptest&#xff08;简称SAT&#xff09;是一种用于在Linux系统上测试系统稳定性和可靠性的工具&#xff0c;通过产生CPU、内存、磁盘等各种负载来测试…

web小游戏,蜘蛛纸牌

H5小游戏源码、JS开发网页小游戏开源源码大合集。无需运行环境,解压后浏览器直接打开。有需要的订阅后,私信本人,发源码,含60+小游戏源码。如五子棋、象棋、植物大战僵尸、贪吃蛇、飞机大战、坦克大战、开心消消乐、扑鱼达人、扫雷、打地鼠、斗地主等等。 <!DOCTYPE h…

智能驾驶规划控制理论学习06-基于优化的规划方法之数值优化基础

目录 一、优化概念 1、一般优化问题 2、全局最优和局部最优 二、无约束优化 1、无约束优化概述 2、梯度方法 通用框架 线性搜索 回溯搜索 3、梯度下降 基本思想 实现流程 ​4、牛顿法 基本思想 实现流程 5、高斯牛顿法 6、LM法&#xff08;Le…

甲类,乙类,甲乙类,D类功放

功率放大器&#xff1a; 简称功放,分为甲类&#xff0c;已类&#xff0c;甲乙类和D类。 首先要认识三极管&#xff0c;三极管最简单的理解为B极向E极流过一个较小的电流的时候&#xff0c;C极可以向E极流过一个较大的电流&#xff0c;而且两个电流之间呈现倍数关系&#xff0…