了解统计学中不同类型的分布

news2024/11/25 4:41:40

目录

一、说明

二、均匀分布:

三、机器学习和数据科学中的均匀分布示例:

3.1 对数正态分布:

3.2 机器学习和数据科学中的对数正态分布示例:

四、 帕累托分布

4.1 什么是幂律?

4.2 机器学习和数据科学中的帕累托分布示例:

4.3 伯努利分布:

4.4 机器学习和数据科学中的伯努利分布示例:

4.5. 二项分布:

4.6 机器学习和数据科学中的二项分布示例:

五、概率分布变换:

5.1. 统计假设

5.2. 提高算法性能

5.3. 稳定方差

5.4. 减少偏斜

5.5 实现常态的常见转换


一、说明

        统计学是理解数据的有力工具,其核心在于分布的概念。统计学中的分布有助于我们理解数据的分布方式,为各种数据集的概率和行为提供重要的见解。从熟悉的钟形曲线的正态分布到其他偏斜和重尾模式,本博客旨在解开不同类型的分布,清楚地了解它们在统计分析中的特征、应用和意义。

二、均匀分布:

        均匀分布是一种概率分布,其中所有结果在给定范围内的可能性相同。这意味着,如果要从此范围中选择一个随机值,则任何值都与任何其他值一样可能。例如,从一篮子苹果中随机选择的苹果的重量在 100 到 200 克之间,将遵循连续的均匀分布。

骰子结果的离散均匀分布

连续均匀分布的概率密度函数为:

均匀分布的CDF由下式给出:

                                                        均匀分布图中不存在偏度。

三、机器学习和数据科学中的均匀分布示例:

  1. 随机初始化:在许多机器学习算法中,例如神经网络和 k 均值聚类,参数的初始值可能会对最终结果产生重大影响。均匀分布通常用于随机初始化参数,因为它可以确保范围内的所有值都具有相等的选择
    概率。
  2. 采样:均匀分布也可用于采样。例如,如果数据集中每个类的样本数相等,则可以使用均匀分布随机选择代表所有类的数据子集。
  3. 数据增强:在某些情况下,您可能希望通过生成与原始数据相似的新示例来人为地增加数据集的大小。均匀分布可用于生成原始数据指定范围内的新数据点。
  4. 超参数优化:均匀分布也可用于超参数优化,在超参数优化中,您需要为机器学习模型搜索超参数的最佳组合。通过为每个超参数定义均匀的先验分布,可以从分布中采样以探索超参数空间。

3.1 对数正态分布:

        在概率论和统计学中,对数正态分布是对数呈正态分布的随机变量的重尾连续概率分布,即,如果取每个值的自然对数并绘制此分布,则得到正态分布。 对数正态的PDF方程由下式给出:

        这种分布是右偏的,因为它倾向于在右侧产生更长的尾部,这意味着大多数数据点集中在左侧,少数较大的值延伸到右侧。

        对数正态的概率分布

对数正态的累积分布

3.2 机器学习和数据科学中的对数正态分布示例:

  • 在 Internet 论坛中发布的评论长度遵循对数正态分布。
  • 用户在在线文章(笑话、新闻等)上的停留时间遵循对数正态分布。
  • 国际象棋比赛的长度往往遵循对数正态分布。
    在经济学中,有证据表明 97%-99% 的人口的收入是按对数正态分布的。

四、 帕累托分布

        帕累托分布是一种概率分布,通常用于模拟财富、收入和其他表现出类似幂律行为的量的分布。

4.1 什么是幂律?

        在数学中,幂律是两个变量之间的函数关系,其中一个变量与另一个变量的幂成正比。具体来说,如果 y 和 x 是幂律相关的两个变量,则关系可以写为:
y = k * x^a

帕累托分布的概率分布

        维尔弗雷多·帕累托(Vilfredo Pareto)最初使用这种分布来描述个人之间的财富分配,因为它似乎很好地表明了任何社会财富的很大一部分由该社会中较小比例的人拥有的方式。他还用它来描述收入分配。这个想法有时更简单地表达为帕累托原则或“80-20规则”,即20%的人口控制着80%的财富。

4.2 机器学习和数据科学中的帕累托分布示例:

  • 人类住区的规模(少数城市,/村庄)。
  • 使用 TCP 协议的 Internet 流量的文件大小分布(许多较小的文件,少数较大的文件)

4.3 伯努利分布:

        伯努利分布是一种对二元结果进行建模的概率分布,其中结果可以是成功(由值 1 表示)或失败(由值 0 表示)。伯努利分布的特征是单个参数,即成功概率,用 p 表示。

4.4 机器学习和数据科学中的伯努利分布示例:

        伯努利分布通常用于机器学习中,用于对二元结果进行建模,例如客户是否会购买,电子邮件是否为垃圾邮件,或者患者是否患有某种疾病。

4.5. 二项分布:

        二项分布是一种概率分布,它描述了在固定数量的独立伯努利试验中的成功次数,该试验具有两种可能的结果(通常称为“成功”和“失败”),其中每个试验的成功概率是恒定的。二项分布由两个参数表征:试验次数 n 和成功概率 p。

4.6 机器学习和数据科学中的二项分布示例:

  1. 模型精度:在测试预测电子邮件是否为垃圾邮件的机器学习模型时,可能会运行它 100 次。每次,您都会检查它是否正确(成功)或不正确(失败)。二项分布可帮助您了解在给定一定准确率的情况下,模型可能正确预测的次数为 100 次。
  2. A/B 测试:在 A/B 测试中,您可以比较某些内容的两个版本(例如网站或广告),看看哪个版本效果更好。通过二项分布,您可以根据一定的成功概率来估计一个版本更成功的频率,例如获得更多点击或转化。

五、概率分布变换:

        在分布方面,变换是指将数学函数应用于数据以改变其底层分布的过程。分布描述了数据如何分布在一系列值中,转换用于实现各种目标,包括修改分布的形状、比例或分布。

        当您需要使用假定正态分布的算法时,变换在统计学和机器学习中可能至关重要。许多统计方法和机器学习算法在数据遵循正态分布时表现最佳,这要归功于对称性、定义的均值和标准差以及一致的分布等特性。

        以下是应用转换使数据更正态分布的一些原因:

5.1. 统计假设

        统计检验(如 t 检验、方差分析和许多回归模型)假定基础数据或残差(误差)呈正态分布。当数据不符合此假设时,结果可能会有偏见或具有误导性。转换有助于确保数据符合这些假设。

5.2. 提高算法性能

        机器学习算法,特别是线性回归和逻辑回归,在数据或残差呈正态分布时可能表现更好。这是因为这些算法所依据的假设与正态性密切相关。通过转换使数据分布更均匀,可以提高算法的预测准确性并减少偏差。

5.3. 稳定方差

        当数据具有不稳定的方差(异方差)时,可能会导致建模错误,并降低期望一致方差的算法的有效性。转换有助于稳定方差,使其在不同范围的数据中更加恒定。

5.4. 减少偏斜

        有偏差的数据可能导致不准确的结论,并使结果的解释复杂化。期望对称数据的算法在偏斜输入时可能表现不佳。对数转换等转换可以减少偏度,使数据更接近正态分布。

5.5 实现常态的常见转换

        以下是一些用于使数据更正态分布的常见转换:

  • 日志转换:通过采用自然对数来转换数据,从而减少正偏度。对于具有指数增长或长右尾的数据很有用。

我在泰坦尼克号数据集上详细应用了日志转换。你可以从这里学习代码和概念!

  • 平方根变换:通过取平方根来转换数据以减少偏度,通常用于计数数据或方差随均值增加的数据。
  • Box-Cox 变换:一种灵活的电源转换,可以将一系列非正态数据转换为更正态分布。它需要非负数据,并确定最佳功率变换参数 (λ) 以实现正态性。它可以在数学上表示为:

学习代码,你可以从这里学习代码和概念!

  • 相互转化:涉及采用倒数 (1/x) 来转换数据,从而减少正偏度。

         希望这篇博客能加深你对统计学中不同概率分布的理解。如果您发现此内容的价值,请考虑关注我以获取更有见地的帖子。谢谢!感谢您花时间阅读本文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1827767.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

atmega8 上传程序

使用icsp 烧写时先关闭串口程序,与串口uart连接相关的电路勿于电脑连接 接触不良 1.使用icsp 上传 1)可以直接上传程序 如官方示例blink 或是 serial示例 2)可以先烧录bootload 方便下次使用串口上传程序代码 A)使用专门的icsp 上传器上传…

慧天卓特:2024年春夏之季山东旱情干旱监测分析

2024年开春以来,山东省平均降水量较常年同期偏少92.8%,同时受高温天气影响,山东出现了阶段性气象旱情。截至6月10日,山东省农作物受旱面积121.5万亩,农田缺墒面积262.4万亩。为全力抗旱保夏种,山东自5月29日…

datax的安装及使用入门

1 下载解压Datax tar包 下载到自己指定的安装目录 #wget http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 进行解压 tar -zxvf datax.tar.gz 2 Datax验证 #修改datax/bin目录下datax.py的权限 chmod 777 datax/bin/datax.py 2.1运行官方给定的任务…

代理设计模式,框架AOP思想

文章目录 引言🤪代理对象(Proxy)如何开发一个代理对象开发中的业务层代码冗余问题开发静态代理类动态代理 引言🤪 代理 (proxy) ,举个生活中常见的现象,在之前网路还未走进大众的时代里,如果我们想买一些东西&#xf…

从零开始:打造你的MySQL数据库环境

mysql下载与安装全教程 mysql简介下载安装MSI下载安装ZIP下载解压缩my.ini文件环境变量启动mysql 主页传送门 : 📀 传送 mysql简介 MySQL是一个关系型数据库管理系统,它是最流行的关系型数据库管理系统之一。   MySQL是一种连接型数据库&a…

NVIDIA Triton系列02-功能与架构简介

NVIDIA Triton系列02-功能与架构简介 B站:肆十二-的个人空间-肆十二-个人主页-哔哩哔哩视频 (bilibili.com) 博客:肆十二-CSDN博客 问答:(10 封私信 / 72 条消息) 肆十二 - 知乎 (zhihu.com) 前面文章介绍微软 Teams 会议系统、微信软件与腾讯…

零基础入门学用Arduino 第三部分(三)

重要的内容写在前面: 该系列是以up主太极创客的零基础入门学用Arduino教程为基础制作的学习笔记。个人把这个教程学完之后,整体感觉是很好的,如果有条件的可以先学习一些相关课程,学起来会更加轻松,相关课程有数字电路…

企业化运维(2)_nginx

###1.nginx源码安装部署### ###2.平滑升级### (1)版本升级 当服务器在运行时,需要升级的情况下,平滑升级即就是不断开服务器就可以进行升级,最大限度保证数据的完整性。 下载nginx新版本软件,正常执行./c…

【Pandas驯化-03】Pandas中常用统计函数mean、count、std、info使用

【Pandas驯化-03】Pandas中常用统计函数mean、count、std、info使用 本次修炼方法请往下查看 🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地! 🎇 相关内容文档获取 微…

机器学习周报第46周

目录 摘要Abstract一、文献阅读1.1 摘要1.2 研究背景1.3 论文方法1.4 模块分析1.5 网络规格1.6 高效的端到端对象检测1.7 mobile former模块代码 目录 摘要Abstract一、文献阅读1.1 摘要1.2 研究背景1.3 论文方法1.4 模块分析1.5 网络规格1.6 高效的端到端对象检测1.7 mobile f…

可以用来制作硬模空心耳机壳的胶粘剂有哪些种类?

可以用来制作硬模空心耳机壳的胶粘剂有哪些种类? 制作耳机壳的胶粘剂有很多种类,常见的有环氧树脂胶水、UV树脂胶、快干胶、热熔胶等。 这些胶粘剂都有不同的特点和适用场景,可以根据自己的需求选择合适的类型。 例如: 环氧树脂…

九、BGP路由属性和选路

目录 一、属性分类 1.1、公认属性 1.2、可选属性 二、选路原则 0、丢弃不可达 取值越大越优 1、Preferred-Value 2、Local_Preference 取值越小越优 3、路由优先级 4、AS_Path 5、Origin 6、MED 7、路由来源 8、Next_Hop的IGP度量值 BGP路由等价负载分担&#…

springboot景区寄存管理系统(源码+sql+论文报告)

针对传统人工行李寄存效率低和安全性不足等问题,设计并实现了一种由网页控制器组成的智能行李寄存系统。首先能够实现行李的寄存管理和行李柜管理以及记录查询和通知公告以及管理员等灵活控制菜单显示权限。经过研究和测试结果显示,该行李寄存系统实现了…

【什么!Grok记录被打破了】坏消息不是Meta的 llama3 400,好消息是Nvidia发布的Nemotron-4 340B且支持开源

Nvidia 发布了开创性的开放模型系列 “Nemotron-4 340B”,再次巩固了其作为人工智能创新领域无可争议的领导者的地位。这一发展标志着人工智能行业的一个重要里程碑,因为它使各行各业的企业能够创建功能强大的特定领域 LLM,而无需大量昂贵的真…

QT系列教程(11) TextEdit实现Qt 文本高亮

文本高亮 对于textedit里录入的部分单词我们可以实现高亮,实现高亮主要依赖于QSyntaxHighlighter。 我们先创建一个Qt Application类,类名MainWindow, 然后新增一个C类,类名为MySyntaxHighlighter。 #ifndef MYSYNTAXHIGHLIGHTER_H #define …

深入分析 Android BroadcastReceiver (三)

文章目录 深入分析 Android BroadcastReceiver (三)1. 广播消息的优缺点及使用场景1.1 优点1.2 缺点 2. 广播的使用场景及代码示例2.1. 系统广播示例:监听网络状态变化 2.2. 自定义广播示例:发送自定义广播 2.3. 有序广播示例:有序广播 2.4. …

yml配置文件快速上手

yml配置文件快速上手 springboot中,有三种文件可以作为配置文件 xml文件(不推荐,臃肿)application.propertis文件(层次不够分明)yml文件(推荐,层次分明,语法简洁) yml文件的基本语…

记录:利用 Agora 在 Unity3D MRTK场景中创建实时视频聊天应用

目录 准备1. 安装Agora_Unity_RTC_SDK2. 创建UI3. script具体内容4. 使用测试 本质是两部带摄像机的设备同时进入Agora聊天室内视频。 去年实现过一次这个功能,用的是Agora_Unity_RTC_SDK 4.2.2版本的,今年使用失败,遂重新安装最新版本Agora…

Github 2024-06-15Rust开源项目日报Top10

根据Github Trendings的统计,今日(2024-06-15统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Rust项目10TypeScript项目1JavaScript项目1Deno: 现代JavaScript和TypeScript运行时 创建周期:2118 天开发语言:Rust, JavaScript协议类型:M…

浪潮信息打造业界首款50℃进液温度服务器 PUE逼近理论极限1.0!

在科技飞速发展的今天,浪潮信息以其前瞻性的技术创新思维,再次突破行业极限,推出业界首个支持50℃进液温度的浸没式液冷服务器NF5180G7。这一创新成果不仅展现了浪潮信息在液冷技术领域的深厚实力,更标志着服务器冷却技术的一次重…