数据科学初学者都应该知道的 15 个基本统计概念

news2024/10/10 11:52:25

一、介绍

数据科学的核心是统计学,它已经存在了几个世纪,但在当今的数字时代仍然至关重要。为什么?因为基本的统计概念是数据分析的支柱,使我们能够理解每天生成的大量数据。这就像与数据对话,统计学可以帮助我们提出正确的问题并理解数据试图讲述的故事。

        从预测未来趋势、根据数据做出决策,到检验假设和衡量绩效,统计学是数据驱动决策背后的洞察力的工具。它是原始数据和可付诸行动的洞察力之间的桥梁,是数据科学不可或缺的一部分。

        在本文中,我整理了每个数据科学初学者都应该知道的 15 个基本统计概念!

二、基本统计概念

1. 统计抽样和数据收集

        我们将学习一些基本的统计学概念,但在深入数据海洋之前,了解数据来自哪里以及我们如何收集数据是至关重要的。这就是总体、样本和各种抽样技术发挥作用的地方。 

        假设我们想知道一个城市居民的平均身高。测量每个人的身高是可行的,所以我们会选取一个较小的群体(样本)来代表更大的人口。诀窍在于我们如何选择这个样本。随机、分层或集群抽样等技术可确保我们的样本具有良好的代表性,最大限度地减少偏差并使我们的研究结果更可靠。 

        通过了解人群和样本,我们可以自信地将我们的见解从样本扩展到整个人群,从而无需调查每个人即可做出明智的决策。

2.数据类型和测量尺度

        数据有多种类型,了解所处理的数据类型对于选择正确的统计工具和技术至关重要。

        定量和定性数据

  • 定量数据:这种类型的数据都是数字。它是可测量的,可用于数学计算。定量数据告诉我们“多少”或“多少”,例如访问网站的用户数量或城市的温度。它直截了当且客观,通过数值提供清晰的画面。
  • 定性数据:相反,定性数据处理的是特征和描述。它与“什么类型”或“哪个类别”有关。可以将其视为描述品质或属性的数据,例如汽车的颜色或书籍的类型。这些数据是主观的,基于观察而不是测量。

        四种测量尺度

  1. 名义尺度:这是最简单的测量形式,用于对数据进行无特定顺序的分类。例如,菜系、血型或国籍。它是一种没有任何量化价值的标签。
  2. 序数尺度:数据可以在此排序或排名,但值之间的间隔未定义。想象一下满意度调查,其中包含满意、中立和不满意等选项。它告诉我们顺序,但没有告诉我们排名之间的距离。
  3. 间隔标度:间隔标度对数据进行排序,并量化条目之间的差异。但是,没有实际的零点。一个很好的例子是摄氏温度;10°C 和 20°C 之间的差异与 20°C 和 30°C 之间的差异相同,但 0°C 并不意味着没有温度。
  4. 比率标度:最有信息量的标度具有间隔标度的所有属性以及有意义的零点,可以准确比较量级。例如体重、身高和收入。在这里,我们可以说某物是另一物的两倍。

3.描述统计

        想象一下,描述性统计是您与数据的第一次约会。它是关于了解基础知识,即描述您面前事物的大致轮廓。描述性统计有两种主要类型:集中趋势和变异性测量。

        集中趋势测量:这些就像数据的重心。它们为我们提供了一个典型或代表数据集的单一值。

        平均值:平均值是通过将所有值相加并除以值的数量来计算的。这就像根据所有评论对餐厅的总体评分。平均值的数学公式如下:

        中位数:数据从小到大排序时中间的值。如果观测值的数量是偶数,则为两个中间数字的平均值。它用于查找桥梁的中间点。

如果 n 为偶数,则中位数是两个中心数的平均数。

        众数:它是 数据集中最常出现的值。可以把它想象成餐馆里最受欢迎的菜肴。

        变异性测量:集中趋势测量将我们带到中心,而变异性测量则告诉我们有关扩散或分散的信息。

        范围:最高值与最低值之间的差值。它给出了传播的基本概念。

        方差:测量集合中每个数字与平均值的差距,从而测量集合中每个其他数字的差距。对于样本,方差计算如下:

        标准差: 方差的平方根衡量了与平均值之间的平均距离。这就像评估面包师制作的蛋糕大小的一致性。它表示为:

在我们进入下一个基本统计概念之前,这里为您提供一份统计分析初学者指南!

4.数据可视化

数据可视化是用数据讲故事的艺术和科学。它将我们分析的复杂结果转化为有形且可理解的东西。这对于探索性数据分析至关重要,因为探索性数据分析的目标是从数据中发现模式、相关性和见解,而无需得出正式结论。

  • 图表和图形:从基础开始,条形图、折线图和饼图提供了对数据的基本见解。它们是数据可视化的 ABC,对于任何数据讲述者来说都是必不可少的。

下面我们有一个条形图(左)和折线图(右)的示例。

  • 高级可视化:随着我们深入研究,热图、散点图和直方图可以进行更细致的分析。这些工具有助于识别趋势、分布和异常值。

以下是散点图和直方图的示例

        可视化连接了原始数据和人类认知,使我们能够快速解释和理解复杂的数据集。

5.概率基础

概率是统计语言的语法。它与事件发生的机会或可能性有关。理解概率概念对于解释统计结果和做出预测至关重要。

  • 独立事件和依赖事件:
    • 独立事件:一个事件的结果不会影响另一个事件的结果。就像抛硬币一样,一次抛出正面不会改变下一次抛出的概率。
    • 相关事件:一个事件的结果会影响另一个事件的结果。例如,如果你从牌堆中抽出一张牌,但没有将其替换,你抽到另一张特定牌的几率就会发生变化。

        概率为数据推断提供了基础,对于理解统计意义和假设检验至关重要。

6. 常见概率分布

概率分布就像统计生态系统中的不同物种,每种物种都适应其应用领域。

  • 正态分布:由于其形状,通常被称为钟形曲线,这种分布的特征是其平均值和标准差。这是许多统计测试中的常见假设,因为现实世界中许多变量自然地以这种方式分布。

        一组称为经验规则或 68-95-99.7 规则的规则总结了正态分布的特征,描述了数据如何围绕平均值分布。 

68-95-99.7 规则(经验规则)

        该规则适用于完全正态分布,并概述如下:

  • 68%的数据落在平均值 (μ) 的一个标准差 (σ) 范围内。 
  • 95%的数据在平均值的两个标准差范围内。 
  • 99.7%的数据在平均值的三个标准差范围内。

        二项分布:此分布适用于多次重复两种结果(如成功或失败)的情况。它有助于模拟诸如抛硬币或进行真/假测试之类的事件。

        泊松分布计算特定间隔或空间内某事发生的次数。它非常适合事件独立且持续发生的情况,例如您每天收到的电子邮件。

        每种分布都有自己的一套公式和特征,选择正确的分布取决于数据的性质以及您要查找的内容。了解这些分布可让统计学家和数据科学家对现实世界的现象进行建模并准确预测未来事件。

7. 假设检验

        假设检验可以视为统计学中的侦探工作。它是一种测试有关我们数据的特定理论是否正确的方法。这个过程从两个相反的假设开始:

  • 零假设(H0):这是默认假设,表明存在影响或差异。意思是“这里没有什么新东西。”
  • Al“备选假设(H1 或 H)”:这挑战了现状,提出了一种影响或差异。它声称“正在发生一些有趣的事情。”

        示例:测试新的饮食计划与不遵循任何饮食相比是否会导致体重减轻。

  • 零假设 (H0):新的饮食计划不会导致体重减轻(遵循新饮食计划的人和不遵循新饮食计划的人的体重减轻程度没有差异)。
  • 备择假设(H1):新的饮食计划会导致体重减轻(遵循该计划的人和不遵循该计划的人的体重减轻程度存在差异)。

        假设检验涉及根据证据(我们的数据)在这两者之间进行选择。

I 类和 II 类错误及重要性水平:

  • 第一类错误:当我们错误地拒绝原假设时,就会发生这种情况。它会让无辜的人被定罪。
  • 第二类错误:当我们无法拒绝错误的零假设时,就会发生这种情况。它会让有罪的人逍遥法外。
  • 显著性水平 (α):这是 决定多少证据足以拒绝零假设的阈值。它通常设置为 5% (0.05),表示发生 I 类错误的风险为 5%。

8. 置信区间

置信区间为我们提供了一个值的范围,我们预计有效总体参数(如平均值或比例)会以一定的置信水平(通常为 95%)落在这个范围内。这就像预测一个运动队的最终得分,并留有误差范围;我们会说,“我们有 95% 的把握,真实得分会在这个范围内。”

        构建和解释置信区间有助于我们了解估计的精确度。区间越宽,我们的估计就越不精确,反之亦然。

        上图说明了统计学中的置信区间 (CI) 的概念,使用样本分布及其围绕样本均值的 95% 置信区间。

        以下是图中关键组件的细分:

  • 样本分布(灰色直方图):这表示从平均值为 50、标准差为 10 的正态分布中随机生成的 100 个数据点的分布。直方图直观地描述了数据点如何分布在平均值周围。
  • 样本均值(红色虚线):此线表示样本数据的均值。它作为我们构建置信区间的点估计值。在本例中,它代表所有样本值的平均值。
  • 95% 置信区间(蓝色虚线):这两条线标记了样本平均值周围 95% 置信区间的下限和上限。区间是使用平均值的标准误差 (SEM) 和与所需置信水平相对应的 Z 分数(95% 置信度为 1.96)计算的。置信区间表明我们有 95% 的信心认为总体平均值位于此范围内。

9.相关性和因果关系

相关性和因果关系经常被混淆,但它们是不同的:

  • 相关性:表示两个变量之间的关系或关联。当一个变量发生变化时,另一个变量也趋于变化。相关性通过相关系数来衡量,相关系数的范围从 -1 到 1。值越接近 1 或 -1,表示相关性越强,而 0 则表示没有关系。
  • 因果关系:它意味着一个变量的变化直接导致另一个变量的变化。它比相关性更有说服力,需要严格的测试。

        两个变量相关并不意味着其中一个变量会导致另一个变量。这是不要混淆“相关性”和“因果关系”的典型例子。

10.简单线性回归

        简单线性回归是一种通过将线性方程拟合到观测数据来模拟两个变量之间关系的方法。一个变量被视为解释变量(独立变量),另一个变量被视为因变量。

        简单线性回归有助于我们了解自变量的变化如何影响因变量。它是一种强大的预测工具,也是许多其他复杂统计模型的基础。通过分析两个变量之间的关系,我们可以对它们将如何相互作用做出明智的预测。

        简单线性回归假设独立变量(解释变量)和因变量之间存在线性关系。如果这两个变量之间的关系不是线性的,那么简单线性回归的假设可能会被违反,从而可能导致不准确的预测或解释。因此,在应用简单线性回归之前,验证数据中的线性关系至关重要。

11.多元线性回归

        可以将多元线性回归视为简单线性回归的扩展。不过,您不是试图用一个身穿闪亮盔甲的骑士(预测器)来预测结果,而是用整个团队来预测结果。这就像从一对一的篮球比赛升级为整个团队的努力,其中每个球员(预测器)都带来独特的技能。这个想法是看看几个变量如何共同影响一个结果。

        然而,随着团队规模的扩大,管理关系的挑战也随之而来,即所谓的多重共线性。当预测因子彼此太接近并共享相似信息时,就会发生这种情况。想象一下,两个篮球运动员不断尝试进行相同的投篮;他们可能会互相妨碍。回归可能会使我们很难看到每个预测因子的独特贡献,这可能会扭曲我们对哪些变量很重要的理解。

12.逻辑回归

        线性回归可以预测连续结果(如温度或价格),而逻辑回归则用于结果确定的情况(如是/否、赢/输)。想象一下,尝试根据各种因素预测一支球队是赢还是输;逻辑回归是您的首选策略。

        它转换线性方程,使其输出介于 0 和 1 之间,表示属于特定类别的概率。它就像拥有一个神奇的镜头,可以将连续的分数转换成清晰的“这个或那个”视图,让我们能够预测分类结果。

        图形表示法展示了将逻辑回归应用于合成二元分类数据集的一个例子。蓝点表示数据点,它们在 x 轴上的位置表示特征值,在 y 轴上的位置表示类别(0 或 1)。红色曲线表示逻辑回归模型对不同特征值属于第 1 类(例如“获胜”)的概率的预测。如您所见,曲线从第 0 类的概率平滑过渡到第 1 类,展示了该模型根据底层连续特征预测分类结果的能力。

        逻辑回归的公式如下:

        该公式使用逻辑函数将线性方程的输出转换为 0 到 1 之间的概率。通过这种转换,我们可以将输出解释为基于独立变量 xx 的值属于特定类别的概率。

13.方差分析和卡方检验

方差分析 (ANOVA)和卡方检验就像统计学世界中的侦探,帮助我们解决不同的谜团。它允许我们比较多个组的平均值,以查看至少有一个组在统计上存在差异。可以将其想象为品尝几批饼干的样品,以确定任何一批饼干的味道是否有显著差异。

另一方面,卡方检验用于分类数据。它帮助我们了解两个分类变量之间是否存在显著关联。例如,一个人最喜欢的音乐类型和他们的年龄段之间是否存在关系?卡方检验有助于回答这些问题。

14.中心极限定理及其在数据科学中的重要性

        中心极限定理 (CLT)是一个基本的统计学原理,让人感觉很神奇。它告诉我们,如果你从总体中抽取足够的样本并计算其均值,这些均值将形成正态分布(钟形曲线),而不管总体的原始分布如何。这非常强大,因为它让我们即使不知道总体的确切分布,也能对总体做出推断。

        在数据科学中,CLT 支撑着许多技术,使我们能够使用为正态分布数据设计的工具,即使我们的数据最初不符合这些标准。这就像找到了统计方法的通用适配器,使许多强大的工具适用于更多情况。

15.偏差-方差权衡

在预测建模和机器学习中,偏差-方差权衡是一个关键概念,它强调了可能导致模型出错的两种主要错误类型之间的矛盾。偏差是指过于简单的模型产生的错误,这些模型不能很好地捕捉潜在趋势。想象一下,试图在弯曲的道路上画一条直线;你会错失良机。相反,过于复杂的模型产生的方差会捕捉数据中的噪声,就好像它是一个实际的模式一样——就像追踪颠簸小路上的每一个转弯,以为这就是前进的道路。

        艺术在于平衡这两者以最小化总误差,找到模型的最佳点——足够复杂以捕捉准确的模式,但足够简单以忽略随机噪声。这就像调吉他;如果太紧或太松,它听起来就不对了。偏差-方差权衡就是在这两者之间找到完美的平衡。偏差-方差权衡是调整我们的统计模型以使其在准确预测结果方面发挥最佳作用的本质。

三、结论

        从统计抽样到偏差方差权衡,这些原则不仅仅是学术概念,更是进行有洞察力的数据分析的必备工具。它们为有抱负的数据科学家提供了将大量数据转化为可付诸行动的见解的技能,强调了统计数据是数字时代数据驱动决策和创新的支柱。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2201915.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【读书笔记·VLSI电路设计方法解密】问题7:什么是基于标准单元的专用集成电路 (ASIC) 设计方法论

标准单元方法论是一种基于预组装库单元的芯片设计方法。该库中包含的标准单元和宏单元(例如存储器、I/O、特殊功能单元、锁相环(PLLs)等)已经在预定的工艺节点中设计、布局并经过验证。这些单元经过完全表征,并在逻辑、时序、物理和电气模型方面进行了定义,并正确地打包在…

npm install报错一堆sass gyp ERR!

执行npm install ,出现一堆gyp含有sass错误的情况下。 解决办法: 首页可能是node版本问题,太高或者太低,也会导致npm install安装错误(不会自动生成node_modules文件),本次试验,刚开…

刷题 - 分治

面试经典 150 题 - 分治 148. 排序链表⭐️⭐️⭐️ - 快慢指针找中间节点 - 归并排序 伪代码: 将链表拆分成两半,返回右半边头节点(左半边头节点就是原始链表头节点)对左边进行排序并返回左边头节点对右边进行排序返回右边头节…

图片压缩怎么弄?压缩图片大小的多种方法介绍

图片压缩怎么弄?图片压缩技术正是为了解决这些问题而生。通过有效减少文件大小,我们可以在保持视觉质量的前提下,更加高效地管理和分享图片。这项技术不仅能帮助个人用户优化手机或电脑的存储,还对企业在处理大量图像资产时显得尤…

小米路由器R3Gv2安装openwrt记录

前言 小米路由器R3Gv2的硬件配置与小米路由器4A千兆版一致,但bootloader有所不同,因此openwrt的固件不要互刷。另外,R3Gv2和R3G、4A百兆版是不同的设备,切勿混淆。 硬件信息 OpenWrt参数页-Xiaomi MiWiFi 3G v2 CPU&#xff1a…

Springboot网上书城小程序—计算机毕业设计源码38707

目 录 摘要 1 绪论 1.1 研究背景及意义 1.2国内外研究现状 1.3系统开发的内容 1.4论文结构与章节安排 1.5小程序框架以及目录结构介绍 2 网上书城小程序系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 操作可行性分析 2.2 系统功能分析…

Unity实现自定义图集(三)

以下内容是根据Unity 2020.1.0f1版本进行编写的   1、实现编辑器模式下进游戏前Pack全部自定义图集 同Unity的图集一样,Unity的编辑器模式会在进游戏前把全部的SpriteAtlas都打一次图集,如图: 我们也实现这样的效果。 首先需要获取全部的图集路径。因为目前使用的是以.…

chaos官方给的V-Ray材质优化器怎么样?

V-Ray材质优化器是一个为3ds Max设计的MAX脚本,它通过以下方式优化场景,提高渲染速度! V-Ray材质优化器安装包可找【成都渲染101云渲染,云渲码6666】提供! ​ 通过创建一个新的UV通道并使用平面映射算法展开场景对象。…

【学术会议征稿】第五届应用力学与机械工程国际学术会议(ICAMME 2024)

第五届应用力学与机械工程国际学术会议(ICAMME 2024) 2024 5th International Conference on Applied Mechanics and Mechanical Engineering 在全球技术快速发展的背景下,应用力学和机械工程作为推动现代工业创新的根基,持续展…

【新品发布】数字能源EMS管理再掀新篇章

致远电子EM系列工商业储能网关累计装机容量突破2GWh!聚焦数字综合能源应用,全新一代EM-800/EM-1000G发布,见证光储充时代的来临! 早在2008年,致远电子的工程师在为国内某新能源企业设计光伏通讯管理机方案时&#xff0…

使用宝塔快速搭建配置Openai api接口代理+502 Bad Gateway网关错误问题解决

本教程提供了一种简便快捷的方法,无需复杂步骤,极易操作,实现零代码、零部署的快速接入。 实现准备 1.服务器,这里使用阿里香港轻量服务器) 2. OpenAI官方的模型api key 3. 使用第三方系统或插件进行测试 关于第三方…

windows 安装 ElasticSearch

1、下载安装包 下载地址: ElasticSearch 目录结构如下: 2、配置JDK环境 3、配置ElasticSearch 的config 4、启动 ElasticSearch 服务 4.1、解决启动日志乱码问题 4.2、进入bin 目录,点击elasticsearch.bat 文件启动 ES 服务

大数据-162 Apache Kylin 全量增量Cube的构建 Segment 超详细记录 多图

点一下关注吧!!!非常感谢!!持续更新!!! 目前已经更新到了: Hadoop(已更完)HDFS(已更完)MapReduce(已更完&am…

【无人水面艇路径跟随控制10】(Matlab)USV代码阅读:testUSV仿真无人水面艇在一定时间内的运动,使用欧拉法对状态进行积分,并绘制仿真结果

【无人水面艇路径跟随控制10】(Matlab)USV代码阅读:仿真无人水面艇在一定时间内的运动,使用欧拉法对状态进行积分,并绘制仿真结果 写在最前面testUSV.m总结代码详解1. **初始化部分**2. **仿真循环**3. **仿真数据提取…

【力扣刷题实战】(顺序表)移除元素

大家好,我是小卡皮巴拉 文章目录 目录 力扣题目: 移除元素 题目描述 示例 1: 示例 2: 解题思路 具体思路 题目要点 完整代码 兄弟们共勉 !!! 每篇前言 博客主页:小卡…

AI测试入门:认识Graph RAG

AI测试入门:认识Graph RAG 前言1. 什么是Graph RAG?2. Graph RAG的工作原理3. Graph RAG的应用场景4. Graph RAG的技术实现5. Graph RAG的优势6. Graph RAG的实际应用案例总结 前言 传统的检索增强生成(RAG)方法逐渐暴露出一些局限…

高被引算法GOA优化VMD,结合Transformer-SVM的轴承诊断,保姆级教程!

本期采用2023年瞪羚优化算法优化VMD,并结合Transformer-SVM实现轴承诊断,算是一个小创新方法了。需要水论文的童鞋尽快! 瞪羚优化算法之前推荐过,该成果于2023年发表在计算机领域三区SCI期刊“Neural Computing and Applications”…

DockerCompose 启动 open-match

背景介绍 open-match是Google和unity联合开源的支持实时多人匹配的框架,已有多家游戏厂商在生产环境使用,官网 https://open-match.dev/site/ 。原本我们使用的是UOS上提供的匹配能力,但是UOS目前不支持自建的Dedicated servers 集群&#x…

【万字长文】Word2Vec计算详解(一)CBOW模型

【万字长文】Word2Vec计算详解(一)CBOW模型 写在前面 本文用于记录本人学习NLP过程中,学习Word2Vec部分时的详细过程,本文与本人写的其他文章一样,旨在给出Word2Vec模型中的详细计算过程,包括每个模块的计…