【统计分析120】统计分析120题分享

news2025/4/21 13:21:21

1-30 判断题

image-20250417195903050

数学模型

指的是通过抽象、简化现实世界的某些现象,利用数学语言来描述他们的结构和行为,做出一些必要的假设,运用适当的数学工具,得到一个数学结论

数学模型:指的是通过抽象、简化现实世界的某些现象,利用数学语言来描述它们的结构和行为。比如,气象学家用数学模型来预测天气,经济学家用数学模型来预测市场走势等。

规律:数学模型通常依赖于一些已知的规律,比如物理定律、统计规律等。

假设:由于实际问题非常复杂,数学模型通常会做一些简化假设。例如,假设空气是理想气体,忽略空气阻力等。

数学工具:为了推导数学结论,数学模型会运用到代数、微积分、概率论等各种数学方法。


image-20250417200138684

Logistic模型通常用于描述人口增长,特别是在资源有限的情况下,人口增长会先快速增长,然后逐渐放缓,最终稳定

1. Logistic模型的基本概念

Logistic模型最常用来描述一个有限资源下的群体增长过程,特别是在人口增长方面。它与指数增长模型不同,后者假设没有资源限制,导致增长速度持续加快。而Logistic模型则考虑了资源的限制,描述了在某一时间点增长会趋缓,最终稳定在某一水平。

2. Logistic模型的公式

Logistic模型的数学公式通常写作:

image-20250417200652632

3. 实际应用

  • 人口学:描述在有限资源条件下,人口如何增长并最终达到平衡。
  • 生态学:用来描述物种的数量如何在特定环境中变化,考虑到食物、栖息地等资源的限制。
  • 流行病学:用于模拟疾病传播的过程,疾病传播初期可能非常迅速,但随着大部分易感人群感染后,传播速度会减慢,最终趋于稳定。

image-20250417200849930

安全线

安全线表示在某个条件下,系统能够确保满足最低要求或标准的最小数量或最小资源。

残差率

残差率是指某个模型预测值和实际值之间的差异。在统计学中,“残差”是预测值和实际观察值之间的差距,而残差率通常表示的是这种差距占实际值的比例。

残差率是描述预测的最小导弹数与实际需求之间差距的百分比,通常随着目标数的增加而增大

image-20250417201545526

安全线

这里的安全线指的时某方在和另一方对抗时,能够维持稳定的状态所需的最小资源或防御措施。

乙方可能会觉得自己的安全受到威胁,从而调整自己的安全策略和措施,导致乙方的安全线发生变化,但甲方不会变


image-20250417201936253

扬帆远航模型

操控帆船时,要确定船前进的方向(航向)和帆布打开的角度(帆的朝向),以便船最快、最稳向目的地行驶

二元函数

你想找到在地图上某一点的最高点或最低点,地图的高度就是二维函数,横轴和纵轴代表不同的参数(比如方向和角度)。类似地,这里航向和帆的方向就是两个变量,合起来是二维函数。

“初等数学方法”通常指的是简单的一元函数求导、极值判断等基本工具,但现在变量变成了两个(二维),似乎变得复杂了。但用偏导数也可以求解,找出极值点。


image-20250417202536437

  • 你往东开10公里/小时,向北开0公里/小时,那么东向分量是10,很大。

  • 你往东北开10公里/小时,那么东向分量约为7.07(10×cos45°),小于10

扬帆远航模型里,找到最佳航向和帆的朝向,就是找到让航速向“正东方”分量最大化的参数,


image-20250417202709791

森林火灾中,被烧掉的面积随时间增长,烧掉的速度(面积变化率)和时间成正比。


image-20250417202914440

  • 线性规划:目标函数和所有约束条件都必须是线性的。

  • 非线性规划:目标函数或约束条件中有非线性出现。

线性规划例子:
「最大化 3x + 4y」
约束:
x + 2y ≤ 10
x, y ≥ 0
这里目标函数和约束都是线性的。

非线性规划例子:

「最大化 x² + y」

「最大化 3x + 4y」
约束:
x² + y ≤ 10
这里目标函数也是非线性的,或者约束非线性,都是非线性规划。


image-20250417203049615

1. 什么是量纲齐次原理?
量纲齐次原理是物理学中一个非常基础的原则,它说一个物理公式的两边必须“量纲一致”(比如时间公式的两边不能一边是秒,一边是米)。
同时,通过量纲分析,可以推断某些物理量之间的依赖关系,帮助我们推导公式的形式,但通常只能得到“形式”,不能得到里面精准的无量纲常数。

image-20250417203326936

3. 量纲齐次原理做什么?
量纲分析只能告诉你,周期一定是“长度的平方根除以重力加速度的平方根”的形式,比如:
image-20250417203343614
无法确定前面的“2π”这个具体数值,更别说更复杂双摆的周期表达式了


image-20250417203413000

我们可以用一个简单的代数等式表示体重变化:

体重变化=摄入热量−消耗热量


image-20250417203708220

军备竞赛模型

军备竞赛模型研究的是两个国家或双方在军备上的投入和反应。模型里通常有两个制约因素

  • 经济制约因素:指双方的经济资源或限制力度
  • 军备刺激程度:指双方因对方军备增长而采取的反应力度或者刺激度

稳定性一般取决于两者的相对大小及具体系统的动态特征,不仅仅靠“相等”来保证。

  • 如果军备刺激大于经济制约,竞赛会持续升温,双方不断增加军备

  • 如果经济制约远大于刺激,则军备增长受限。


image-20250417204744973

想象一下,有一个渔场,里面有很多鱼。渔民不知道鱼的具体数量,也不精确控制捕捞,只是盲目地捕捞。盲目捕捞模型就是用数学来描述这种情况下鱼群数量如何随时间变化的模型。

这个模型分析的是:鱼群数量怎么受到捕捞行为、自然增长、环境和成本等因素的影响。

鱼群的稳定数量(长期能维持的鱼量)主要影响因素有:

  • 鱼的自然繁殖率(鱼自己生得快不快)
  • 自然死亡率和环境因素
  • 捕捞的强度和技术(不只是成本,还有捕获效率)
  • 捕捞成本(成本高,会减少捕捞,可能保护鱼群)

image-20250417205236973

捕捞率E = 渔民捕鱼的速度/强度

**最大增长率r = 渔场鱼群的最大自然增长速度,也可称为繁殖速度 **

如果你捕得很快(E很大),超过了鱼群的增长速度r,鱼群就来不及恢复,鱼量会持续减少,最终鱼场可能崩溃、灭亡,也就没有稳定产量。

反过来,如果捕捞率E比自然增长率r小,也就是说你抓的鱼比鱼自己生的少,鱼群就会有机会维持平衡,渔场产量会稳定在某个水平


image-20250417205501277

在多准则决策、层次分析法(AHP)里,我们常用成对比较矩阵来比较各个因素的相对重要性。

举个例子:比如你要买手机,比较“价格”、“性能”、“外观”三方面的重要性。你会一一把两两因素拿出来比较,形成一个矩阵。矩阵里每个元素表示一个因素相对于另一个因素的偏好程度。比如“价格比性能重要2倍”,就填写一个2。

一致矩阵(或一致性)

一个成对比较矩阵如果完全“合理”、“没有矛盾”,我们称它是一致矩阵,比如:

  • 如果A 比 B 重要 2倍(A/B=2)
  • B 比 C 重要 3倍(B/C=3)
  • 那么根据逻辑,A 比 C 就应该是 2×3=6倍(A/C=6)

满足这种连乘关系的矩阵叫“一致矩阵”。

实际上,成对比较矩阵通常不会完全一致,因为人们在判断的时候会有一定的主观偏差、判断不完美。比如:

  • 你说A 比 B 是2倍
  • B 比 C 是3倍
  • 但你主观认定A 比 C 是5倍,而不是6倍

image-20250417205702342

在图论和数据结构中,路径(路)是由一串相连的顶点和它们之间的边组成的。
“路的长度”不是“点的个数”,而是路径上边的个数

假设有一个路径:顶点 A → B → C → D。

  • 点的个数是4(A、B、C、D)
  • 边的个数是3(A-B,B-C,C-D)

这条路的长度是边的个数,也就是3,不是点的数4。


image-20250417205950343

因为:封闭区域没有外部影响,一切都可以靠模型比较准确地预测或者描述,就像我们用显微镜看一个细菌群体一样,细节比较清楚。

封闭区域像个“静止的小世界”,没有缺角没有“风吹雨打”,用模型准确估人口数量就更稳妥、更靠谱啦!🌟


image-20250417210732357

线性回归模型的核心思想是通过一条直线来拟合数据,目的是找出自变量(X)与因变量(Y)之间的关系。在简单线性回归中,它假设两者之间是线性关系,也就是它们可以用一个直线方程 Y=aX+bY

然而,线性回归模型的适用性并不局限于线性关系。在一些情况下,即使数据本身并不是完全线性分布的,线性回归也可以通过适当的变换(如对数变换、平方变换等)来进行处理,使其能够拟合非线性关系的数据。例如,如果数据本来是呈曲线形状的,我们可以通过变换使得它们适应线性模型


image-20250417211151939

在统计分析中,交互效应是指两个或多个变量之间的相互作用对因变量的影响。当我们发现不同的变量之间可能存在交互效应时,可以将这些变量的积作为一个新的变量,来研究它们的交互效应。

举个例子: 假设你正在研究“广告投入”和“销售人数”这两个因素如何影响“销售额”。单独来看,广告投入和销售人数对销售额可能各自有影响。但如果这两个变量之间存在交互效应,比如广告投入对销售人数的影响会根据不同的季节有所变化,那么你就可以考虑将“广告投入”与“销售人数”的积(即广告投入 × 销售人数)作为一个新变量来引入模型,来更好地解释销售额的变化。


image-20250417211413083

模型的独立性假设: 在回归分析中,我们假设误差项(残差)是独立的,也就是说,当前的残差不应该受前一个残差的影响。如果相邻残差之间有相关性,说明可能存在某种系统性的模式未被模型捕捉到,通常这种现象叫做自相关性

自相关性问题: 如果存在自相关性,说明我们的模型可能没有充分解释数据的变动。对于时间序列数据,这种情况尤其常见。比如,如果你在做股票市场分析,过去的股票价格波动可能会影响当前的价格波动。

当我们检查残差是否具有相关性时,通常会首先关注“相邻残差”的相关性


image-20250417211748890

在统计分析中,我们经常需要对未来的某个值进行预测,并计算这个预测的置信区间。置信区间是指我们对于某个预测值的不确定性范围,它告诉我们真实值可能落在这个区间内的概率

为什么“置信区间越短越好”?

  1. 置信区间的长度表示了我们对预测值的不确定性。置信区间越短,意味着我们对预测的结果越有信心,预测的准确度越高。
  2. 相同的置信水平下,缩小置信区间意味着我们对数据的理解和预测更精确。反之,如果置信区间太长,就说明我们的预测不够精确,可能存在更多的不确定性。

image-20250417212354995

物价上升时,购买力下降,这通常会导致投资者对经济前景的信心下降。企业可能因为成本上升而减少投资,消费者也可能因为物价上涨而减少消费。因此,物价和投资之间可能存在负相关关系。

如果回归模型中的系数是负数,那么就表示物价指数与国民投资额之间存在负相关,即物价上升时,投资额倾向于减少。


image-20250417212458386

这个题目讨论的是距离判别法,它通常用于分类问题中。其核心思想是通过计算样本点与各个类别中心的距离,来决定样本点属于哪个类别。通常距离越小,样本点越可能属于距离较近的类别。

  1. 计算样本点与各类别的距离:对于每个新的样本点,我们计算它与所有已知类别的中心点(比如均值或质心)的距离。
  2. 选择最小距离:样本点最终会被分配到与其最近的类别。这是一种最近邻算法的思想。
  3. 分类决策:样本离哪个类别的中心点最近,它就被归类为该类别

image-20250417195028254

有意识误差

指的是调查者故意或无意的在数据收集过程中引入错误,可能是因为有一些偏见、错误的理解,甚至是故意伪造数据

抽样框误差

抽样框误差通常指的是在选择调查样本时,抽样的样本不能代表某个群体。比如调查员可能只选择了特定区域的居民,从而忽略掉其他区域的居民

回答误差

回答误差是指在回答调查问题时,由于被调查者的记忆、理解或者表达不清楚导致的错误,这个错误会影响数据准确性

无回答误差

无回答误差指的是部分被调查者没有回答问题或者没有提供有效数据

没有回应:某些被调查者可能完全没有回答调查问卷中的问题,比如他们选择不参与、忘记回答或者直接跳过某些问题。

无法回答:有些问题可能太复杂,导致被调查者无法理解并给出答案,或者他们根本没有相关信息。比如某个问题涉及到复杂的数字计算,而被调查者并不清楚他们的具体情况。

选择性不回答:被调查者可能选择不回答某些敏感问题,例如个人收入或用电量等,他们可能因为隐私原因或不愿透露真实信息而跳过这些问题。


image-20250417212552613

主成分分析(PCA)是一种常用的降维技术,目的是将高维数据投影到一个新的空间中,从而降低维度,同时尽量保留数据的主要信息,其核心思想是通过特征值和特征向量来确定新的主成分

在主成分分析中,特征值的大小非常重要。特征值反映了每个主成分所能解释的数据方差的大小。具体来说,特征值越大,代表该主成分所包含的信息越多,即该主成分对数据的解释能力越强。因此,在PCA中,我们会按照特征值从大到小的顺序排列特征向量。

方差解释:特征值越大,说明该主成分解释的数据方差越大,换句话说,它对原始数据的描述越完整。

选择主成分:我们通常选择特征值最大的几个主成分来构建新的低维空间,这样可以最大程度保留数据的信息。


image-20250417212813601

在许多机器学习算法中,尤其是在分类算法中(例如K近邻算法,KNN),样本的分类结果通常取决于计算样本与其他样本之间的距离。常见的距离度量方式有欧氏距离、曼哈顿距离、切比雪夫距离等,每种距离度量方式的计算方法不同,可能导致不同的分类结果。


image-20250417212853255

在回归分析中,最小二乘法(Least Squares Method)是最常用的估计方法。它的主要思想是通过最小化预测值与真实值之间的误差平方和,来找到最佳的回归模型。


image-20250417212932616

在进行模型评判时,通常有多个评判指标和因素需要考虑。这些评判指标可能包括误差度量、模型的拟合优度、变量的重要性等。对于每个单独的因素,我们可以首先进行单因子评判,之后再结合各个因素的评判结果,做出综合评判。

单因子评判有助于理解每个因素的贡献:单因子评判帮助我们逐个理解每个变量或因素对模型的影响。通过查看每个单独因素的表现,我们可以发现哪些因素在模型中的影响较大,哪些因素可能对模型性能没有很大贡献。

综合评判能提供全面的理解:在进行了单因子评判之后,综合评判有助于我们对模型进行更全面的评价。综合评判可以结合多个因素的结果,最终给出一个综合的评估,帮助我们做出更加准确的决策


image-20250417213033285

过拟合问题:复杂的模型可能能够很好地拟合训练数据,但它们往往过于关注训练数据中的噪声,导致无法对新的数据进行有效的预测。这就是所谓的过拟合。在这种情况下,虽然模型在训练集上表现得很好,但在测试集上可能表现较差。

简化原则(Occam’s Razor):在建模时,通常我们倾向于选择简单有效的模型。简单的模型不仅容易理解,而且更具泛化能力(即在不同的未知数据上表现更好)。根据简化原则,如果一个简单的模型能充分解释现象,就不必采用更复杂的模型

计算成本:更复杂的模型通常需要更多的计算资源和时间,这在实践中可能不划算。如果一个简单的模型就能满足需求,为什么要选择复杂的模型呢?


image-20250417213154851

SIR模型是流行病学中常用的一种模型,用于描述传染病的传播过程,他将人群分为三类

  1. 易感染者(S,susceptible):这些人没有感染病原体,但有可能通过与已感染者接触而感染。
  2. 已感染者(I,Infected):这些人已经感染了疾病,且能够传播病原体给易感染者。
  3. 移除者(R,Recovered):这些人已经从感染状态中恢复,或由于其他原因(如死亡)不再参与传播。通常,移除者被认为不再能感染他人,也不再容易被感染。

SIR模型(Susceptible-Infected-Recovered Model)是一种流行病学模型,用于描述传染病在人群中的传播过程。它基于一种简化的假设——人群可以分为三类个体:易感染者(S)、已感染者(I)和移除者(R)。这些个体在不同时间段内的状态会发生转变,且转变的速度由一定的参数控制。

SIR模型的动态过程:

在SIR模型中,易感染者、已感染者和移除者的数量随时间变化。模型通过微分方程来描述这些变化过程:

  1. 易感染者(S)到已感染者(I)的转变: 通过接触感染者,易感染者变成已感染者。转变的速度与以下因素有关:

    • 感染率(β):感染者与易感染者接触的速率。即,单位时间内每个已感染者平均能够使多少易感染者感染。
    • 易感染者数量(S):接触的机会与易感染者的数量成正比。
    • 已感染者数量(I):感染的可能性与感染者的数量成正比。

    所以,易感染者转变为已感染者的速率为:

    image-20250417213515119

  2. 已感染者到移除者的转变: 已感染者在一段时间后会痊愈或者死亡,成为移除者。转变的速度由以下因素决定:

    • 恢复率(γ):已感染者恢复的速率,或者死亡的速率。即,每个已感染者平均多少时间后会变为移除者。
    • 已感染者数量(I):恢复的数量与已感染者的数量成正比。

    所以,已感染者转变为移除者的速率为:

    image-20250417213607474

  3. 移除者数量的变化: 移除者数量的变化是因为已经感染并痊愈的已感染者转化为移除者,速率为

    image-20250417213634387

在SIR模型中,总人口数量是一个常数,不随时间变化。即:

S(t)+I(t)+R(t)=N


image-20250417213725997

SIS模型是流行病学中一种简单的传染病模型,SIS代表易感染者(S)和已感染者(I)。在SIS模型中,个体从易感染者(S)转变为已感染者(I),并且从已感染者(I)转变回易感染者(S)。这种模型适用于没有长期免疫的传染病,如普通感冒等。

如果考虑死亡,通常模型会有所扩展,成为带有死亡因素的SIS模型。在这种模型中,死亡可能会影响到已感染者或易感染者的数量,但这种影响并不会改变模型的核心结构。基本上,死亡因素会减少相关群体的数量,但是其他的转化过程(易感染者变为已感染者,已感染者变为易感染者)依然遵循相同的基本规则。

image-20250417213831533


image-20250417213842129

衡量一个模型的优劣并不仅仅取决于它是否使用了复杂的数学方法。虽然数学工具在建模过程中起着重要作用,但真正评判一个模型好坏的标准是它的准确性、适用性、稳定性以及可解释性等因素。


31-120 选择题

image-20250417214027135

威慑值

威慑值通过军备力量来达到防止对方攻击或采取敌对行动的效果


image-20250418220953868

规划模型

通常指线性规划模型或者更广义的数学规划模型。来解决“该做什么,做什么最优的问题”

决策变量

就是模型中可以控制、选择的变量

目标函数

就是我们想要“最大化”或“最小化”的东西,比如最大利润,最小成本。

约束条件

限制我们决策变量的条件,比如资源有限,不能生产超过多少个产品,这就是约束条件。约束个数即约束条件的个数这个“个数”只是数量,不直接影响模型本质。关键是约束条件的内容,而不是你有几个约束。换句话说,约束数量多少,重要的是每个约束到底提供了什么限制和信息。


image-20250418221739672

实数优化

就是变量可以取连续的实数值。比如,做蛋糕,允许生产3.14个,这在模型里是允许的

整数变量/约束

有些时候变量或者约束必须是整数,比如必须做完整的蛋糕(不能做0.5个蛋糕),这种变量或约束叫整数变量/整数约束。它会让计算更复杂。

光滑优化

光滑指的是函数形态“平滑”,没有尖点或不连续,便于求解。光滑的目标函数和约束通常更容易用数学方法求解。反之,如果约束函数有拐角、跳变,会导致数值求解变难,也就是非光滑约束

参数数量级

指模型中用到的参数大小,比如1000、0.0001,这些数量级差距太大,会影响计算的稳定性。

  • A. 尽量使用实数优化,减少整数约束和整数变量
    这是经典建议!因为整数规划是NP难问题,求解难度大,所以要尽量避免。这个选项是合理的,属于基本注意点。
  • B. 尽量使用光滑优化,减少非光滑约束的个数
    这也是常见建议。光滑约束方便求解器计算,非光滑使问题复杂度增大。
  • C. 尽量使用非线性模型,减少线性约束和线性变量的个数
    这看上去很奇怪!一般来说,要尽量使用线性模型,线性模型计算高效且有成熟算法。非线性模型往往更难求解。这个选项的意思反着来了,实际上不对。
    所以这是不符合基本原则的,应该是不包含的。
  • D. 模型中使用的参数数量级要适当
    这个很重要!参数过大或过小会导致数值不稳定。

P类问题:那些可以“快速求解”的问题,时间复杂度是多项式时间,比如O(n2),意味着用普通电脑几分钟至几小时就能解决。

NP类问题:不一定能“快速求解”,但是给一个答案,可以“快速验证”它对不对。


image-20250418222349656

A. 切线法:切线法是一种用来求解函数最值的方法,通常是通过函数的导数来找到最优点,但它一般应用于非线性函数。因此,这不是解线性规划的常见方法。

B. 法线法:法线法是另一种求解方法,但它也常用于几何问题中,与线性规划不太相关。

C. 对偶单纯形法:这个是线性规划中常用的一种方法。对于线性规划问题,除了直接使用单纯形法外,也可以使用对偶单纯形法,它特别适合于一些特殊情况,比如当原问题的初始解不可行时。它帮助我们更好地求解线性规划问题,所以是正确答案。

对偶单纯形法实际上是 单纯形法(Simplex Method)的变种,它用于求解线性规划问题的一种方法。单纯形法的基本思想是通过遍历可行解的顶点来找到最优解。而对偶单纯形法则是在一些特殊情况下使用,尤其是当 初始解不可行 时。

一般情况下,单纯形法要求初始解是可行的,也就是说它要满足所有约束条件。然而,在某些情况下,我们的初始解可能并不满足约束条件,这时候就可以使用对偶单纯形法。

D. 分支定界法:分支定界法常用于整数规划等问题,也不是解线性规划问题的标准方法。

与普通的线性规划(即决策变量可以是连续的)相比,整数规划问题更难求解,因为整数变量的存在使得问题变得“离散”而不是“连续”。这使得问题的解空间非常庞大,通常没有有效的多项式时间算法来解决。

解决方法

  • 分支定界法(Branch and Bound):通过构建一个树形结构,逐步排除不可行的解,逐步找到最优解。
  • 割平面法(Cutting Planes):通过逐步添加线性约束(割平面)来缩小解空间,直到找到最优整数解。

image-20250418223437550

🔍假设你在准备一道美味的蛋糕

  • 建立微分方程就像是学会调制蛋糕的“配方” (就是数学模型)
  • 除了这个“配方”,还需要什么

📝 A. 给出定解条件,一定能求出它的数值解

  • “数值解”就像是用电脑模拟出蛋糕的大致模样。
  • 但这里说“一定能”,其实不对,因为有时候条件还不够,或者计算会有误差,这个说法太绝对了。

📝 B. 给出定解条件,一定能求出它的解析解

  • 解析解就是用数学公式精准表达出蛋糕的样子。
  • 但实际上,很多微分方程没有解析解,只能用数值方法近似,不能确保一定有解析解,所以这个也是不太准确的。

📝 C. 给出定解条件,有解时,一定能求出它的数值解

  • 这是比较稳妥的说法:
    • 如果这个微分方程有解(就是问题有解答),那我们一定有办法用计算的方法(数值解法)求出来。
  • 就像你知道配方可行了,但用电脑模拟出来(数值解)也是可以的,前提是解存在。

📝 D. 根据变量替换,一定能求出它的通解

  • 变量替换是解微分方程的一个技巧。
  • 但“一定能”过于绝对,很多复杂的微分方程可能无法用这种方法求通解

定解条件就是数学模型(比如微分方程)在找到“唯一解”时,额外告诉你“解”的一些具体信息或者限制


image-20250418224303047

A. 区分了感染者和未感染者
这描述的是一种“分类模型”,比如SIR模型,但不特指Malthus模型。

B. 传染人数的增长先慢后快
这符合“逻辑增长”或“Sigmoid”模型的描述,但不是 Malthus 模型。

C. 负指数增长模型
这个是描述越来越少、趋于稳定的情况,比如某些资源枯竭的模型,不适用Malthus模型。

D. 指数增长模型
这是正确答案!Malthus模型强调的是在没有限制条件下,人口或感染人数会以指数速度增长


image-20250418224446839

S(Susceptible):易感人群

I(Infectious):感染人群

R(Recovered):康复且获得免疫的人群
当感染后康复,得到免疫,就会从感染组“移出”,这个“移出”就是“R”状态。
也就是说,感染者康复后,获得免疫,不再传染。


image-20250418224520551

什么是“竞争排除原理”?**

由英国生态学家**哈代-维纳(G.F. Gause)**提出,意思是:

在一个稳定的环境中,两个物种如果竞争同一资源,最终“必然”会有一方胜出,另一方会灭绝或大幅减少

为什么不是两个物种都达到最大值(D)或者都灭绝(C)?

  • 都最大(D):在有限资源环境中不太可能两个物种都无限扩张,最终都达最大值,因为资源有限。
  • 都灭绝(C):只有在极端环境或没有资源条件时才可能发生,但偏离常态。

image-20250418224711410

**岭回归(Ridge Regression)**的核心思想是对回归系数加入“正则化”惩罚项,避免模型过拟合。

在贝叶斯统计框架中,加入L2范数惩罚意味着对回归系数假设它们服从正态分布(高斯分布)。

先验分布就是在你收集到新数据之前,你对某个参数(比如说回归系数、概率、比例等)“可能取到的值”的一种初步假设或信念

术语描述举例
先验分布在没有数据时,基于已有知识,给出参数值的概率分布猜谜底在0到10,觉得大概在5左右的概率更大
似然函数给定数据,参数取某值的概率根据观察,参数为3的可能性有多大?
后验分布结合新数据和先验,得到更新后对参数的分布经过新数据后,发现谜底更可能在4到6之间

image-20250418225047937

A. MATLAB
一款非常强大的数学和工程计算软件,广泛用于数值计算、矩阵运算、仿真等。

B. Maple
这是一个主要面向符号计算的数学软件,常用于符号分析、微积分、代数等。

C. Java
这是编程语言,不属于专门的数学软件,而是用来开发应用程序的通用编程语言。虽然可以用Java写数学计算的程序,但它本身不是数学软件。

D. Mathematica
这是一个功能强大的数学软件,主要用于符号和数值计算、可视化、算法开发等。


image-20250418225119799

多元回归分析

它是用来同时考虑多个因素(自变量)对一个目标(因变量)影响的数学模型。

树高 = ① × 土壤肥料 + ② × 日照时间 + ③ × 水的多少 + 常数项 + 误差项

残差分析法

内容作用典型方法
残差散点图检查线性关系、方差齐性残差对拟合值的散点图
QQ图(正态概率图)检验残差是否服从正态分布残差的Q-Q图
残差直方图查看残差分布,判断偏态或偏态残差直方图
影响点检测发现极端值和异常值杠杆值、影响诊断量(Cook’s距)

F检验

F检验(F-test)也叫方差分析,使用来比较两个或者多个样本的方差是否有显著性差异的统计方法,在回归分析中,通常用其检验整个模型是否显著

在多元回归中,F检验用来检验:

所有自变量的回归系数同时为零(没有影响)与否。

简而言之:

  • 原假设(H0):所有自变量的系数都等于零(即模型没有统计显著的线性关系)
  • 备择假设(H1):至少有一个系数不为零(模型整体有显著影响)

如果F值很大,意味着模型解释的变异远大于随机误差,拒绝H0,说明模型是有统计意义的。

部分内容作用备注
用处检验整个回归模型的有效性(是否有统计显著性)也用于多个不同模型的比较
假设H0:所有系数为零(模型无影响);H1:至少一系数非零这是判断模型是否有意义的关键步骤
依据F统计量与F分布的临界值或p值进行比较p值越小,模型越显著

t-检验

t检验(t-test),又叫Student’s t检验,是用来做“小样本”条件下参数的显著性检验的统计方法。

类型用途说明例子
单样本t检验判断某一组数据的均值是否等于某个值某药物治疗前后血压是否等于某个值
独立样本t检验比较两个不同样本的均值是否有显著差异男生和女生的平均身高是否不同
配对样本t检验比较配对或相关样本在不同条件下的差异同一批学生的考试成绩,药物治疗前后对比

t值越大:说明两个样本均值差异越显著,不太可能是随机误差造成的。

自由度:样本容量越大,t分布越接近标准正态分布。

在多元回归中,t检验用来检验每个具体变量与因变量的线性关系是否显著

R检验

R一般表示相关系数或决定系数(R^2),用来衡量模型拟合的效果


image-20250418230113744

这是模糊数学中常用的方法:

  • 原则:目标类别归属到那一类别,是根据**各类别成员资格度(隶属度)**中最大值所属类别。
  • 具体做法:寻找这组数值中的最大值对应的类别。

image-20250418230234286

(1)确定因素集

第一步,就是要明确评价中涉及的“因素”或者“指标”,列出主要因素,确定因素集

(2)确定评判集

评判集指的是评价的标准或等级,比如A,B,C,D,明确结果的等级范围,方便后续评判

(3)单因素评判

对每个因素进行单项评价,给出其对应的隶属度或等级

“模糊隶属度”(membership degree)用来描述一个元素属于某个模糊集合的“程度”或者“资格”。模糊”是描述模糊、不确定、不精确的意思

传统集(经典集合):元素要么属于这个集合(隶属度1),要么不属于(隶属度0)

模糊集:元素可以部分“属于”,即隶属度在0到1之间,反映程度。

它的取值范围是:

0≤隶属度≤1

  • 0 表示“完全不属于这个集合”
  • 1 表示“完全属于这个集合”
  • 介于0和1之间的值 表示“部分属于”,即“模糊归属”。

你可以用隶属度来描述:“这件衣服我觉得漂亮的程度是0.8”

说明你觉得它“很漂亮,但还没有完全漂亮到满分”。

概念描述取值范围作用
隶属度表示元素属于某模糊集合的程度0 到 1模糊归属、模糊评价
用途表达某指标在不同等级的“归属感”-实现模糊决策、综合评价

(4)综合评判

把单因素的评价结果进行“模糊综合”,得到整体的评价结果


image-20250418230900443


image-20250418230915405

完全一致不可能,是理想状态


image-20250418231045112

特点总体样本
定义研究对象的全体集合从总体中抽取的部分
规模一般很大,可能无限大较小,方便操作
作用代表全部,得出总体结论用于推断总体参数
例子全市所有家庭从全市家庭中抽取的2000户

image-20250418231207578

统计量是从样本数据中计算出来的数值,用来描述样本的特征或对总体进行推断的依据。

就像你从一碗汤里尝一口味道,得到的那个“味道的评分”就是一个“统计量”。

内容说明
定义从样本数据中计算出来,用于描述样本或推断总体的数值
常见的统计量样本均值、样本方差、比例、回归系数等
作用作为样本的“特征指标”或“估计值”,支持统计推断

image-20250418231404654

简单随机抽样

也叫做随机抽样,每个个体被抽中的概率相等,是一种纯粹的随机选择

比如:随机从全体学生中抽取80个,没有考虑男女比例。

整群抽样

将总体划分为若干“群”,随机抽取若干“群”,调查群内所有个体

比如:随机选几个班级,调查该班的所有学生。

分层抽样

将总体按照某些特征分成不同的层,在每个层内随机抽取一定比例的样本

比如:把所有学生按“男”和“女”划分,两组分别抽样,确保每个性别都代表。

系统抽样

按一定规律每隔一定间隔抽样

多阶段抽样

多阶段抽样是将抽样过程分为几个“阶段”或“步骤”,每个阶段都可以采用不同的抽样方法。比如:

  • 第一级先抽取“几个大单位”
  • 第二级在这些单位内部再抽取“子单位”
  • 有时还可以继续细分多次,直到抽到合适的样本。

便利抽样

选取最方便、容易接触到的个体作为样本,如在街上随意请几个人填写问卷

判断抽样
由研究者根据经验和判断,从总体中选择“典型”、“代表性强”的样本,如专家选择具有代表性的地点或个人

配额抽样
根据某些属性(如年龄、性别、职业)设定比例,然后主动选择符合比例的样本,如在调查中确保男性和女性人数比例符合实际

滚雪球抽样
从一个或少数几个样本开始,逐步通过他们推荐获取新的样本,例如调查难接触的患者、隐性群体等

方法特点适用场景
简单随机抽样均等概率抽取,最基本样本规模较小时或总体较少时
分层抽样按特征分层,确保代表性总体特征明显、各层差异大时
整群抽样以“群”为抽样单位,群内全抽地理广泛、成本限制时
系统抽样按固定间隔逐一抽样总体排列有序,喜欢简便快速抽样的方法
多阶段抽样结合多种方式,根据需要灵活设计大规模、复杂调查
配额抽样控制样本比例,部分代表性市场调研、定向调查
便利抽样操作方便,偏差大初步试验、快速调研
判断抽样由专家判断,控制代表性小样本、特殊难接触群体
滚雪球抽样逐步扩展,难以接触的特殊群体难以接近或隐性群体调查
自愿抽样样本的选择完全由被调查者自主决定,即只有主动愿意参加的人才成为样本公众意见征集:比如:在线投票、网络调查,收集自愿参与的意见

image-20250418231840121


image-20250418231915512

image-20250418232401083


image-20250418232837570

A. 分层抽样( stratified sampling)

  • 是一种科学的抽样方法,把总体按某些特征分成若干“层”(如性别、年龄段),然后在每一层内随机抽取样本。
  • **优点:**样本具有良好的代表性,可以有效估计总体参数。

B. 系统抽样(systematic sampling)

  • 从总体中编号,然后按一定的间隔抽取样本,比如每隔10个抽一个,起点随机。
  • **优点:**操作简便,样本具有代表性,常用于估计总体参数。

C. 整群抽样(cluster sampling)

  • 把总体划分为若干“群”或“簇”,随机抽取若干“群”,调查群内全部或部分个体。
  • **优点:**经济实用,适合大范围调查,也能用来估计总体参数(需要设计合理)。

D. 判断抽样(judgment sampling)

  • 是由调查者依据经验或主观判断“判断”选取样本,典型的专家选择法。
  • **关键点:**由调查者判断,不随机,不代表整体,样本偏差大。
  • **作用:**主要用于探索性调查或特殊目的,不能作为估计总体参数的依据。

其他三种方法(分层、系统、整群抽样)都是随机抽样方式,具有一定的统计学基础,能用来对总体参数进行科学的估计。

判断抽样因为没有采用随机原则,样本偏差大,不能有效反映总体特征,也不能用来对总体参数进行科学估计

类别抽样方法是否随机简介备注
随机抽样简单随机抽样每个个体被抽中的概率相等,完全随机需求完整名单,操作简单
系统抽样按固定间隔抽取,比如每隔10个抽一次需排序后进行
分层抽样按特征分层,在每层内随机抽样保证代表性高
整群抽样随机抽取“群”或“簇”,调查全部或部分成员适合地理分布广泛的总体
多阶段抽样结合多次随机抽样,如先抽群,再抽成员复杂但灵活
非随机抽样便利抽样取最容易接触到的样本快速,偏差大
判断抽样根据专家判断或经验选择样本不具代表性
滚雪球抽样从少数样本开始,通过推荐逐步扩大适合偏远或难接触群体
配额抽样按照比例人为选择,以满足特定特征不随机,偏差大
自愿抽样被调查者自主报名提供信息偏向愿意参与者

image-20250418233007313

系统抽样(Systematic Sampling)
按固定间隔抽样,如每隔n个抽一个,抽样过程是随机的,属于概率抽样。

整群抽样(Cluster Sampling)
将总体划分成“群”,随机抽取部分群,调查群内所有个体或部分,属于概率抽样。

分层抽样(Stratified Sampling)
将总体根据特征分层,然后在每层内随机抽样,属于概率抽样。

类型主要特点代表方法是否随机适用场景
概率抽样每个个体被抽到的概率已知,随机性强简单随机、系统、分层、整群、多阶段需要统计推断、代表性强的调查
非概率抽样个体被抽到的概率未知或不确定,偏差大便利、判断、滚雪球、配额、自愿试探性研究、探索性调查、不追求严格代表性

image-20250418233305549

自填式问卷调查

被调查者自主填写问卷,是主动参与填写的

面访式调查问卷

调查员面对面与被调查者对谈,问卷由调查员现场引导填写

实验调查

会涉及人为操控条件,观察实验对象反应

观察式调查

通过观察被调查对象行为,不涉及问卷填写

调查方式分类主要特点优点缺点适用场景
问卷调查调查方式通过书面问卷收集信息,可为纸质或电子操作简便、覆盖面广、成本低回应率不高、可信度受影响市场调研、满意度调查、社会研究
面访调查调查方式调查员面对面与被调查者交流信息详细、准确率高成本高、耗时间重点群体、复杂题目
电话调查调查方式通过电话与被调查者沟通速度快、样本较易抽取受电话设备限制、拒访率高市场意见、客户反馈
观察法调查方式通过观察被调查对象的行为可以获得真实行为数据不适用于主观信息、不能了解内心行为偏差分析、操作流程观察
实验调查调查方法控制变量,观察结果变化可判断因果关系成本高、操作复杂科学研究、产品试验
系统调查调查方式以某一系统或程序进行数据收集自动化、效率高某些数据难收集大数据分析、系统监控
电话问卷调查方式用电话进行问卷调研快速、受访范围广受访者不愿意、偏差大市场调研、民意调查
面对面访谈调查方式调查员与受访者面对面交流信息详细、误差少时间长、成本高深度调查、研究性调查
邮寄问卷调查方式通过邮寄方式发放回收问卷方便广泛、受访者自主反应慢、回收率低远距离、大规模调查
小组讨论调查方式小团队集中讨论,收集观点获取多层次信息受影响较大、偏差大市场定位、产品评估
滚雪球抽样抽样方式通过熟人介绍逐步扩大样本适合难接触对象偏差大、代表性差难接触群体研究
随机抽样抽样方式以概率方式选择样本代表性强、科学性高设计复杂、成本大科学研究、统计推断
分层抽样抽样方式按重要特征划分层抽样样本代表性强设计复杂需要处理特征明显总体
整群抽样抽样方式先抽群,再调查群内所有或部分成员省时省钱可能偏差大大范围地理调查
便利抽样非概率方便获取的样本,无随机性简便、低成本样本偏差大初步探索、快速调查
判断抽样非概率由调查者选择代表性样本操作简单偏差大、不能推断总体初步研究、专家建议
滚雪球抽样非概率自然扩散、逐层调查适合偏僻或难接触群体样本偏差大社会学研究、偏远地区

image-20250418233537284


image-20250418233606168

误差大致可以分为两类:

  • 抽样误差:由于样本不是总体的全部,抽取样本时产生的误差。你想知道某城市所有居民的平均年龄,但由于人口众多,你不能全部调查,只抽取了一个样本。“由于只抽取了部分样本,而不是全部居民,导致估计结果与真实值存在偏差”。
  • 非抽样误差:除了抽样外,调查设计、操作中的其它误差。

本人故意纵而出现偏差”的理解

  • 这是个体的主观行为,故意在调查中“作假、隐瞒或偏离真实”,不按正常规则。
  • 这种偏离属于调查中的人为错误或偏差,不属于样本抽取中自然产生的抽样误差。
误差类别具体类型产生原因说明
抽样误差随机抽样误差由于只抽取样本,不是全部调查,样本与总体的差异导致样本代表性不足,样本大小越大,误差越小
样本偏差误差随机抽样不完全或抽样方法不当,导致偏差样本不能很好反映总体,影响估计的准确性
非抽样误差响应偏差被调查者有意或无意提供不真实信息如隐瞒收入、虚报数据
访谈误差访谈过程中因人员素质或提问方式引起偏差采访员引导或表达方式不当,影响答案
设计误差调查方案设计不合理或问卷设计有缺陷问题不明确、题目偏题或遗漏重要信息
操作误差调查实施中操作不当造成的误差数据录入错误、样本遗漏等
资料流失或回收偏差/无回答误差回收问卷不全面或遗漏、样本未全部回收导致样本不完整,影响代表性
人为偏差调查者有主观偏向,或参与者有成见调查员引导、偏好或故意偏差
系统误差系统或设备的固有缺陷引起的误差计量工具不准、环境干扰等

image-20250418234006576

由抽样框(即抽样用的名单或记录)不完整或已过时造成的误差。这正符合题意:最初居民记载的登记单不完全反映当前实际居住情况,导致抽样结果与实际存在偏差。属于设计误差


image-20250418234433720

回收偏差/无回答误差** 回收问卷不全面或遗漏、样本未全部回收


image-20250418234503283

响应偏差也分为有意识和无意识,回答误差原因多半是无意的受外界影响的。于有意识偏差(有意识误差)“带有主观故意


image-20250419193600589

频数

频数是指“在某一类别或区间内,出现的次数”,如你统计班里同学的成绩,成绩在80-90分的有多少人? 假设统计结果是:在这个范围内有7个人。
这7个人的数量就是“频数”!

频率

它是“频数”占所有数据总数的比例。在总共50个学生中,成绩在80-90分的有7个人。
频率就是:7/50 = 14%,表示比例

频数分布表

它是把所有不同的类别或区间的频数整理成一张表格。

成绩区间频数
60-705
70-8010
80-907
90-1003
————
这就是“频数分布表”。

累计频数

把每个类别的频数逐步加起来,得到“累计的数量”

使用上面表格,累积频数会是:

  • 60-70:5
  • 70-80:5+10=15
  • 80-90:15+7=22
  • 90-100:22+3=25

image-20250419193954015

术语本质例子表达形式
频数具体个数喜欢某商品的有人20人20人
频率频数占总数的比例20人/总人数=0.2(20%)0.2或20%
比例(比例)部分占整体的比值50%的学生是男生(比例:0.5)0.5或50%
比率两个数之间的关系男:女=1:2,表示“男与女的比值”1:2 or 1/2

image-20250419194240248


image-20250419194258369


image-20250419194356331

图形类型适用场景是否适合描述结构性问题说明
A. 条形图展示不同类别的数值比较,比较明晰一般适合各类别比较但不专注于“比例结构”
B. 饼图显示“组成比例”,分部分代表整体的结构关系非常适合描述结构性问题利于直观显示各部分在整体中所占比例
C. 雷达图多变量的空间分布,体现多维关系。不太适合“结构性”描述更适合展示多维指标关系
D. 直方图展示连续变量的频率分布不适合结构描述主要用于数量分布情况

image-20250419195433027


image-20250419195211671

图形类型特点适用场景是否符合“结构性研究”
A. 环形图类似饼图,但通常中间空洞,显示不同部分占比展示多个部分比例和结构关系,非常适合分析样本结构、多组成部分占比
B. 饼图主要显示部分占整体的比例展示组成比例也适合,但题意偏向结构关系,有时用环形更直观
C. 直方图展示连续变量的频率分布数值分布、频次变化不适合结构性问题,偏向数值特性
D. 茎叶图展示数据的分布数值分布、集中趋势不适合结构性关系研究

环形图和饼图类似,但“环形图”在视觉上更清晰显示结构比例,特别适合多块组成结构的比例研究。


image-20250419195532510
选项含义释义典型用法
A. 单变量值分组只划分单一变量的值,直接分组不是正式统计中的一种标准术语常用“值分组”或“等级划分”描述,但不正式
B. 组距分组根据组距(区间宽度)划分正确,指用一定的区间长度依次划分变量统计频数分布、制作直方图的常用方法
C. 等距分组区间相等的分组也叫“等宽分组”,与“组距分组”类似常用于频率分布分析,但正式称呼是“组距分组”
D. 连续分组不太常用术语,没有明确标准多指连续变量的分组,但不如“组距分组”具体不常用,没有具体定义
分组方法主要特点适用场景说明
等级分组根据变量的“等级”或“等级划分”进行分组定性或定序数据例如:优秀、良好、及格、不及格,直接划分等级
等比分组区间长度比例递增或递减统计特殊比例增长的数据如:第1组:0-10,第二组:10-30(长度为20),第三组:30-60(长度为30)
均分分组将数据平均划分为几组样本较大,追求均衡例如:将数据平均分成4组,每组含等量数据
边界分组根据实际边界值定义区间有明确边界的统计需求比如:人口年龄边界:0-10岁、11-20岁、21-30岁等

image-20250419200027006

概念含义举例作用或用途
上限与下限之差区间的跨度,即区间的长度(也叫组距)0-10的区间,差为10反映区间宽度
组中值上限与下限的中点(中值,即两者的平均值)0-10区间,组中值为(0+10)/2=5代表整个区间的中心点,用于估算平均值等
最小值组中的最小数某组范围中的最小数,例如20描述数据的最低极限
最大值组中的最大数某组范围中的最大数,例如50描述数据的最高极限

image-20250419195914223

图形主要特点适合描述备注
A. 条形图比较不同类别的数值类别比较适合离散数据,不宜描述连续数据分布
B. 扇形图展示各部分相对比例(如比例图)比例关系不适合大批量连续数据,表达不了分布情况
C. 直方图将连续数据划分区间,用柱子表示区间频数或频率数据分布、形态、偏态等最适合大量连续数据的分布描述
D. 饼图展示各部分相对于整体的比例比例表达适合少数几个类别,不适合连续大量数据

image-20250419200103588

image-20250419200143029

image-20250419200200595

图形类型特点适用场景是否适合描述趋势
A. 条形图显示不同类别的数值比较类别对比(如不同商品的销量)不适合,不能显示连续变化趋势
B. 直方图显示数据的频率分布统计连续变量的分布,例如成绩分布不适合描述时间变化趋势
C. 箱线图描述数据的分散、集中情况观察数据的中位数、四分位数和异常值不适合连续变化趋势显示
D. 线图点与点之间连线,显示连续数据的变化时间序列中数据随时间变化的趋势最适合!

image-20250419200336434

图形特点适合描述的内容图形示例
A. 条形图比较不同类别的数值或频数类别比较不适合两个连续变量关系
B. 对比条形图两组条形图对比两组类别或数据的对比还是类别对比,不适合关系描述
C. 散点图每个点代表一组两个连续变量的值变量间关系(相关性)适合观察线性关系或其它关系
D. 箱线图数据的分布、偏态、集中趋势单变量的分布情况不显示两个变量的关系

image-20250419200406153

image-20250419200437423


image-20250419200511392

气泡图的特点

  • 气泡图是在散点图的基础上加入“气泡大小”这个变量,用来展示三个变量之间的关系
  • 图中:
    • **x轴:**第一个变量(比如“时间”或“收入”)
    • **y轴:**第二个变量(比如“支出”)
    • **气泡大小:**第三个变量(比如“销量”或“市场份额”)

image-20250419200642163

A. 两个变量之间的相关关系
这是散点图的用途,不包括气泡的大小,不完整。

C. 两个变量的对比关系
对比关系更适合用条形图或柱状图。

D. 三个变量的对比关系
也可以用,但通常“描述关系”更偏向于“相关性”。


image-20250419200737242

. 雷达图(蛛网图)的特点

  • 雷达图可以同时显示多个变量(通常多达十几个),每个指标对应一个“辐射线”。
  • 每个样本或对象的每个变量表现为一个“点”,在不同辐射线上。
  • 连接这些点形成一个“多边形”,可以直观看到不同样本或对象在多维指标上的“相似性”或“差异性”。
  1. 雷达图的主要用途
  • 用于多变量检测,比较多个对象在多项指标的表现。
  • 可以直观看出各个变量的相似性或差异性,特别适合多样本、多指标的整体分析。

image-20250419200819556


image-20250419200831143


image-20250419200844750


image-20250419200913658

帕累托图

帕累托图是一种结合了柱状图折线图的统计图,用来帮助分析哪些因素在总体中占据主要地位。

  1. 左侧的柱状图
  • 表示不同原因(质量、服务、宣传、其他)对影响品牌的贡献大小。
  • 柱子越高,说明该原因对影响最显著。
  • 比如:
    • 质量:占比45.5%,是影响最大的原因。
    • 服务:45.5% - 31.2% = 14.3%
    • 宣传:31.2% - 18.1% = 13.1%
    • 其他:最后的少数原因,占比仅5.2%。
  1. 右侧的折线(累计百分比线)
  • 表示累计影响占总影响的比例。
  • 线上的百分比(比如45.5%、76.7%、94.8%、100%)依次累积这些原因的贡献。
  • 例:
    • 质量原因贡献45.5%
    • 服务累计到76.7%(45.5% + 31.2%)
    • 宣传到94.8%
    • 其他整体达到100%。

image-20250419201112259


image-20250419201249100


image-20250419201314132

选项说明例子
A. 众数统计中出现频次最高的变量值,也是最常见的值(众数的定义)比如:调查中最常被投票数是“苹果”这个水果就是众数
B. 中位数将数据由小到大排序后,处于中间位置的数排序后,第10个位置的数就是中位数
C. 四分位数将数据分为四个等份的边界值25%、50%、75%的分割点
D. 平均数所有数据值的总和除以数据个数计算平均成绩、平均身高等

image-20250419201359080


image-20250419201406739


image-20250419201431774

术语说明举例说明
众数出现频次最高的变量值。某调查中最常出现的喜欢的水果是苹果,苹果的频次最高。
非众数频数除众数以外所有变量的频数之和。所有其他水果的总频次之和。
总频数所有变量频数之和。所有参加调查的人数;比如:喜欢苹果10人,香蕉8人、西瓜7人,总和为全体人数。
异众比例(占比)非众数频数占总频数的比例。比例=非众数频数/总频数。

离散系数(Coefficient of Variation, CV),也叫“变异系数”,用百分比表示,是标准差与平均数的比值,反映数据的相对离散程度。

  • 比较不同数据集的变异性:比如不同单位、不同均值的数据,离散系数提供了统一的尺度。
  • 判断数据稳定性:离散系数越小,数据越集中越稳定。

image-20250419201651157

image-20250419201745926


image-20250419201807028

  1. 什么是四分位差?
  • 四分位差(Interquartile Range, IQR):反映数据中中间50%的距离,也就是**上四分位数(Q3Q_3Q3)减去下四分位数(Q1Q_1Q1)**的差值。
  1. 四分位数的定义
  • Q1:第一四分位数(下四分位数),将数据按大小排序后,25%的位置所在的数值。
  • Q3:第三四分位数(上四分位数),将数据按大小排序后,75%的位置所在的数值。

image-20250419201909146


image-20250419201919887

image-20250419202023802

指标计算方式优缺点适用场景
平均差数据点与均值的绝对差的平均值更直观,反映实在的偏离情况,但对离群值敏感较低需要比方差更易理解的情况下使用
方差数据点与均值的差的平方的平均值数学性质好,便于推导和统计分析,但单位是数据单位的平方统计推断、模型分析、特征提取等
标准差方差的平方根保持单位一致,更直观,便于与数据比较基本的离散程度指标,用于描述数据的波动范围

image-20250419203546997

选项含义说明
A. 标准分一个数值,表示该数据偏离平均数的程度,用标准差衡量也叫“z分数”,用来标准化数据,表示距离平均的标准差倍数
B. 离散系数标准差除以平均数,表示数据的相对离散程度用于衡量变量的变异相对强度
C. 方差标准差的平方,衡量数据的整体离散程度描述数据离散的绝对指标
D. 标准差测量数据散布的尺度,单位与原数据相同反映数据的波动或变异大小

标准分”(z-score)定义为:数据点与均值的离差除以标准差

image-20250419203749599


image-20250419203721492


image-20250419203802682


image-20250419203921032

这个规则是描述正态分布(钟形曲线)数据的特点:

  • 在平均数±1个标准差范围内,大约有68%的数据
  • 在平均数±2个标准差范围内,大约有95%的数据
  • 在平均数±3个标准差范围内,大约有99.7%的数据

image-20250419204025063

image-20250419204207866

image-20250419204125958

image-20250419204142282


image-20250419204246294

image-20250419204350431

离散系数 = 标准差/平均数

用来衡量不同数据集或不同单位的离散程度,具有无量纲特性,方便比较。

主要用途

  • 比较多组数据的离散程度
    • 不同组的平均数不同,用标准差比较不合理。
    • 用离散系数可以直接比较它们的相对变异性。
  • 应用场景
    • 不同行业、不同产品、不同地区的财务指标波动情况。
    • 不同样本组的变异大小

image-20250419204444778

image-20250419204702374

  1. 偏态系数(偏度)定义
  • 偏度(Skewness):用来衡量数据分布的偏斜程度,即非对称性。
  • ·如果偏度为0,意味着分布关于平均值对称(正态分布即为典型例子)。
  • 偏度的值可正可负,正偏意味着左长尾,负偏意味着右长尾。
  1. 偏态系数的特性
  • 对称分布(如正态分布):偏度(偏态系数)等于0
  • 正偏分布(右偏):偏度>0
  • 负偏分布(左偏):偏度<
偏态系数绝对值分布特征
0完全对称
0 ~ 0.3轻微偏态(几乎对称)
0.3 ~ 0.5较低偏态(偏斜较小)
0.5 ~ 1中等偏态(偏斜明显但不厉害)
> 1高度偏态(偏斜非常明显)

image-20250419204821704

image-20250419205326179

image-20250419205243787

峰态的三种类型

  • 正态峰态(mesokurtic):峰态系数等于0,与标准正态分布的峰态相同。
  • 尖峰态(leptokurtic):峰态系数大于0,比标准正态分布更尖锐,数据更集中于均值附近,尾部较重。
  • 扁平态(platykurtic):峰态系数小于0,比标准正态分布更平坦,数据更分散,尾部较轻。

与标准正态分布的关系
标准正态分布(均值为0,标准差为1的正态分布)的峰态系数被定义为0。这是统计学中的一个基准,用于比较其他分布的峰态。


image-20250420180008561

什么是“众数”?

  • 简单说:在一组数据里,出现次数最多的那个就是“众数”!就像在投票里,出现最多的那个人就是“当选的人”。

image-20250420180137018

集中趋势”的含义:

  • 指数据中“集中”或者“典型”的值。
  • 常用的衡量方法:
    • 众数:出现最多的值
    • 中位数:排序后中间的值
    • 平均数:总和除以总

题目问“描述数据的集中趋势”,那么最合适的工具是“中位数”。

中位数可以反映中间位置的数据,对于分类数据(赞成、中立、反对)来说,中位数可以判定中间的类别。


image-20250420180410550

image-20250420180454110

image-20250420180926856


image-20250420180539263

image-20250420181144032


image-20250420181332736

image-20250420181422625


image-20250420181443028

什么是离散程度?

  • 简单来说,就是衡量数据分散或变动的程度。
  • 数值越大,说明数据越分散;数值越小,说明数据越集中。

所涉及的统计量:

  • 方差:用于描述数据的离散程度,计算需要所有数据的平方偏差和。
  • 极差(Range):最大值减最小值,即 96 - 62 = 34,是最简单的离散指标。
  • 标准差:方差的算术平方根,也反映离散程度,但需要完整数据。
  • 变异系数:标准差与均值的比值。

常用的离散度指标:

  1. 极差 (Range)
    • 计算最大值减最小值
    • 公式: 最高分 - 最低分 = 96 - 62 = 34
    • 代表全部数据的最大散布范围
    • 可以用已知最大和最小值简单计算
  2. 方差、标准差
    • 需要全部数据(所有成绩),无法仅靠已知最大、最小和平均算出
  3. 变异系数
    • 需要标准差和平均值,也无法单凭已知最大、最小值算出
指标计算复杂性各自特点代表意义典型用途
极差简单只反映范围,敏感极端值最高和最低值的差快速了解数据总体范围
方差中等反映整体离散程度数据偏离均值的平均平方精细分析数据离散程度,反映数据的离散程度,更全面、精细
标准差中等和方差类似,单位一致更直观计算较复杂,需所有数据描述数据变动范围.单位和原始数据相同(比方差更直观)
变异系数简单比值,单位无关不同行业之间比较变异相对离散程度的比较适合比较不同数据组的变异程度(不同行业或不同指标)

image-20250420181740186

image-20250420181829473


image-20250420181906157


image-20250420181952841

偏态的定义

  • 对称分布: 中位数=平均数
  • 左偏(偏左): 中位数 > 平均数
  • 右偏(偏右): 中位数 < 平均数

image-20250420182253697

异常值的判断方法:

在正态分布中,常用的判断异常值的方法是基于标准差的规则:

  • 一般规则: 若某个值超过平均值±3个标准差,则可以考虑为异常值。

image-20250420182430188

举例法,或者简单推一下


image-20250420182610054


image-20250420182626089


image-20250420182634343

什么是“相对统计量”或“相对离散程度的指标”?

  • 相对指标主要是用来描述不同样本或不同组数据的离散程度相对大小。
  • 常用的相对离散指标是:变异系数(Coefficient of Variation, CV),又称“离散系数”。

各个选项的解释:

  • A. 极差(Range)

    • 描述最大值和最小值的差,属于绝对指标,不能用来进行不同数据集间的相对比较。
  • B. 平均差(Mean Absolute Deviation)

    • 描述每个数据到平均数的绝对偏差,同样是绝对指标,不适合作为相对指标。
  • C. 标准差(Standard Deviation)

    • 描述数据的离散程度,但还是绝对指标,不考虑平均数大小,不便于不同尺度之间的比较。
  • D. 离散系数(Coefficient of Variation)

    image-20250420182755652


image-20250420182651446


image-20250420182812889

A. 标准差不同

  • 这是事实,但不能作为“不能比较”的原因。
  • 不同的标准差本身可以进行比较,只要单位一致。

B. 方差不同

  • 方差不同,反映变异程度不同,但同一组数据的不同情况下,方差的差异是可以比较的(在相同单位内)。

C. 数据个数不同

  • 数据个数不同,不影响标准差的本质,但会影响估计的精度和统计可靠性。

image-20250420182829035

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2339446.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【计量地理学】实验四 主成分分析与莫兰指数

一、实验内容 &#xff08;一&#xff09; 某地区35个城市2004年的7项经济统计指标数据见&#xff08;数据中的“题目1”sheet&#xff09;。 &#xff08;1&#xff09;试用最短距离聚类法对35个城市综合实力进行系统聚类分析&#xff0c;并画出聚类谱系图: 在此次实验内容…

手写call,bind,apply

foo.Mycall(obj,1,2,3) Function.prototype.Mycallfunction(target,...args){if(typeof this!function){throw new TypeError(this is not a function)}// 判断target是否是对象if(targetnull||targetundefined){targetwindow}if(typeof target!object){targetObject(target)}/…

【读书笔记·VLSI电路设计方法解密】问题64:什么是芯片的功耗分析

低功耗设计是一种针对VLSI芯片功耗持续攀升问题的设计策略。随着工艺尺寸微缩&#xff0c;单颗芯片可集成更多元件&#xff0c;导致功耗相应增长。更严峻的是&#xff0c;现代芯片工作频率较二十年前大幅提升&#xff0c;而功耗与频率呈正比关系。因此&#xff0c;芯片功耗突破…

Ubuntu18.04安装Qt5.12

本文介绍了在Ubuntu18.04环境下安装QT QT5.12相关安装包下载地址 https://download.qt.io/archive/qt/5.12/ Linux系统下Qt的离线安装包以.run结尾 (sudo apt-get install open-vm-tools open-vm-tools-desktop解决无法paste的问题) 安装 1.cd命令 终端进入对应的文件夹下面 2.…

max31865典型电路

PT100读取有很多种方案&#xff0c;常用的惠斯通电桥&#xff0c;和专用IC max31865 。 电阻温度检测器(RTD)是一种阻值随温度变化的电阻。铂是最常见、精度最高的测温金属丝材料。铂RTD称为PT-RTD&#xff0c;镍、铜和其它金属亦可用来制造RTD。RTD具有较宽的测温范围&#x…

数据通信学习笔记之OSPF的区域

OSPFArea 用于标识一个 OSPF 的区域 区域是从逻辑上将设备划分为不同的组&#xff0c;每个组用区域号 (Area ID)来标识 OSPF 的区域 ID 是一个 32bit 的非负整数&#xff0c;按点分十进制的形式(与 IPV4 地址的格式一样)呈现&#xff0c;例如 Area0.0.0.1。 为了简便起见&#…

5 提示词工程指南-计划与行动

5 提示词工程指南-计划与行动 计划与行动 Cline 有两种模式: Plan 描述目标和需求、提问与回答、讨论、抽象项目的各个方面、确定技术路线、确定计划 计划与确认相当于架构师,不编写代码Act 按计划编写代码 按照计划编码Plan 模式的本质是构建实际编码前的上下文,Act 的本…

如何一键批量删除多个 Word 文档中的页眉和页脚

在工作中&#xff0c;许多 Word 文档的页眉页脚中包含公司名称、Logo、电话等信息&#xff0c;用于对外宣传。但有时我们需要批量删除这些页眉页脚信息&#xff0c;尤其当信息有误时&#xff0c;手动逐个删除会增加工作量&#xff0c;导致效率低下。本文将介绍一种便捷的方法&a…

QCustomPlot中自定义图层

QCustomPlot 使用图层(QCPLayer)系统来组织绘图元素的绘制顺序和可见性。下面详细介绍如何自定义图层并将可绘制对象关联到特定图层。 1. 理解 QCustomPlot 的图层系统 QCustomPlot 的图层系统具有以下特点&#xff1a; 图层按顺序排列&#xff0c;后绘制的图层会覆盖前面的图…

-实用类-

1. API是什么 2.什么是枚举 &#xff01;有点类似封装&#xff01; 2.包装类 注意&#xff1a; 1.Boolean类构造方法参数为String类型时&#xff0c;若该字符串内容为true(不考虑大小写)&#xff0c;则该Boolean对象表示true&#xff0c;否则表示false 2.当包装类构造方法参…

Spring 事务管理核心机制与传播行为应用

Spring 事务详解 一、Spring 事务简介 Spring 事务管理基于 AOP&#xff08;面向切面编程&#xff09;实现&#xff0c;通过 声明式事务&#xff08;注解或 XML 配置&#xff09;统一管理数据库操作&#xff0c;确保数据一致性。核心目标&#xff1a;保证多个数据库操作的原子…

集合框架(重点)

1. 什么是集合框架 List有序插入对象&#xff0c;对象可重复 Set无序插入对象&#xff0c;对象不可重复&#xff08;重复对象插入只会算一个&#xff09; Map无序插入键值对象&#xff0c;键只唯一&#xff0c;值可多样 &#xff08;这里的有序无序指的是下标&#xff0c;可…

IPv4地址分类与常用网络地址详解

常见的 IPv4 地址分类&#xff1a; 1. A 类地址&#xff08;Class A&#xff09; 范围&#xff1a;0.0.0.0 到 127.255.255.255 默认子网掩码&#xff1a;255.0.0.0 或 /8 用途&#xff1a;通常用于大型网络&#xff0c;例如大型公司、组织。 特点&#xff1a; 网络地址范围…

模拟实现memmove,memcpy,memset

目录 前言 一、模拟实现memmove 代码演示&#xff1a; 二、模拟实现memcpy 代码演示&#xff1a; 三、模拟实现memset 代码演示&#xff1a; 总结 前言 这篇文章主要讲解了库函数的模拟实现&#xff0c;包含memmove&#xff0c;memcpy&#xff0c;memset 一、模拟实现m…

RHCSA Linux 系统文件内容显示2

6. 过滤文件内容显示 grep &#xff08;1&#xff09;功能&#xff1a;在指定普通文件中查找并显示含指定字符串的行&#xff0c;也可与管道符连用。 &#xff08;2&#xff09;格式&#xff1a;grep 选项... 关键字字符串 文件名... &#xff08;3&#xff09;常用选项及说…

【2】Kubernetes 架构总览

Kubernetes 架构总览 主节点与工作节点 主节点 Kubernetes 的主节点&#xff08;Master&#xff09;是组成集群控制平面的关键部分&#xff0c;负责整个集群的调度、状态管理和决策。控制平面由多个核心组件构成&#xff0c;包括&#xff1a; kube-apiserver&#xff1a;集…

Redis下载

目录 安装包 1、使用.msi方式安装 2.使用zip方式安装【推荐方式】 添加环境变量 配置后台运行 启动&#xff1a; 1.startup.cmd的文件 2.cmd窗口运行 3.linux源码安装 &#xff08;1&#xff09;准备安装环境 &#xff08;2&#xff09;上传安装文件 &#xff08;3&…

React 文章 分页

删除功能 携带路由参数跳转到新的路由项 const navigate useNavigate() 根据文章ID条件渲染

OpenCV 图形API(39)图像滤波----同时计算图像在 X 和 Y 方向上的一阶导数函数SobelXY()

操作系统&#xff1a;ubuntu22.04 OpenCV版本&#xff1a;OpenCV4.9 IDE:Visual Studio Code 编程语言&#xff1a;C11 算法描述 cv::gapi::SobelXY 函数是 OpenCV 的 G-API 模块中用于同时计算图像在 X 和 Y 方向上的一阶导数&#xff08;即 Sobel 边缘检测&#xff09;的一…

传导发射测试(CE)和传导骚扰抗扰度测试(CS)

传导发射测试(CE)&#xff1a; 测量接收机&#xff1a; 是EMI测试中最常用的基本测试仪器&#xff0c;仪器类型包括准峰值测量接收机、峰值测量接收机、平均值测量接收机和均方根值测量接收机。测量接收机的几个重要指标分别是&#xff1a;6dB处的带宽、充电时间常数、放电时…