1-30 判断题
数学模型
指的是通过抽象、简化现实世界的某些现象,利用数学语言来描述他们的结构和行为,做出一些必要的假设,运用适当的数学工具,得到一个数学结论
数学模型:指的是通过抽象、简化现实世界的某些现象,利用数学语言来描述它们的结构和行为。比如,气象学家用数学模型来预测天气,经济学家用数学模型来预测市场走势等。
规律:数学模型通常依赖于一些已知的规律,比如物理定律、统计规律等。
假设:由于实际问题非常复杂,数学模型通常会做一些简化假设。例如,假设空气是理想气体,忽略空气阻力等。
数学工具:为了推导数学结论,数学模型会运用到代数、微积分、概率论等各种数学方法。
Logistic模型通常用于描述人口增长,特别是在资源有限的情况下,人口增长会先快速增长,然后逐渐放缓,最终稳定
1. Logistic模型的基本概念
Logistic模型最常用来描述一个有限资源下的群体增长过程,特别是在人口增长方面。它与指数增长模型不同,后者假设没有资源限制,导致增长速度持续加快。而Logistic模型则考虑了资源的限制,描述了在某一时间点增长会趋缓,最终稳定在某一水平。
2. Logistic模型的公式
Logistic模型的数学公式通常写作:
3. 实际应用
- 人口学:描述在有限资源条件下,人口如何增长并最终达到平衡。
- 生态学:用来描述物种的数量如何在特定环境中变化,考虑到食物、栖息地等资源的限制。
- 流行病学:用于模拟疾病传播的过程,疾病传播初期可能非常迅速,但随着大部分易感人群感染后,传播速度会减慢,最终趋于稳定。
安全线
安全线表示在某个条件下,系统能够确保满足最低要求或标准的最小数量或最小资源。
残差率
残差率是指某个模型预测值和实际值之间的差异。在统计学中,“残差”是预测值和实际观察值之间的差距,而残差率通常表示的是这种差距占实际值的比例。
残差率是描述预测的最小导弹数与实际需求之间差距的百分比,通常随着目标数的增加而增大
安全线
这里的安全线指的时某方在和另一方对抗时,能够维持稳定的状态所需的最小资源或防御措施。
乙方可能会觉得自己的安全受到威胁,从而调整自己的安全策略和措施,导致乙方的安全线发生变化,但甲方不会变
扬帆远航模型
操控帆船时,要确定船前进的方向(航向)和帆布打开的角度(帆的朝向),以便船最快、最稳向目的地行驶
二元函数
你想找到在地图上某一点的最高点或最低点,地图的高度就是二维函数,横轴和纵轴代表不同的参数(比如方向和角度)。类似地,这里航向和帆的方向就是两个变量,合起来是二维函数。
“初等数学方法”通常指的是简单的一元函数求导、极值判断等基本工具,但现在变量变成了两个(二维),似乎变得复杂了。但用偏导数也可以求解,找出极值点。
-
你往东开10公里/小时,向北开0公里/小时,那么东向分量是10,很大。
-
你往东北开10公里/小时,那么东向分量约为7.07(10×cos45°),小于10
扬帆远航模型里,找到最佳航向和帆的朝向,就是找到让航速向“正东方”分量最大化的参数,
森林火灾中,被烧掉的面积随时间增长,烧掉的速度(面积变化率)和时间成正比。
-
线性规划:目标函数和所有约束条件都必须是线性的。
-
非线性规划:目标函数或约束条件中有非线性出现。
线性规划例子:
「最大化 3x + 4y」
约束:
x + 2y ≤ 10
x, y ≥ 0
这里目标函数和约束都是线性的。非线性规划例子:
「最大化 x² + y」
或
「最大化 3x + 4y」
约束:
x² + y ≤ 10
这里目标函数也是非线性的,或者约束非线性,都是非线性规划。
1. 什么是量纲齐次原理?
量纲齐次原理是物理学中一个非常基础的原则,它说一个物理公式的两边必须“量纲一致”(比如时间公式的两边不能一边是秒,一边是米)。
同时,通过量纲分析,可以推断某些物理量之间的依赖关系,帮助我们推导公式的形式,但通常只能得到“形式”,不能得到里面精准的无量纲常数。
3. 量纲齐次原理做什么?
量纲分析只能告诉你,周期一定是“长度的平方根除以重力加速度的平方根”的形式,比如:
但无法确定前面的“2π”这个具体数值,更别说更复杂双摆的周期表达式了
我们可以用一个简单的代数等式表示体重变化:
体重变化=摄入热量−消耗热量
军备竞赛模型
军备竞赛模型研究的是两个国家或双方在军备上的投入和反应。模型里通常有两个制约因素
- 经济制约因素:指双方的经济资源或限制力度
- 军备刺激程度:指双方因对方军备增长而采取的反应力度或者刺激度
稳定性一般取决于两者的相对大小及具体系统的动态特征,不仅仅靠“相等”来保证。
-
如果军备刺激大于经济制约,竞赛会持续升温,双方不断增加军备
-
如果经济制约远大于刺激,则军备增长受限。
想象一下,有一个渔场,里面有很多鱼。渔民不知道鱼的具体数量,也不精确控制捕捞,只是盲目地捕捞。盲目捕捞模型就是用数学来描述这种情况下鱼群数量如何随时间变化的模型。
这个模型分析的是:鱼群数量怎么受到捕捞行为、自然增长、环境和成本等因素的影响。
鱼群的稳定数量(长期能维持的鱼量)主要影响因素有:
- 鱼的自然繁殖率(鱼自己生得快不快)
- 自然死亡率和环境因素
- 捕捞的强度和技术(不只是成本,还有捕获效率)
- 捕捞成本(成本高,会减少捕捞,可能保护鱼群)
捕捞率E = 渔民捕鱼的速度/强度
**最大增长率r = 渔场鱼群的最大自然增长速度,也可称为繁殖速度 **
如果你捕得很快(E很大),超过了鱼群的增长速度r,鱼群就来不及恢复,鱼量会持续减少,最终鱼场可能崩溃、灭亡,也就没有稳定产量。
反过来,如果捕捞率E比自然增长率r小,也就是说你抓的鱼比鱼自己生的少,鱼群就会有机会维持平衡,渔场产量会稳定在某个水平。
在多准则决策、层次分析法(AHP)里,我们常用成对比较矩阵来比较各个因素的相对重要性。
举个例子:比如你要买手机,比较“价格”、“性能”、“外观”三方面的重要性。你会一一把两两因素拿出来比较,形成一个矩阵。矩阵里每个元素表示一个因素相对于另一个因素的偏好程度。比如“价格比性能重要2倍”,就填写一个2。
一致矩阵(或一致性)
一个成对比较矩阵如果完全“合理”、“没有矛盾”,我们称它是一致矩阵,比如:
- 如果A 比 B 重要 2倍(A/B=2)
- B 比 C 重要 3倍(B/C=3)
- 那么根据逻辑,A 比 C 就应该是 2×3=6倍(A/C=6)
满足这种连乘关系的矩阵叫“一致矩阵”。
实际上,成对比较矩阵通常不会完全一致,因为人们在判断的时候会有一定的主观偏差、判断不完美。比如:
- 你说A 比 B 是2倍
- B 比 C 是3倍
- 但你主观认定A 比 C 是5倍,而不是6倍
在图论和数据结构中,路径(路)是由一串相连的顶点和它们之间的边组成的。
“路的长度”不是“点的个数”,而是路径上边的个数。
假设有一个路径:顶点 A → B → C → D。
- 点的个数是4(A、B、C、D)
- 边的个数是3(A-B,B-C,C-D)
这条路的长度是边的个数,也就是3,不是点的数4。
因为:封闭区域没有外部影响,一切都可以靠模型比较准确地预测或者描述,就像我们用显微镜看一个细菌群体一样,细节比较清楚。
封闭区域像个“静止的小世界”,没有缺角没有“风吹雨打”,用模型准确估人口数量就更稳妥、更靠谱啦!🌟
线性回归模型的核心思想是通过一条直线来拟合数据,目的是找出自变量(X)与因变量(Y)之间的关系。在简单线性回归中,它假设两者之间是线性关系,也就是它们可以用一个直线方程 Y=aX+bY
然而,线性回归模型的适用性并不局限于线性关系。在一些情况下,即使数据本身并不是完全线性分布的,线性回归也可以通过适当的变换(如对数变换、平方变换等)来进行处理,使其能够拟合非线性关系的数据。例如,如果数据本来是呈曲线形状的,我们可以通过变换使得它们适应线性模型
在统计分析中,交互效应是指两个或多个变量之间的相互作用对因变量的影响。当我们发现不同的变量之间可能存在交互效应时,可以将这些变量的积作为一个新的变量,来研究它们的交互效应。
举个例子: 假设你正在研究“广告投入”和“销售人数”这两个因素如何影响“销售额”。单独来看,广告投入和销售人数对销售额可能各自有影响。但如果这两个变量之间存在交互效应,比如广告投入对销售人数的影响会根据不同的季节有所变化,那么你就可以考虑将“广告投入”与“销售人数”的积(即广告投入 × 销售人数)作为一个新变量来引入模型,来更好地解释销售额的变化。
模型的独立性假设: 在回归分析中,我们假设误差项(残差)是独立的,也就是说,当前的残差不应该受前一个残差的影响。如果相邻残差之间有相关性,说明可能存在某种系统性的模式未被模型捕捉到,通常这种现象叫做自相关性。
自相关性问题: 如果存在自相关性,说明我们的模型可能没有充分解释数据的变动。对于时间序列数据,这种情况尤其常见。比如,如果你在做股票市场分析,过去的股票价格波动可能会影响当前的价格波动。
当我们检查残差是否具有相关性时,通常会首先关注“相邻残差”的相关性
在统计分析中,我们经常需要对未来的某个值进行预测,并计算这个预测的置信区间。置信区间是指我们对于某个预测值的不确定性范围,它告诉我们真实值可能落在这个区间内的概率
为什么“置信区间越短越好”?
- 置信区间的长度表示了我们对预测值的不确定性。置信区间越短,意味着我们对预测的结果越有信心,预测的准确度越高。
- 相同的置信水平下,缩小置信区间意味着我们对数据的理解和预测更精确。反之,如果置信区间太长,就说明我们的预测不够精确,可能存在更多的不确定性。
物价上升时,购买力下降,这通常会导致投资者对经济前景的信心下降。企业可能因为成本上升而减少投资,消费者也可能因为物价上涨而减少消费。因此,物价和投资之间可能存在负相关关系。
如果回归模型中的系数是负数,那么就表示物价指数与国民投资额之间存在负相关,即物价上升时,投资额倾向于减少。
这个题目讨论的是距离判别法,它通常用于分类问题中。其核心思想是通过计算样本点与各个类别中心的距离,来决定样本点属于哪个类别。通常距离越小,样本点越可能属于距离较近的类别。
- 计算样本点与各类别的距离:对于每个新的样本点,我们计算它与所有已知类别的中心点(比如均值或质心)的距离。
- 选择最小距离:样本点最终会被分配到与其最近的类别。这是一种最近邻算法的思想。
- 分类决策:样本离哪个类别的中心点最近,它就被归类为该类别
有意识误差
指的是调查者故意或无意的在数据收集过程中引入错误,可能是因为有一些偏见、错误的理解,甚至是故意伪造数据
抽样框误差
抽样框误差通常指的是在选择调查样本时,抽样的样本不能代表某个群体。比如调查员可能只选择了特定区域的居民,从而忽略掉其他区域的居民
回答误差
回答误差是指在回答调查问题时,由于被调查者的记忆、理解或者表达不清楚导致的错误,这个错误会影响数据准确性
无回答误差
无回答误差指的是部分被调查者没有回答问题或者没有提供有效数据
没有回应:某些被调查者可能完全没有回答调查问卷中的问题,比如他们选择不参与、忘记回答或者直接跳过某些问题。
无法回答:有些问题可能太复杂,导致被调查者无法理解并给出答案,或者他们根本没有相关信息。比如某个问题涉及到复杂的数字计算,而被调查者并不清楚他们的具体情况。
选择性不回答:被调查者可能选择不回答某些敏感问题,例如个人收入或用电量等,他们可能因为隐私原因或不愿透露真实信息而跳过这些问题。
主成分分析(PCA)是一种常用的降维技术,目的是将高维数据投影到一个新的空间中,从而降低维度,同时尽量保留数据的主要信息,其核心思想是通过特征值和特征向量来确定新的主成分
在主成分分析中,特征值的大小非常重要。特征值反映了每个主成分所能解释的数据方差的大小。具体来说,特征值越大,代表该主成分所包含的信息越多,即该主成分对数据的解释能力越强。因此,在PCA中,我们会按照特征值从大到小的顺序排列特征向量。
方差解释:特征值越大,说明该主成分解释的数据方差越大,换句话说,它对原始数据的描述越完整。
选择主成分:我们通常选择特征值最大的几个主成分来构建新的低维空间,这样可以最大程度保留数据的信息。
在许多机器学习算法中,尤其是在分类算法中(例如K近邻算法,KNN),样本的分类结果通常取决于计算样本与其他样本之间的距离。常见的距离度量方式有欧氏距离、曼哈顿距离、切比雪夫距离等,每种距离度量方式的计算方法不同,可能导致不同的分类结果。
在回归分析中,最小二乘法(Least Squares Method)是最常用的估计方法。它的主要思想是通过最小化预测值与真实值之间的误差平方和,来找到最佳的回归模型。
在进行模型评判时,通常有多个评判指标和因素需要考虑。这些评判指标可能包括误差度量、模型的拟合优度、变量的重要性等。对于每个单独的因素,我们可以首先进行单因子评判,之后再结合各个因素的评判结果,做出综合评判。
单因子评判有助于理解每个因素的贡献:单因子评判帮助我们逐个理解每个变量或因素对模型的影响。通过查看每个单独因素的表现,我们可以发现哪些因素在模型中的影响较大,哪些因素可能对模型性能没有很大贡献。
综合评判能提供全面的理解:在进行了单因子评判之后,综合评判有助于我们对模型进行更全面的评价。综合评判可以结合多个因素的结果,最终给出一个综合的评估,帮助我们做出更加准确的决策
过拟合问题:复杂的模型可能能够很好地拟合训练数据,但它们往往过于关注训练数据中的噪声,导致无法对新的数据进行有效的预测。这就是所谓的过拟合。在这种情况下,虽然模型在训练集上表现得很好,但在测试集上可能表现较差。
简化原则(Occam’s Razor):在建模时,通常我们倾向于选择简单有效的模型。简单的模型不仅容易理解,而且更具泛化能力(即在不同的未知数据上表现更好)。根据简化原则,如果一个简单的模型能充分解释现象,就不必采用更复杂的模型。
计算成本:更复杂的模型通常需要更多的计算资源和时间,这在实践中可能不划算。如果一个简单的模型就能满足需求,为什么要选择复杂的模型呢?
SIR模型是流行病学中常用的一种模型,用于描述传染病的传播过程,他将人群分为三类
- 易感染者(S,susceptible):这些人没有感染病原体,但有可能通过与已感染者接触而感染。
- 已感染者(I,Infected):这些人已经感染了疾病,且能够传播病原体给易感染者。
- 移除者(R,Recovered):这些人已经从感染状态中恢复,或由于其他原因(如死亡)不再参与传播。通常,移除者被认为不再能感染他人,也不再容易被感染。
SIR模型(Susceptible-Infected-Recovered Model)是一种流行病学模型,用于描述传染病在人群中的传播过程。它基于一种简化的假设——人群可以分为三类个体:易感染者(S)、已感染者(I)和移除者(R)。这些个体在不同时间段内的状态会发生转变,且转变的速度由一定的参数控制。
SIR模型的动态过程:
在SIR模型中,易感染者、已感染者和移除者的数量随时间变化。模型通过微分方程来描述这些变化过程:
易感染者(S)到已感染者(I)的转变: 通过接触感染者,易感染者变成已感染者。转变的速度与以下因素有关:
- 感染率(β):感染者与易感染者接触的速率。即,单位时间内每个已感染者平均能够使多少易感染者感染。
- 易感染者数量(S):接触的机会与易感染者的数量成正比。
- 已感染者数量(I):感染的可能性与感染者的数量成正比。
所以,易感染者转变为已感染者的速率为:
已感染者到移除者的转变: 已感染者在一段时间后会痊愈或者死亡,成为移除者。转变的速度由以下因素决定:
- 恢复率(γ):已感染者恢复的速率,或者死亡的速率。即,每个已感染者平均多少时间后会变为移除者。
- 已感染者数量(I):恢复的数量与已感染者的数量成正比。
所以,已感染者转变为移除者的速率为:
移除者数量的变化: 移除者数量的变化是因为已经感染并痊愈的已感染者转化为移除者,速率为
在SIR模型中,总人口数量是一个常数,不随时间变化。即:
S(t)+I(t)+R(t)=N
SIS模型是流行病学中一种简单的传染病模型,SIS代表易感染者(S)和已感染者(I)。在SIS模型中,个体从易感染者(S)转变为已感染者(I),并且从已感染者(I)转变回易感染者(S)。这种模型适用于没有长期免疫的传染病,如普通感冒等。
如果考虑死亡,通常模型会有所扩展,成为带有死亡因素的SIS模型。在这种模型中,死亡可能会影响到已感染者或易感染者的数量,但这种影响并不会改变模型的核心结构。基本上,死亡因素会减少相关群体的数量,但是其他的转化过程(易感染者变为已感染者,已感染者变为易感染者)依然遵循相同的基本规则。
衡量一个模型的优劣并不仅仅取决于它是否使用了复杂的数学方法。虽然数学工具在建模过程中起着重要作用,但真正评判一个模型好坏的标准是它的准确性、适用性、稳定性以及可解释性等因素。
31-120 选择题
威慑值
威慑值通过军备力量来达到防止对方攻击或采取敌对行动的效果
规划模型
通常指线性规划模型或者更广义的数学规划模型。来解决“该做什么,做什么最优的问题”
决策变量
就是模型中可以控制、选择的变量
目标函数
就是我们想要“最大化”或“最小化”的东西,比如最大利润,最小成本。
约束条件
限制我们决策变量的条件,比如资源有限,不能生产超过多少个产品,这就是约束条件。约束个数即约束条件的个数这个“个数”只是数量,不直接影响模型本质。关键是约束条件的内容,而不是你有几个约束。换句话说,约束数量多少,重要的是每个约束到底提供了什么限制和信息。
实数优化
就是变量可以取连续的实数值。比如,做蛋糕,允许生产3.14个,这在模型里是允许的
整数变量/约束
有些时候变量或者约束必须是整数,比如必须做完整的蛋糕(不能做0.5个蛋糕),这种变量或约束叫整数变量/整数约束。它会让计算更复杂。
光滑优化
光滑指的是函数形态“平滑”,没有尖点或不连续,便于求解。光滑的目标函数和约束通常更容易用数学方法求解。反之,如果约束函数有拐角、跳变,会导致数值求解变难,也就是非光滑约束。
参数数量级
指模型中用到的参数大小,比如1000、0.0001,这些数量级差距太大,会影响计算的稳定性。
- A. 尽量使用实数优化,减少整数约束和整数变量
这是经典建议!因为整数规划是NP难问题,求解难度大,所以要尽量避免。这个选项是合理的,属于基本注意点。- B. 尽量使用光滑优化,减少非光滑约束的个数
这也是常见建议。光滑约束方便求解器计算,非光滑使问题复杂度增大。- C. 尽量使用非线性模型,减少线性约束和线性变量的个数
这看上去很奇怪!一般来说,要尽量使用线性模型,线性模型计算高效且有成熟算法。非线性模型往往更难求解。这个选项的意思反着来了,实际上不对。
所以这是不符合基本原则的,应该是不包含的。- D. 模型中使用的参数数量级要适当
这个很重要!参数过大或过小会导致数值不稳定。P类问题:那些可以“快速求解”的问题,时间复杂度是多项式时间,比如O(n2),意味着用普通电脑几分钟至几小时就能解决。
NP类问题:不一定能“快速求解”,但是给一个答案,可以“快速验证”它对不对。
A. 切线法:切线法是一种用来求解函数最值的方法,通常是通过函数的导数来找到最优点,但它一般应用于非线性函数。因此,这不是解线性规划的常见方法。
B. 法线法:法线法是另一种求解方法,但它也常用于几何问题中,与线性规划不太相关。
C. 对偶单纯形法:这个是线性规划中常用的一种方法。对于线性规划问题,除了直接使用单纯形法外,也可以使用对偶单纯形法,它特别适合于一些特殊情况,比如当原问题的初始解不可行时。它帮助我们更好地求解线性规划问题,所以是正确答案。
对偶单纯形法实际上是 单纯形法(Simplex Method)的变种,它用于求解线性规划问题的一种方法。单纯形法的基本思想是通过遍历可行解的顶点来找到最优解。而对偶单纯形法则是在一些特殊情况下使用,尤其是当 初始解不可行 时。
一般情况下,单纯形法要求初始解是可行的,也就是说它要满足所有约束条件。然而,在某些情况下,我们的初始解可能并不满足约束条件,这时候就可以使用对偶单纯形法。
D. 分支定界法:分支定界法常用于整数规划等问题,也不是解线性规划问题的标准方法。
与普通的线性规划(即决策变量可以是连续的)相比,整数规划问题更难求解,因为整数变量的存在使得问题变得“离散”而不是“连续”。这使得问题的解空间非常庞大,通常没有有效的多项式时间算法来解决。
解决方法:
- 分支定界法(Branch and Bound):通过构建一个树形结构,逐步排除不可行的解,逐步找到最优解。
- 割平面法(Cutting Planes):通过逐步添加线性约束(割平面)来缩小解空间,直到找到最优整数解。
🔍假设你在准备一道美味的蛋糕:
- 建立微分方程就像是学会调制蛋糕的“配方” (就是数学模型)
- 除了这个“配方”,还需要什么
📝 A. 给出定解条件,一定能求出它的数值解
- “数值解”就像是用电脑模拟出蛋糕的大致模样。
- 但这里说“一定能”,其实不对,因为有时候条件还不够,或者计算会有误差,这个说法太绝对了。
📝 B. 给出定解条件,一定能求出它的解析解
- 解析解就是用数学公式精准表达出蛋糕的样子。
- 但实际上,很多微分方程没有解析解,只能用数值方法近似,不能确保一定有解析解,所以这个也是不太准确的。
📝 C. 给出定解条件,有解时,一定能求出它的数值解
- 这是比较稳妥的说法:
- 如果这个微分方程有解(就是问题有解答),那我们一定有办法用计算的方法(数值解法)求出来。
- 就像你知道配方可行了,但用电脑模拟出来(数值解)也是可以的,前提是解存在。
📝 D. 根据变量替换,一定能求出它的通解
- 变量替换是解微分方程的一个技巧。
- 但“一定能”过于绝对,很多复杂的微分方程可能无法用这种方法求通解
定解条件就是数学模型(比如微分方程)在找到“唯一解”时,额外告诉你“解”的一些具体信息或者限制
A. 区分了感染者和未感染者
这描述的是一种“分类模型”,比如SIR模型,但不特指Malthus模型。
B. 传染人数的增长先慢后快
这符合“逻辑增长”或“Sigmoid”模型的描述,但不是 Malthus 模型。
C. 负指数增长模型
这个是描述越来越少、趋于稳定的情况,比如某些资源枯竭的模型,不适用Malthus模型。
D. 指数增长模型
这是正确答案!Malthus模型强调的是在没有限制条件下,人口或感染人数会以指数速度增长
S(Susceptible):易感人群
I(Infectious):感染人群
R(Recovered):康复且获得免疫的人群
当感染后康复,得到免疫,就会从感染组“移出”,这个“移出”就是“R”状态。
也就是说,感染者康复后,获得免疫,不再传染。
什么是“竞争排除原理”?**
由英国生态学家**哈代-维纳(G.F. Gause)**提出,意思是:
在一个稳定的环境中,两个物种如果竞争同一资源,最终“必然”会有一方胜出,另一方会灭绝或大幅减少
为什么不是两个物种都达到最大值(D)或者都灭绝(C)?
- 都最大(D):在有限资源环境中不太可能两个物种都无限扩张,最终都达最大值,因为资源有限。
- 都灭绝(C):只有在极端环境或没有资源条件时才可能发生,但偏离常态。
**岭回归(Ridge Regression)**的核心思想是对回归系数加入“正则化”惩罚项,避免模型过拟合。
在贝叶斯统计框架中,加入L2范数惩罚意味着对回归系数假设它们服从正态分布(高斯分布)。
先验分布就是在你收集到新数据之前,你对某个参数(比如说回归系数、概率、比例等)“可能取到的值”的一种初步假设或信念。
术语 | 描述 | 举例 |
---|---|---|
先验分布 | 在没有数据时,基于已有知识,给出参数值的概率分布 | 猜谜底在0到10,觉得大概在5左右的概率更大 |
似然函数 | 给定数据,参数取某值的概率 | 根据观察,参数为3的可能性有多大? |
后验分布 | 结合新数据和先验,得到更新后对参数的分布 | 经过新数据后,发现谜底更可能在4到6之间 |
A. MATLAB
一款非常强大的数学和工程计算软件,广泛用于数值计算、矩阵运算、仿真等。
B. Maple
这是一个主要面向符号计算的数学软件,常用于符号分析、微积分、代数等。
C. Java
这是编程语言,不属于专门的数学软件,而是用来开发应用程序的通用编程语言。虽然可以用Java写数学计算的程序,但它本身不是数学软件。
D. Mathematica
这是一个功能强大的数学软件,主要用于符号和数值计算、可视化、算法开发等。
多元回归分析
它是用来同时考虑多个因素(自变量)对一个目标(因变量)影响的数学模型。
树高 = ① × 土壤肥料 + ② × 日照时间 + ③ × 水的多少 + 常数项 + 误差项
残差分析法
内容 | 作用 | 典型方法 |
---|---|---|
残差散点图 | 检查线性关系、方差齐性 | 残差对拟合值的散点图 |
QQ图(正态概率图) | 检验残差是否服从正态分布 | 残差的Q-Q图 |
残差直方图 | 查看残差分布,判断偏态或偏态 | 残差直方图 |
影响点检测 | 发现极端值和异常值 | 杠杆值、影响诊断量(Cook’s距) |
F检验
F检验(F-test)也叫方差分析,使用来比较两个或者多个样本的方差是否有显著性差异的统计方法,在回归分析中,通常用其检验整个模型是否显著
在多元回归中,F检验用来检验:
所有自变量的回归系数同时为零(没有影响)与否。
简而言之:
- 原假设(H0):所有自变量的系数都等于零(即模型没有统计显著的线性关系)
- 备择假设(H1):至少有一个系数不为零(模型整体有显著影响)
如果F值很大,意味着模型解释的变异远大于随机误差,拒绝H0,说明模型是有统计意义的。
部分内容 | 作用 | 备注 |
---|---|---|
用处 | 检验整个回归模型的有效性(是否有统计显著性) | 也用于多个不同模型的比较 |
假设 | H0:所有系数为零(模型无影响);H1:至少一系数非零 | 这是判断模型是否有意义的关键步骤 |
依据 | F统计量与F分布的临界值或p值进行比较 | p值越小,模型越显著 |
t-检验
t检验(t-test),又叫Student’s t检验,是用来做“小样本”条件下参数的显著性检验的统计方法。
类型 | 用途说明 | 例子 |
---|---|---|
单样本t检验 | 判断某一组数据的均值是否等于某个值 | 某药物治疗前后血压是否等于某个值 |
独立样本t检验 | 比较两个不同样本的均值是否有显著差异 | 男生和女生的平均身高是否不同 |
配对样本t检验 | 比较配对或相关样本在不同条件下的差异 | 同一批学生的考试成绩,药物治疗前后对比 |
t值越大:说明两个样本均值差异越显著,不太可能是随机误差造成的。
自由度:样本容量越大,t分布越接近标准正态分布。
在多元回归中,t检验用来检验每个具体变量与因变量的线性关系是否显著
R检验
R一般表示相关系数或决定系数(R^2),用来衡量模型拟合的效果
这是模糊数学中常用的方法:
- 原则:目标类别归属到那一类别,是根据**各类别成员资格度(隶属度)**中最大值所属类别。
- 具体做法:寻找这组数值中的最大值对应的类别。
(1)确定因素集
第一步,就是要明确评价中涉及的“因素”或者“指标”,列出主要因素,确定因素集
(2)确定评判集
评判集指的是评价的标准或等级,比如A,B,C,D,明确结果的等级范围,方便后续评判
(3)单因素评判
对每个因素进行单项评价,给出其对应的隶属度或等级
“模糊隶属度”(membership degree)用来描述一个元素属于某个模糊集合的“程度”或者“资格”。模糊”是描述模糊、不确定、不精确的意思
传统集(经典集合):元素要么属于这个集合(隶属度1),要么不属于(隶属度0)
模糊集:元素可以部分“属于”,即隶属度在0到1之间,反映程度。
它的取值范围是:
0≤隶属度≤1
- 0 表示“完全不属于这个集合”
- 1 表示“完全属于这个集合”
- 介于0和1之间的值 表示“部分属于”,即“模糊归属”。
你可以用隶属度来描述:“这件衣服我觉得漂亮的程度是0.8”
说明你觉得它“很漂亮,但还没有完全漂亮到满分”。
概念 描述 取值范围 作用 隶属度 表示元素属于某模糊集合的程度 0 到 1 模糊归属、模糊评价 用途 表达某指标在不同等级的“归属感” - 实现模糊决策、综合评价
(4)综合评判
把单因素的评价结果进行“模糊综合”,得到整体的评价结果
完全一致不可能,是理想状态
特点 | 总体 | 样本 |
---|---|---|
定义 | 研究对象的全体集合 | 从总体中抽取的部分 |
规模 | 一般很大,可能无限大 | 较小,方便操作 |
作用 | 代表全部,得出总体结论 | 用于推断总体参数 |
例子 | 全市所有家庭 | 从全市家庭中抽取的2000户 |
统计量是从样本数据中计算出来的数值,用来描述样本的特征或对总体进行推断的依据。
就像你从一碗汤里尝一口味道,得到的那个“味道的评分”就是一个“统计量”。
内容 | 说明 |
---|---|
定义 | 从样本数据中计算出来,用于描述样本或推断总体的数值 |
常见的统计量 | 样本均值、样本方差、比例、回归系数等 |
作用 | 作为样本的“特征指标”或“估计值”,支持统计推断 |
简单随机抽样
也叫做随机抽样,每个个体被抽中的概率相等,是一种纯粹的随机选择
比如:随机从全体学生中抽取80个,没有考虑男女比例。
整群抽样
将总体划分为若干“群”,随机抽取若干“群”,调查群内所有个体
比如:随机选几个班级,调查该班的所有学生。
分层抽样
将总体按照某些特征分成不同的层,在每个层内随机抽取一定比例的样本
比如:把所有学生按“男”和“女”划分,两组分别抽样,确保每个性别都代表。
系统抽样
按一定规律每隔一定间隔抽样
多阶段抽样
多阶段抽样是将抽样过程分为几个“阶段”或“步骤”,每个阶段都可以采用不同的抽样方法。比如:
- 第一级先抽取“几个大单位”
- 第二级在这些单位内部再抽取“子单位”
- 有时还可以继续细分多次,直到抽到合适的样本。
便利抽样
选取最方便、容易接触到的个体作为样本,如在街上随意请几个人填写问卷
判断抽样
由研究者根据经验和判断,从总体中选择“典型”、“代表性强”的样本,如专家选择具有代表性的地点或个人
配额抽样
根据某些属性(如年龄、性别、职业)设定比例,然后主动选择符合比例的样本,如在调查中确保男性和女性人数比例符合实际
滚雪球抽样
从一个或少数几个样本开始,逐步通过他们推荐获取新的样本,例如调查难接触的患者、隐性群体等
方法 | 特点 | 适用场景 |
---|---|---|
简单随机抽样 | 均等概率抽取,最基本 | 样本规模较小时或总体较少时 |
分层抽样 | 按特征分层,确保代表性 | 总体特征明显、各层差异大时 |
整群抽样 | 以“群”为抽样单位,群内全抽 | 地理广泛、成本限制时 |
系统抽样 | 按固定间隔逐一抽样 | 总体排列有序,喜欢简便快速抽样的方法 |
多阶段抽样 | 结合多种方式,根据需要灵活设计 | 大规模、复杂调查 |
配额抽样 | 控制样本比例,部分代表性 | 市场调研、定向调查 |
便利抽样 | 操作方便,偏差大 | 初步试验、快速调研 |
判断抽样 | 由专家判断,控制代表性 | 小样本、特殊难接触群体 |
滚雪球抽样 | 逐步扩展,难以接触的特殊群体 | 难以接近或隐性群体调查 |
自愿抽样 | 样本的选择完全由被调查者自主决定,即只有主动愿意参加的人才成为样本 | 公众意见征集:比如:在线投票、网络调查,收集自愿参与的意见 |

A. 分层抽样( stratified sampling)
- 是一种科学的抽样方法,把总体按某些特征分成若干“层”(如性别、年龄段),然后在每一层内随机抽取样本。
- **优点:**样本具有良好的代表性,可以有效估计总体参数。
B. 系统抽样(systematic sampling)
- 从总体中编号,然后按一定的间隔抽取样本,比如每隔10个抽一个,起点随机。
- **优点:**操作简便,样本具有代表性,常用于估计总体参数。
C. 整群抽样(cluster sampling)
- 把总体划分为若干“群”或“簇”,随机抽取若干“群”,调查群内全部或部分个体。
- **优点:**经济实用,适合大范围调查,也能用来估计总体参数(需要设计合理)。
D. 判断抽样(judgment sampling)
- 是由调查者依据经验或主观判断“判断”选取样本,典型的专家选择法。
- **关键点:**由调查者判断,不随机,不代表整体,样本偏差大。
- **作用:**主要用于探索性调查或特殊目的,不能作为估计总体参数的依据。
其他三种方法(分层、系统、整群抽样)都是随机抽样方式,具有一定的统计学基础,能用来对总体参数进行科学的估计。
判断抽样因为没有采用随机原则,样本偏差大,不能有效反映总体特征,也不能用来对总体参数进行科学估计
类别 | 抽样方法 | 是否随机 | 简介 | 备注 |
---|---|---|---|---|
随机抽样 | 简单随机抽样 | 是 | 每个个体被抽中的概率相等,完全随机 | 需求完整名单,操作简单 |
系统抽样 | 是 | 按固定间隔抽取,比如每隔10个抽一次 | 需排序后进行 | |
分层抽样 | 是 | 按特征分层,在每层内随机抽样 | 保证代表性高 | |
整群抽样 | 是 | 随机抽取“群”或“簇”,调查全部或部分成员 | 适合地理分布广泛的总体 | |
多阶段抽样 | 是 | 结合多次随机抽样,如先抽群,再抽成员 | 复杂但灵活 | |
非随机抽样 | 便利抽样 | 否 | 取最容易接触到的样本 | 快速,偏差大 |
判断抽样 | 否 | 根据专家判断或经验选择样本 | 不具代表性 | |
滚雪球抽样 | 否 | 从少数样本开始,通过推荐逐步扩大 | 适合偏远或难接触群体 | |
配额抽样 | 否 | 按照比例人为选择,以满足特定特征 | 不随机,偏差大 | |
自愿抽样 | 否 | 被调查者自主报名提供信息 | 偏向愿意参与者 |
系统抽样(Systematic Sampling)
按固定间隔抽样,如每隔n个抽一个,抽样过程是随机的,属于概率抽样。
整群抽样(Cluster Sampling)
将总体划分成“群”,随机抽取部分群,调查群内所有个体或部分,属于概率抽样。
分层抽样(Stratified Sampling)
将总体根据特征分层,然后在每层内随机抽样,属于概率抽样。
类型 | 主要特点 | 代表方法 | 是否随机 | 适用场景 |
---|---|---|---|---|
概率抽样 | 每个个体被抽到的概率已知,随机性强 | 简单随机、系统、分层、整群、多阶段 | 是 | 需要统计推断、代表性强的调查 |
非概率抽样 | 个体被抽到的概率未知或不确定,偏差大 | 便利、判断、滚雪球、配额、自愿 | 否 | 试探性研究、探索性调查、不追求严格代表性 |
自填式问卷调查
被调查者自主填写问卷,是主动参与填写的
面访式调查问卷
调查员面对面与被调查者对谈,问卷由调查员现场引导填写
实验调查
会涉及人为操控条件,观察实验对象反应
观察式调查
通过观察被调查对象行为,不涉及问卷填写
调查方式 | 分类 | 主要特点 | 优点 | 缺点 | 适用场景 |
---|---|---|---|---|---|
问卷调查 | 调查方式 | 通过书面问卷收集信息,可为纸质或电子 | 操作简便、覆盖面广、成本低 | 回应率不高、可信度受影响 | 市场调研、满意度调查、社会研究 |
面访调查 | 调查方式 | 调查员面对面与被调查者交流 | 信息详细、准确率高 | 成本高、耗时间 | 重点群体、复杂题目 |
电话调查 | 调查方式 | 通过电话与被调查者沟通 | 速度快、样本较易抽取 | 受电话设备限制、拒访率高 | 市场意见、客户反馈 |
观察法 | 调查方式 | 通过观察被调查对象的行为 | 可以获得真实行为数据 | 不适用于主观信息、不能了解内心 | 行为偏差分析、操作流程观察 |
实验调查 | 调查方法 | 控制变量,观察结果变化 | 可判断因果关系 | 成本高、操作复杂 | 科学研究、产品试验 |
系统调查 | 调查方式 | 以某一系统或程序进行数据收集 | 自动化、效率高 | 某些数据难收集 | 大数据分析、系统监控 |
电话问卷 | 调查方式 | 用电话进行问卷调研 | 快速、受访范围广 | 受访者不愿意、偏差大 | 市场调研、民意调查 |
面对面访谈 | 调查方式 | 调查员与受访者面对面交流 | 信息详细、误差少 | 时间长、成本高 | 深度调查、研究性调查 |
邮寄问卷 | 调查方式 | 通过邮寄方式发放回收问卷 | 方便广泛、受访者自主 | 反应慢、回收率低 | 远距离、大规模调查 |
小组讨论 | 调查方式 | 小团队集中讨论,收集观点 | 获取多层次信息 | 受影响较大、偏差大 | 市场定位、产品评估 |
滚雪球抽样 | 抽样方式 | 通过熟人介绍逐步扩大样本 | 适合难接触对象 | 偏差大、代表性差 | 难接触群体研究 |
随机抽样 | 抽样方式 | 以概率方式选择样本 | 代表性强、科学性高 | 设计复杂、成本大 | 科学研究、统计推断 |
分层抽样 | 抽样方式 | 按重要特征划分层抽样 | 样本代表性强 | 设计复杂 | 需要处理特征明显总体 |
整群抽样 | 抽样方式 | 先抽群,再调查群内所有或部分成员 | 省时省钱 | 可能偏差大 | 大范围地理调查 |
便利抽样 | 非概率 | 方便获取的样本,无随机性 | 简便、低成本 | 样本偏差大 | 初步探索、快速调查 |
判断抽样 | 非概率 | 由调查者选择代表性样本 | 操作简单 | 偏差大、不能推断总体 | 初步研究、专家建议 |
滚雪球抽样 | 非概率 | 自然扩散、逐层调查 | 适合偏僻或难接触群体 | 样本偏差大 | 社会学研究、偏远地区 |
误差大致可以分为两类:
- 抽样误差:由于样本不是总体的全部,抽取样本时产生的误差。你想知道某城市所有居民的平均年龄,但由于人口众多,你不能全部调查,只抽取了一个样本。“由于只抽取了部分样本,而不是全部居民,导致估计结果与真实值存在偏差”。
- 非抽样误差:除了抽样外,调查设计、操作中的其它误差。
本人故意纵而出现偏差”的理解
- 这是个体的主观行为,故意在调查中“作假、隐瞒或偏离真实”,不按正常规则。
- 这种偏离属于调查中的人为错误或偏差,不属于样本抽取中自然产生的抽样误差。
误差类别 | 具体类型 | 产生原因 | 说明 |
---|---|---|---|
抽样误差 | 随机抽样误差 | 由于只抽取样本,不是全部调查,样本与总体的差异导致 | 样本代表性不足,样本大小越大,误差越小 |
样本偏差误差 | 随机抽样不完全或抽样方法不当,导致偏差 | 样本不能很好反映总体,影响估计的准确性 | |
非抽样误差 | 响应偏差 | 被调查者有意或无意提供不真实信息 | 如隐瞒收入、虚报数据 |
访谈误差 | 访谈过程中因人员素质或提问方式引起偏差 | 采访员引导或表达方式不当,影响答案 | |
设计误差 | 调查方案设计不合理或问卷设计有缺陷 | 问题不明确、题目偏题或遗漏重要信息 | |
操作误差 | 调查实施中操作不当造成的误差 | 数据录入错误、样本遗漏等 | |
资料流失或回收偏差/无回答误差 | 回收问卷不全面或遗漏、样本未全部回收 | 导致样本不完整,影响代表性 | |
人为偏差 | 调查者有主观偏向,或参与者有成见 | 调查员引导、偏好或故意偏差 | |
系统误差 | 系统或设备的固有缺陷引起的误差 | 计量工具不准、环境干扰等 |
由抽样框(即抽样用的名单或记录)不完整或已过时造成的误差。这正符合题意:最初居民记载的登记单不完全反映当前实际居住情况,导致抽样结果与实际存在偏差。属于设计误差
回收偏差/无回答误差** 回收问卷不全面或遗漏、样本未全部回收
响应偏差也分为有意识和无意识,回答误差原因多半是无意的或受外界影响的。于有意识偏差(有意识误差)“带有主观故意
频数
频数是指“在某一类别或区间内,出现的次数”,如你统计班里同学的成绩,成绩在80-90分的有多少人? 假设统计结果是:在这个范围内有7个人。
这7个人的数量就是“频数”!
频率
它是“频数”占所有数据总数的比例。在总共50个学生中,成绩在80-90分的有7个人。
频率就是:7/50 = 14%,表示比例
频数分布表
它是把所有不同的类别或区间的频数整理成一张表格。
成绩区间 | 频数 |
---|---|
60-70 | 5 |
70-80 | 10 |
80-90 | 7 |
90-100 | 3 |
———— | |
这就是“频数分布表”。 |
累计频数
把每个类别的频数逐步加起来,得到“累计的数量”
使用上面表格,累积频数会是:
- 60-70:5
- 70-80:5+10=15
- 80-90:15+7=22
- 90-100:22+3=25
术语 | 本质 | 例子 | 表达形式 |
---|---|---|---|
频数 | 具体个数 | 喜欢某商品的有人20人 | 20人 |
频率 | 频数占总数的比例 | 20人/总人数=0.2(20%) | 0.2或20% |
比例(比例) | 部分占整体的比值 | 50%的学生是男生(比例:0.5) | 0.5或50% |
比率 | 两个数之间的关系 | 男:女=1:2,表示“男与女的比值” | 1:2 or 1/2 |
图形类型 | 适用场景 | 是否适合描述结构性问题 | 说明 |
---|---|---|---|
A. 条形图 | 展示不同类别的数值比较,比较明晰 | 一般适合各类别比较 | 但不专注于“比例结构” |
B. 饼图 | 显示“组成比例”,分部分代表整体的结构关系 | 非常适合描述结构性问题 | 利于直观显示各部分在整体中所占比例 |
C. 雷达图 | 多变量的空间分布,体现多维关系。 | 不太适合“结构性”描述 | 更适合展示多维指标关系 |
D. 直方图 | 展示连续变量的频率分布 | 不适合结构描述 | 主要用于数量分布情况 |
图形类型 | 特点 | 适用场景 | 是否符合“结构性研究” |
---|---|---|---|
A. 环形图 | 类似饼图,但通常中间空洞,显示不同部分占比 | 展示多个部分比例和结构关系 | 是,非常适合分析样本结构、多组成部分占比 |
B. 饼图 | 主要显示部分占整体的比例 | 展示组成比例 | 也适合,但题意偏向结构关系,有时用环形更直观 |
C. 直方图 | 展示连续变量的频率分布 | 数值分布、频次变化 | 不适合结构性问题,偏向数值特性 |
D. 茎叶图 | 展示数据的分布 | 数值分布、集中趋势 | 不适合结构性关系研究 |
环形图和饼图类似,但“环形图”在视觉上更清晰显示结构比例,特别适合多块组成结构的比例研究。

选项 | 含义 | 释义 | 典型用法 |
---|---|---|---|
A. 单变量值分组 | 只划分单一变量的值,直接分组 | 不是正式统计中的一种标准术语 | 常用“值分组”或“等级划分”描述,但不正式 |
B. 组距分组 | 根据组距(区间宽度)划分 | 正确,指用一定的区间长度依次划分变量 | 统计频数分布、制作直方图的常用方法 |
C. 等距分组 | 区间相等的分组 | 也叫“等宽分组”,与“组距分组”类似 | 常用于频率分布分析,但正式称呼是“组距分组” |
D. 连续分组 | 不太常用术语,没有明确标准 | 多指连续变量的分组,但不如“组距分组”具体 | 不常用,没有具体定义 |
分组方法 | 主要特点 | 适用场景 | 说明 |
---|---|---|---|
等级分组 | 根据变量的“等级”或“等级划分”进行分组 | 定性或定序数据 | 例如:优秀、良好、及格、不及格,直接划分等级 |
等比分组 | 区间长度比例递增或递减 | 统计特殊比例增长的数据 | 如:第1组:0-10,第二组:10-30(长度为20),第三组:30-60(长度为30) |
均分分组 | 将数据平均划分为几组 | 样本较大,追求均衡 | 例如:将数据平均分成4组,每组含等量数据 |
边界分组 | 根据实际边界值定义区间 | 有明确边界的统计需求 | 比如:人口年龄边界:0-10岁、11-20岁、21-30岁等 |
概念 | 含义 | 举例 | 作用或用途 |
---|---|---|---|
上限与下限之差 | 区间的跨度,即区间的长度(也叫组距) | 0-10的区间,差为10 | 反映区间宽度 |
组中值 | 上限与下限的中点(中值,即两者的平均值) | 0-10区间,组中值为(0+10)/2=5 | 代表整个区间的中心点,用于估算平均值等 |
最小值 | 组中的最小数 | 某组范围中的最小数,例如20 | 描述数据的最低极限 |
最大值 | 组中的最大数 | 某组范围中的最大数,例如50 | 描述数据的最高极限 |
图形 | 主要特点 | 适合描述 | 备注 |
---|---|---|---|
A. 条形图 | 比较不同类别的数值 | 类别比较 | 适合离散数据,不宜描述连续数据分布 |
B. 扇形图 | 展示各部分相对比例(如比例图) | 比例关系 | 不适合大批量连续数据,表达不了分布情况 |
C. 直方图 | 将连续数据划分区间,用柱子表示区间频数或频率 | 数据分布、形态、偏态等 | 最适合大量连续数据的分布描述 |
D. 饼图 | 展示各部分相对于整体的比例 | 比例表达 | 适合少数几个类别,不适合连续大量数据 |
图形类型 | 特点 | 适用场景 | 是否适合描述趋势 |
---|---|---|---|
A. 条形图 | 显示不同类别的数值比较 | 类别对比(如不同商品的销量) | 不适合,不能显示连续变化趋势 |
B. 直方图 | 显示数据的频率分布 | 统计连续变量的分布,例如成绩分布 | 不适合描述时间变化趋势 |
C. 箱线图 | 描述数据的分散、集中情况 | 观察数据的中位数、四分位数和异常值 | 不适合连续变化趋势显示 |
D. 线图 | 点与点之间连线,显示连续数据的变化 | 时间序列中数据随时间变化的趋势 | 最适合! |
图形 | 特点 | 适合描述的内容 | 图形示例 |
---|---|---|---|
A. 条形图 | 比较不同类别的数值或频数 | 类别比较 | 不适合两个连续变量关系 |
B. 对比条形图 | 两组条形图对比 | 两组类别或数据的对比 | 还是类别对比,不适合关系描述 |
C. 散点图 | 每个点代表一组两个连续变量的值 | 变量间关系(相关性) | 适合观察线性关系或其它关系 |
D. 箱线图 | 数据的分布、偏态、集中趋势 | 单变量的分布情况 | 不显示两个变量的关系 |
气泡图的特点
- 气泡图是在散点图的基础上加入“气泡大小”这个变量,用来展示三个变量之间的关系。
- 图中:
- **x轴:**第一个变量(比如“时间”或“收入”)
- **y轴:**第二个变量(比如“支出”)
- **气泡大小:**第三个变量(比如“销量”或“市场份额”)
A. 两个变量之间的相关关系
这是散点图的用途,不包括气泡的大小,不完整。
C. 两个变量的对比关系
对比关系更适合用条形图或柱状图。
D. 三个变量的对比关系
也可以用,但通常“描述关系”更偏向于“相关性”。
. 雷达图(蛛网图)的特点
- 雷达图可以同时显示多个变量(通常多达十几个),每个指标对应一个“辐射线”。
- 每个样本或对象的每个变量表现为一个“点”,在不同辐射线上。
- 连接这些点形成一个“多边形”,可以直观看到不同样本或对象在多维指标上的“相似性”或“差异性”。
- 雷达图的主要用途
- 用于多变量检测,比较多个对象在多项指标的表现。
- 可以直观看出各个变量的相似性或差异性,特别适合多样本、多指标的整体分析。
帕累托图
帕累托图是一种结合了柱状图和折线图的统计图,用来帮助分析哪些因素在总体中占据主要地位。
- 左侧的柱状图
- 表示不同原因(质量、服务、宣传、其他)对影响品牌的贡献大小。
- 柱子越高,说明该原因对影响最显著。
- 比如:
- 质量:占比45.5%,是影响最大的原因。
- 服务:45.5% - 31.2% = 14.3%
- 宣传:31.2% - 18.1% = 13.1%
- 其他:最后的少数原因,占比仅5.2%。
- 右侧的折线(累计百分比线)
- 表示累计影响占总影响的比例。
- 线上的百分比(比如45.5%、76.7%、94.8%、100%)依次累积这些原因的贡献。
- 例:
- 质量原因贡献45.5%
- 服务累计到76.7%(45.5% + 31.2%)
- 宣传到94.8%
- 其他整体达到100%。
选项 | 说明 | 例子 |
---|---|---|
A. 众数 | 统计中出现频次最高的变量值,也是最常见的值(众数的定义) | 比如:调查中最常被投票数是“苹果”这个水果就是众数 |
B. 中位数 | 将数据由小到大排序后,处于中间位置的数 | 排序后,第10个位置的数就是中位数 |
C. 四分位数 | 将数据分为四个等份的边界值 | 25%、50%、75%的分割点 |
D. 平均数 | 所有数据值的总和除以数据个数 | 计算平均成绩、平均身高等 |
术语 | 说明 | 举例说明 |
---|---|---|
众数 | 出现频次最高的变量值。 | 某调查中最常出现的喜欢的水果是苹果,苹果的频次最高。 |
非众数频数 | 除众数以外所有变量的频数之和。 | 所有其他水果的总频次之和。 |
总频数 | 所有变量频数之和。 | 所有参加调查的人数;比如:喜欢苹果10人,香蕉8人、西瓜7人,总和为全体人数。 |
异众比例(占比) | 非众数频数占总频数的比例。 | 比例=非众数频数/总频数。 |
离散系数(Coefficient of Variation, CV),也叫“变异系数”,用百分比表示,是标准差与平均数的比值,反映数据的相对离散程度。
- 比较不同数据集的变异性:比如不同单位、不同均值的数据,离散系数提供了统一的尺度。
- 判断数据稳定性:离散系数越小,数据越集中越稳定。
- 什么是四分位差?
- 四分位差(Interquartile Range, IQR):反映数据中中间50%的距离,也就是**上四分位数(Q3Q_3Q3)减去下四分位数(Q1Q_1Q1)**的差值。
- 四分位数的定义
- Q1:第一四分位数(下四分位数),将数据按大小排序后,25%的位置所在的数值。
- Q3:第三四分位数(上四分位数),将数据按大小排序后,75%的位置所在的数值。
指标 | 计算方式 | 优缺点 | 适用场景 |
---|---|---|---|
平均差 | 数据点与均值的绝对差的平均值 | 更直观,反映实在的偏离情况,但对离群值敏感较低 | 需要比方差更易理解的情况下使用 |
方差 | 数据点与均值的差的平方的平均值 | 数学性质好,便于推导和统计分析,但单位是数据单位的平方 | 统计推断、模型分析、特征提取等 |
标准差 | 方差的平方根 | 保持单位一致,更直观,便于与数据比较 | 基本的离散程度指标,用于描述数据的波动范围 |
选项 | 含义 | 说明 |
---|---|---|
A. 标准分 | 一个数值,表示该数据偏离平均数的程度,用标准差衡量 | 也叫“z分数”,用来标准化数据,表示距离平均的标准差倍数 |
B. 离散系数 | 标准差除以平均数,表示数据的相对离散程度 | 用于衡量变量的变异相对强度 |
C. 方差 | 标准差的平方,衡量数据的整体离散程度 | 描述数据离散的绝对指标 |
D. 标准差 | 测量数据散布的尺度,单位与原数据相同 | 反映数据的波动或变异大小 |
标准分”(z-score)定义为:数据点与均值的离差除以标准差
这个规则是描述正态分布(钟形曲线)数据的特点:
- 在平均数±1个标准差范围内,大约有68%的数据
- 在平均数±2个标准差范围内,大约有95%的数据
- 在平均数±3个标准差范围内,大约有99.7%的数据
离散系数 = 标准差/平均数
用来衡量不同数据集或不同单位的离散程度,具有无量纲特性,方便比较。
主要用途
- 比较多组数据的离散程度:
- 不同组的平均数不同,用标准差比较不合理。
- 用离散系数可以直接比较它们的相对变异性。
- 应用场景:
- 不同行业、不同产品、不同地区的财务指标波动情况。
- 不同样本组的变异大小
- 偏态系数(偏度)定义
- 偏度(Skewness):用来衡量数据分布的偏斜程度,即非对称性。
- ·如果偏度为0,意味着分布关于平均值对称(正态分布即为典型例子)。
- 偏度的值可正可负,正偏意味着左长尾,负偏意味着右长尾。
- 偏态系数的特性
- 对称分布(如正态分布):偏度(偏态系数)等于0。
- 正偏分布(右偏):偏度>0
- 负偏分布(左偏):偏度<
偏态系数绝对值 | 分布特征 |
---|---|
0 | 完全对称 |
0 ~ 0.3 | 轻微偏态(几乎对称) |
0.3 ~ 0.5 | 较低偏态(偏斜较小) |
0.5 ~ 1 | 中等偏态(偏斜明显但不厉害) |
> 1 | 高度偏态(偏斜非常明显) |
峰态的三种类型:
- 正态峰态(mesokurtic):峰态系数等于0,与标准正态分布的峰态相同。
- 尖峰态(leptokurtic):峰态系数大于0,比标准正态分布更尖锐,数据更集中于均值附近,尾部较重。
- 扁平态(platykurtic):峰态系数小于0,比标准正态分布更平坦,数据更分散,尾部较轻。
与标准正态分布的关系:
标准正态分布(均值为0,标准差为1的正态分布)的峰态系数被定义为0。这是统计学中的一个基准,用于比较其他分布的峰态。
什么是“众数”?
- 简单说:在一组数据里,出现次数最多的那个就是“众数”!就像在投票里,出现最多的那个人就是“当选的人”。
集中趋势”的含义:
- 指数据中“集中”或者“典型”的值。
- 常用的衡量方法:
- 众数:出现最多的值
- 中位数:排序后中间的值
- 平均数:总和除以总
题目问“描述数据的集中趋势”,那么最合适的工具是“中位数”。
中位数可以反映中间位置的数据,对于分类数据(赞成、中立、反对)来说,中位数可以判定中间的类别。
什么是离散程度?
- 简单来说,就是衡量数据分散或变动的程度。
- 数值越大,说明数据越分散;数值越小,说明数据越集中。
所涉及的统计量:
- 方差:用于描述数据的离散程度,计算需要所有数据的平方偏差和。
- 极差(Range):最大值减最小值,即 96 - 62 = 34,是最简单的离散指标。
- 标准差:方差的算术平方根,也反映离散程度,但需要完整数据。
- 变异系数:标准差与均值的比值。
常用的离散度指标:
- 极差 (Range):
- 计算最大值减最小值
- 公式: 最高分 - 最低分 = 96 - 62 = 34
- 代表全部数据的最大散布范围
- 可以用已知最大和最小值简单计算
- 方差、标准差:
- 需要全部数据(所有成绩),无法仅靠已知最大、最小和平均算出
- 变异系数:
- 需要标准差和平均值,也无法单凭已知最大、最小值算出
指标 | 计算复杂性 | 各自特点 | 代表意义 | 典型用途 |
---|---|---|---|---|
极差 | 简单 | 只反映范围,敏感极端值 | 最高和最低值的差 | 快速了解数据总体范围 |
方差 | 中等 | 反映整体离散程度 | 数据偏离均值的平均平方 | 精细分析数据离散程度,反映数据的离散程度,更全面、精细 |
标准差 | 中等 | 和方差类似,单位一致 | 更直观 | 计算较复杂,需所有数据描述数据变动范围.单位和原始数据相同(比方差更直观) |
变异系数 | 简单 | 比值,单位无关 | 不同行业之间比较变异 | 相对离散程度的比较适合比较不同数据组的变异程度(不同行业或不同指标) |
偏态的定义
- 对称分布: 中位数=平均数
- 左偏(偏左): 中位数 > 平均数
- 右偏(偏右): 中位数 < 平均数
异常值的判断方法:
在正态分布中,常用的判断异常值的方法是基于标准差的规则:
- 一般规则: 若某个值超过平均值±3个标准差,则可以考虑为异常值。
举例法,或者简单推一下
什么是“相对统计量”或“相对离散程度的指标”?
- 相对指标主要是用来描述不同样本或不同组数据的离散程度相对大小。
- 常用的相对离散指标是:变异系数(Coefficient of Variation, CV),又称“离散系数”。
各个选项的解释:
-
A. 极差(Range):
- 描述最大值和最小值的差,属于绝对指标,不能用来进行不同数据集间的相对比较。
-
B. 平均差(Mean Absolute Deviation):
- 描述每个数据到平均数的绝对偏差,同样是绝对指标,不适合作为相对指标。
-
C. 标准差(Standard Deviation):
- 描述数据的离散程度,但还是绝对指标,不考虑平均数大小,不便于不同尺度之间的比较。
-
D. 离散系数(Coefficient of Variation):
A. 标准差不同:
- 这是事实,但不能作为“不能比较”的原因。
- 不同的标准差本身可以进行比较,只要单位一致。
B. 方差不同:
- 方差不同,反映变异程度不同,但同一组数据的不同情况下,方差的差异是可以比较的(在相同单位内)。
C. 数据个数不同:
- 数据个数不同,不影响标准差的本质,但会影响估计的精度和统计可靠性。