数据分析面试题--数理知识点1

news2024/11/25 19:34:22

目录标题

      • 1,python统计一段话每个单词出现的次数
      • 2,SQL中如何利用replace函数统计给定重复字段在字符串中的出现频率?
      • 3,常见的统计分析方法有哪些?拿到数据如何分析
      • 4,参数估计和假设检验的联系和区别
      • 5,如何用统计学的角度看待新冠疫情?
      • 6,方差分析
      • 7,商城每天的人流量属于什么分布?泊松分布和二项分布的关系
      • 8,各种分布之间的关系
      • 9,简述逻辑回归
      • 10,解释正态分布
      • 11,100个人,初始各有100块,每人每分钟随机给别人1块钱,问最后的分布
      • 12,随机误差的分布
      • 13,两类错误
      • 14,置信区间、置信度
      • 15,辛普森悖论的例子
      • 16,相关系数
      • 17,滴滴出行中,司机端的订单构成是什么样的? 头部优秀司机聚集大量订单,还是订单分布比较发散。

牛客网

1,python统计一段话每个单词出现的次数

sentence = 'XXX XX XXX XX X'
words = sentence.split()
dic = {}
for w in words:
	if w in dic:
		dic[w] +=1
	else:
		dic[w] = 1
for w,cnt in dic.items():
	print('单词%s出现%d'%(w,cnt))

2,SQL中如何利用replace函数统计给定重复字段在字符串中的出现频率?

出现次数/总字符串长度

# all_string代指完整字符串, target_string指代目标字段
select  (length('All_string')-length(replace('All_string','target_string','')))/length('All_string') as p
from table

replace(‘All_string’,‘target_string’,‘’)–将字符串中目标字段替换为空,再计算长度

3,常见的统计分析方法有哪些?拿到数据如何分析

1,描述统计
数据的概括性度量(集中趋势、离散趋势、偏态和峰度等)、数理统计(概率分布等)
图表描述方法就是使用各类图表在不同的维度下描述数据,比如直方图、饼图、雷达图、散点图等等。
而数学描述方法的分析方法更丰富,常有集中趋势分析、离散程度分析、相关分析三种分析方法。

2,推断统计
检验统计量及抽样分布、参数估计、假设检验,以及它们间的联系和区别
重点关注假设检验的思想及使用场景,以及一些重要的概念(第一类和第二类错误、置信区间和置信度)
3,列联分析与独立性检验
4,方差分析
方差分析是通过检验各总体的均值是否相等来判断分类型自变量是否对数值型因变量有影响
5,相关分析与回归分析
相关分析是相关关系,回归分析是因果关系,各自的使用场景
6,主成分分析与因子分析
7,时间序列分析
8,非参数检验

4,参数估计和假设检验的联系和区别

联系:
都是样本估计总体,都是建立在概率基础上的统计,可以相互转换
区别:
1,目的不同:参数估计是用样本统计量估计总体参数的方法;假设检验是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立
2,方法不同:参数估计是以置信区间(大概率)估计总体参数;假设检验是利用小概率事件是否发生来判断假设是否成立

5,如何用统计学的角度看待新冠疫情?

1,新冠病毒潜伏期(统计学知识点:数据分布)
疾病的潜伏期通常可以用对数正态分布来近似,我们现阶段采取的隔离措施是将一般潜伏期设定为14天内,但是在后续的病例中我们发现个别患者的潜伏期长达24天,并不是病毒发生了变异,而是新冠病毒的潜伏期实际呈右偏状态,属于长尾分布,较长潜伏期的病例并非不会出现,而是概率很小。

2,新冠病毒传播(统计学知识点:随机过程)
病毒传播实际上是一个随机事件,这一过程可以用随机微分方程来进行模拟,比如SEIR模型。
(1)易感状态S (Susceptible)∶表示潜在的可感染个体。在以往的一些文章中,会有学者将S设置为一个地区的总人口数,导致模型中的感染人数预测结果偏高,这是因为实际上只有有机会接触到感染者的个体才属于易感人群,因此易感状态个体的数量最好由实际数据去拟合。
(2)潜伏状态E(Exposed)∶已被感染但尚未表现出感染症状的个体。
(3)感染状态I(Infected)∶已有感染症状并且可以将疾病传染给其他人的个体。
(4)移除状态R(Removed)∶已经治愈并获得免疫力或已经死亡等不会再被传染的个体。记N为人群中个体的总数量,则有N = S+E+Ⅰ+R。

3,新冠患者诊断(统计学知识点:模型评价)
各种检测手段和医生的诊断结合起来类似一个判别模型,患者的各项指标输入到这个模型得出最终的分类结果,患者的实际患病情况和医生的诊断结果共同构成混淆矩阵,当误诊率越低,说明当前的模型(诊断方法)越好。

4,疫情分析观测指标(统计学知识点:基本统计指标)
感染率=感染人数/总人口数
病死率=因某种病死亡人数/患病人数
死亡率=因某种疾病死亡人数/总人口数=感染率*病死率

6,方差分析

研究内容:连续型因变量与类别型自变量的关系,当自变量的因子中包含等于或超过三个类别情况下,检验其各类别间平均数是否相等的统计模式
分类:依照因子数量而可分为单因子方差分析、双因子方差分析、多因子方差分析三大类

7,商城每天的人流量属于什么分布?泊松分布和二项分布的关系

1,泊松分布。泊松分布是指某段连续的时间内某件事情发⽣的次数
2,泊松分布是⼆项分布的近似,当⼆项分布的p很⼩,重复试验次数n很⼤时,两者分布接近。
如果把一段时间分割成⽆数的⼩份,那么每⼀小段时间内发生的事件都是独立的,在⼀个极小的时间内,⼈们进出的概率为p。那么在一天内,就有n次发⽣⼈们进出这个事件。⽽当n很⼤,p很⼩,二项分布计算概率的公式会趋向于泊松分布。

8,各种分布之间的关系

二项分布的极限是泊松分布,几何分布的极限是指数分布。由正态分布可推导出卡方分布、t分布、f分布

9,简述逻辑回归

用于二分类问题,logsistic函数+回归模型。Sigmoid 函数是一个S形曲线,可以将任意值映射到介于0到1之间的值,然后使用阈值分类器转化为0或者1,最终得到离散结果

10,解释正态分布

对于成绩、身高等,当数量足够大时,总体都是服从正态分布的,符合大部分在中间,只有极少数分布在极大值或者极小值,画在图中是一个钟型的分布。
正态分布是生活中最常见的分布,因为根据中心极限定理,不管总体的分布是什么,从均值为a,方差为b的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为a,方差为b/n的正态分布

11,100个人,初始各有100块,每人每分钟随机给别人1块钱,问最后的分布

每个人的条件完全相同时:均匀分布。因为在每个人发钱和得钱的概率及金额完全相等的情况下,最终的结果将是大家的财富值一样。(完全公平情况)
每个人之间并非独立时:正态分布。根据中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。
幂律分布:在每个人发钱和得钱的概率及金额不等时,最终的财富分配是少数人掌握社会中大量的财富。(类似于现实生活中的社会财富分配)

12,随机误差的分布

正态分布

13,两类错误

第一类错误α叫弃真错误或显著性水平,即原假设为真时却被我们拒绝的概率;第二类错误β叫采伪错误,即原假设为伪我们没有拒绝的概率。在一定样本量的情况下,减小一类错误必然会增大另一类错误,在实践中我们一般会优先控制第一类错误,因为原假设是非常明确的

14,置信区间、置信度

不能简单给出一个估计值,还需要给出一个可信度及在此置信度下对未知参数进行估计的置信区间
经过多次抽样(一次抽样有多个数据,一次抽样构建一个置信区间),重复构建多次的置信区间中覆盖总体参数真值的次数所占比例为置信度,也称为置信水平或置信系数。置信度通常有90%、95%和99%,由于95%的置信度计算出来的置信区间具有较高的可信度,而且波动幅度相对不会太大,在区间估计中普遍会将置信度设置为95%。
在此置信度下,再由样本统计量对总体参数进行区间估计得到置信区间。

15,辛普森悖论的例子

在这里插入图片描述
美国加州大学研究生录取数据中,总计来看,男生录取率为44%,女生录取率为35%。虽然总体上,男生录取率高于女生,但是拆开专业后发现,几乎每个专业均是女生的录取率更高。
造成原因:男女生在专业上的分布不一样,男生人数主要集中在录取率较高的专业,女生主人数要集中在录取率较低的专业,这样整体看来,就是女生录取率更低了。

定义:⾟普森悖论指在某个条件下的两组数据,分别讨论时都会满⾜某种性质,可是⼀旦合并考虑却可能导致相反的结论。

如何避免:需要选择将数据分组or将 它们聚合在⼀起。我们就要思考因果关系:数据如何⽣成,基于此,哪些因素会影响我们未展示的结果?
本例中,性别会导致兴趣的不同,而兴趣会决定专业的不同。所以专业因素不可忽略,应该选择拆分专业去观察,操作是控制男女在专业上人数是相同的,这样更有利于判断因果关系

16,相关系数

协方差的大小受变量的相关程度及变量的方差影响,并不能真实反映两个变量的相关程度,而统计学家皮尔逊为了充分反映变量之间线性相关程度引入了相关系数。
相关系数在协方差基础上进行了标准化,消除了两个变量变化幅度的影响,能够充分反应两个变量的相关关系。
范围是[-1,1]。相关系数越趋近于0,表示两个变量相关程度越弱。相关系数越接近于1,两个变量的正相关程度越高。相关系数越接近于-1,两个变量的负相关程度越高。

17,滴滴出行中,司机端的订单构成是什么样的? 头部优秀司机聚集大量订单,还是订单分布比较发散。

在较健康的供给端体系中,司机端的订单构成应为倒三角或者菱形分布,即头部和腰部司机的订单较多,尾部的订单较少;而在初期时则是头部效应明显,订单集中在头部,后期随着司机和订单量的增多,不可能由头部司机撑起大部分订单的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/168002.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

网络实验之OSPF路由协议(一)

一、OSPF路由协议简介 开放式最短路径优先(Open Shortest Path First,OSPF)路由协议是用于网际协议(IP)网络的链路状态路由协议。该协议使用链路状态路由算法的内部网关协议(IGP),在…

NIO笔记

一. NIO 基础 non-blocking io 非阻塞 IO 1. 三大组件 1.1 Channel & Buffer channel 有一点类似于 stream,它就是读写数据的双向通道,可以从 channel 将数据读入 buffer,也可以将 buffer 的数据写入 channel,而之前的 st…

SAP ABAP 代码修改自动比较对象版本一致

第一步,找到SE38/SE37代码修改的出口 SMOD中查找 第二步,实施增强 CMOD中添加增强并激活,如下图 第三步,添加代码 如上图两个双击添加并修改代码 ZXSEUU08中与 ZXSEUU01代码一致,如下 *&----------------------…

【年度总结】我的2022年-职业生涯大转折

【年度总结】我的2022年-职业生涯大转折2022总结大厂的苦与乐找工作的焦虑再起启航2023展望持续刷题持续学习捡起博客在漩涡中疯狂挣扎的一年 2022总结 大厂的苦与乐 上半年主要在搞中台,需要对接的其他团队比较多,每天都在对接需求、优化需求。同时还…

Python NumPy 创建数组(ndarray)

前言NumPy(Numerical Python的缩写)是一个开源的Python科学计算库。使用NumPy,就可以很自然地使用数组和矩阵。NumPy包含很多实用的数学函数,涵盖线性代数运算、傅里叶变换和随机数生成等功能。本文主要介绍使用Python NumPy 创建…

鉴源论坛 · 观辙丨基于机器学习的汽车CAN总线异常检测方法

作者 | 张渊策 上海控安可信软件创新研究院研发工程师 来源 | 鉴源实验室 目前机器学习是研究车辆网络入侵检测技术的热门方向,通过引入机器学习算法来识别车载总线上的网络报文,可实现对车辆已知/未知威胁的入侵检测。这种基于机器学习的异常检测技术普…

chrono_duration(一)

文章目录chrono简介std::chrono::durationduratio基本介绍基本概念使用引入std::ratio 参数深入特化的duratio改造之前的代码静态成员函数 count原型例子构造函数支持加减乘除运算编译细节支持比较运算符查询范围类型转换例子引入修改seconds的范围浮点类型系统特化的duratio自…

os模块的使用方法详解

os模块os模块负责程序与操作系统的交互,提供了访问操作系统底层的接口;即os模块提供了非常丰富的方法用来处理文件和目录。使用的时候需要导入该模块:import os常用方法如下:方法名作用os.remove(‘path/filename’)删除文件os.re…

Unidbg模拟执行某段子so实操教程(一) 先把框架搭起来

一、目标 最近又开始研究Unidbg了,费了好大劲,没有跑起来。今天就先找个软柿子捏捏看。 今天的目标是 之前研究的 某段子App签名计算方法(一) 某段子App版本 5.5.10 二、步骤 先搭起框架来 在 /unidbg/unidbg-android/src/test/java/ 下面新建一个 …

K8S 三种探针ReadinessProbe、LivenessProbe和StartupProbe 之探索

一、事件背景因为k8s中采用大量的异步机制,以及多种对象关系设计上的解耦,当应用实例数增加/删除、或者应用版本发生变化触发滚动升级时,系统并不能保证应用相关的service、ingress配置总是及时能完成刷新。在一些情况下,往往只是…

Python爬虫之Scrapy框架系列(4)——项目实战【某瓣Top250电影更多信息的获取】

前言: 上篇文章使用Scrapy框架简单爬取并下载了某瓣Top250首页的排名前25个电影的电影名。 太寒酸了,这篇文章咱就来仔细搞一搞,搞到更加详细的信息!!! 目录:1.分析2.使用scrapy shell提取电影详…

进程信号--Linux

文章目录信号?kill -l 指令查看所有信号信号的工作流程信号产生1.通过终端按键产生信号2.通过系统调用接口产生信号3.通过软件产生信号4.硬件异常产生信号信号接收信号处理总结信号? 进程间的通信我们了解到有管道通信,有共享内存的通信。这…

flowable编译

git clone -b flowable-release-6.7.2 https://github.com/flowable/flowable-engine.git下载之后File-Open,打开工程,modules是核心代码模块 找到flowable-root.xml按下altf12 ,启动Terminal终端输入命令:mvn clean package -Ds…

《Buildozer打包实战指南》第三节 安装Buildozer打包所需的依赖文件

目录 3.1 安装依赖软件包 3.2 安装Cython 3.3 设置环境变量 3.4 安装p4a、Android SDK、NDK以及其他编译文件 Buidozer这个打包库下载安装完毕之后,我们还需要下载一些打包安卓apk所需要的依赖文件。 3.1 安装依赖软件包 首先输入以下命令更新Ubuntu上的软件包…

使众人行:如何带领一群人把事做成?

你好,我是雷蓓蓓,一名程序员出身的项目经理,曾任网易杭研项目管理部总监。 我所带领的网易杭研项目管理部,从2011年成立以来,就一直在互联网项目管理领域深耕,为网易云音乐、网易严选、云计算、智慧企业等…

智慧社区管理系统改造方案

伴随着城市发展的持续加速,许多在建智慧社区和老旧小区智能化改造都在有规划的展开着。如今许多老旧小区在展开设备升级,许多小区智能安防设备、物业管理服务系统软件、社区综合服务平台及其监控器设备等都会展开智能化改造。但是,很多人对老…

17.优于select的epoll

优于select的epoll epoll 理解及应用 select复用方法其实由来已久,因此,利用该技术后,无论如何优化程序性能也无法同时接入上百个客户端(当然,硬件性能不同,差别也很大)。这种select方式并不适…

IIC驱动中景园0.96寸OLED

驱动硬件介绍 1、驱动电压3.3到5,但是正点的也是这个芯片说用3.3 5会烧坏掉。 2、RST 上的低电平,将导致OLED 复位,在每次初始化之前,都应该复位一下 OLED 模块。而我们使用四线,里面就没有复位了 3、裸屏有多种接口方式(驱动芯片为SSD1306) 6800、8080 两种并行接口方…

Redis应用2(Redison)

不推荐使用application的配置方式,因为会替代spring内部的对于redis的配置方式 注意:如果redis数据库没有密码,不要使用 config.useSingleServer().setPassword("") 的形式,直接跳过setPassword()就可以,配置类写法如下: Configuration public class RedisConfig…

MySQL进阶——索引

一、索引及其分类 1.索引的概念 索引是一种特殊的文件,包含着对数据表中所有记录的引用指针通俗点说,索引就好比是一本书的目录,能加快数据库的查询速度例如需要遍历 200 条数据,在没有索引的情况下,数据库会遍历全部…