CDA level II 知识点 根据模拟题抱佛脚速记

news2024/12/28 9:10:28

第一章

市场调研的基本步骤:提出问题-->理论推演-->收集材料-->构建模型-->归因分析。

定性研究方法:1、文案调查法;2、深度访谈法;3焦点小组座谈法;4、投影技法。

一般离中趋势的指标有:标准差、变异系数、平均差等;

集中趋势的有:平均数、众数、中位数

直方图  可以看分布趋势

梯度分析法:逐步寻找最优解。

发现异常值的方法:均值加减标准法。

ETL:数据提取--转换---清洗----装载。

元数据就是描述数据的数据。

概率抽样(可控)和非概率抽样(不可控)。

第二章

中心极限定理:数据量足够大的情况下,样本均值是接近正态分布的。

AB实验:两组实验验证,一组对照,一组实验。

T检验:针对小样本、均值、找差异。

F检验:问卷、实验、因素分析,影响是否显著,组间。

卡方分布:方差,区间估计问题,单个正态总体方差检验。

置信区间:首先计算均值标准误差:S_{x} = \frac{S}{\sqrt{n}} ;s是均值,n是个数。再计算区间:

X\pm t*S_{x}

拒真:\alpha错误,原假设为真却拒绝。p(拒绝H0|H0正确)=\alpha

取伪:\beta错误,原假设为假却接受。

假设检验步骤:建立假设-----选择统计量,给出拒绝域形式------选择显著性水平-----给出拒绝域。

原假设想推翻,备择假设要支持。

SST=SSM+SSE;

单因素分析中,偏方差平方和的自由度为r-1,误差平方和的自由度为n-r。

回归平法和p,残差平方和n-p-1。

方差分析分析的是均值,不是方差。

影响因素:组内是随机因素,组间是随机因素和系统因素。

回归系数检验肯定是t检验。相关系数为(-1,1)之间。

第五章

常用的相关性的度量方法:

  • 两个连续变量使用皮尔逊相关系数。
  • 两个顺序序列使用斯皮尔曼相关系数。
  • 一个连续一个顺序使用肯德尔曼相关系数。

主成分分析计算步骤:主成分建模,标准化处理------计算特征值、特征向量(协方差矩阵,特征值就是主成分的方差)--------选取主成分个数。

主成分的特点:

  • 1、主成分的方差依次由大到小。
  • 2、主成分的个数远小于变量个数。
  • 3、主成分之间互不相关。
  • 4、原始变量都是主成分的线性结合。

主成分分析在数学上的表示:将原随机变量的协方差矩阵变成对角矩阵。

主成分可以通过特征值分解来实现。

主成分是一种线性降维,有局限性。

主成分分析是组合的过程,因子分析是分解的过程。

因子旋转分为正交和斜交。

因子分析的KMO检验,变量越相关,KNO越大,区间在(0,1).

因子分析的步骤:因子载荷矩阵------因子旋转------公共因子。

因子载荷矩阵是用来表示变量与因子之间的关系。

因子分析假设:简单来说共同因子与公共因子之间不相关,他们自身也不相关。

逻辑回归系数代表自变量对几率的对数的影响。逻辑回归属于广义线性回归。

逻辑回归算法:通过逻辑回归模型计算得到y后,通过公式计算得概率p。

p=\frac{1}{1+e^{-y}}

线性回归假设前提:

  • 1、解释变量不相关
  • 2、随机项满足正态分布
  • 3、解释变量与随机项不相关
  • 4、随机序列不相关

R^{2}是指回归平方和和总离差平法和的比值。

矩阵n*p,一般n为样本量,p、k为变量个数。

在多元线性回归中,遇到多重共线性可以用:逐步回归、正则、偏最小二乘法。

多重共线性是指变量之间还存相关性。

自变量检验多重共线性使用方差膨胀因子VIF。

评价估计量的指标:无偏性、有效性、一致性。

最小二乘法也适用多元线性回归;在系统估计中,最小二乘法是唯一的最小方差估计。

回归系数的估计方法只有最小二乘法。

回归系数检验使用T检验

线性检验使用F检验。

线性回归的被解释变量为连续型,逻辑回归的被解释变量是分类变量。

多元回归中,残差图的绘制,横为预测值,纵为残差。

回归系数中p>|z|表示参数显著性,超过0.05就是不显著。

在多元回归中,解释力度看r-squared。

SSE=n-p=No.observation-dfmodel-1;

SSR=p

聚类分析一般两种:

  • 聚类:变量归一化-------分布转换(哑变量转换)-------主成分-------聚类。
  • 发现异常值:变量归一化------主成分-------聚类。

系统聚类:可以帮助做分类决策,直观但不适合做大数据。

k-means:大样本就是k不能确定。

聚类是无监督学习。

时间序列

winter模型用于趋势成分和季节成分序列的预测。

hotl模型用于对线性趋势的预测。

分解法与winter相似。

在时间序列中,均值用于表述数据的趋势变化。

方差、标准差、偏度则用于描述离散程度和分布形状。

arma模式:

AR(p)MA(q)ARMA(p,q)
自相关拖尾q步截尾拖尾
偏相关p步截尾拖尾拖尾

影响时间序列:长期趋势变动、季节变动、循环变动、不规则变动。

自回归中AR对自己进行预测,数据需要平稳,如果不平稳需要做差分。

AM关注误差项的累计。

AR模型平稳的判别方法有:单位根判别法、平稳域判别法、时序图。

第六章

因果图又称鱼骨头,鱼头在右侧是原因型。

类型有三种:原因型、决策型、整理问题型。

鱼骨头中:鱼头是目标,鱼尾是问题和现状,鱼椎就是完成的过程和影响因素。

帕累托图:找到影响最大的少数因素。

散点图:两个变量之间的关系。

关联图:找多因素之间的关系。

亲和图:找到其他不易发现的关系。主要用于定性分析。

其他

用户标签是基于业务经验,有很强的主观性。

麦肯锡问题分析方法:恢复原状型、追求理想型、防范潜在型。

连续变量补充缺失值,使用插值法、EM算法、随机森林。

QQ图用来检验两个分布是否一样。

数据完整性:实体完整性、参照完整性、用户完整性。

五问法的角度:制造、检验、体系。

第二份模拟题

一、选择题

1、二次规划问题求解方法:拉格朗日法、内点法、椭球法

2、求解整数规划的方法:分支定界法、割平面法、隐枚举法

3、将普通线性规划问题转换为标准型:

(1)通过松弛变量或剩余变量将一般线性问题的约束条件中的不等式转化为等式

(2)通过变换(比如同乘以-1)将约束条件右端的常数转换为非负数

(3)将决策变量转换(比如加入新变量量)为非负数

4、是一非矩阵工具:用来理解似是而非的问题原因

5、整理问题型鱼骨图适用范围:各要素与特征值是结构构成关系

原因型鱼骨图适用范围:各要素与特征值存在原因关系

6、鱼骨图创建图形的方式:分散分析法、原因枚举图

7、自回归模型AR模型:

  • (1)用自身的数据进行预测
  • (2)时间序列数据必须具有平稳性
  • (3)只适用于预测与自身前期相关的现象
  • (4)关注模型中往期的影响的累加

8.非线性趋势预测:简单指数平滑、指数模型、多项式模型

9.消除模型异方差的方法:加权最小二乘法、方差稳定性变化法、Box-Cox变换法

10.逻辑回归的预测值=logit(P)=ln(P/1-P)

11、解决回归模型的多重共线性问题:

(1)逐步回归

(2)正则

(3)偏最小二乘

12.检验原始变量能否做因子分析的方法:相关系数矩阵、KMO检验、反映像相关矩阵

13.线性无关=协方差为0

14.假设检验的步骤:

(1)建立假设

(2)选择检验统计量

(3)给出拒绝域形式

(4)选择显著性水平

(5)给出拒绝域

15.置信区间:点估计+-置信度(根据置信水平决定)*标准误,标准误=标准差/sqrt(样本量)

16.按事件的发展过程来看,用户画像准确性验证分为事中和事后,其中事中指用户开发过程中,而事后则是指画像上线运用于业务后。不同阶段的验证方法也有所不同。

事中验证:模型验证指标、抽样验证、交叉验证

事后验证:真实数据验证、A/B Test、业务反馈数据验证

17、主数据:指系统间共享数据(例如,客户、供应商、账户和组织部门相关数据);主数据是组织的最关键、最核心的数据,重点用来解决异构系统之间关键数据的不一 致、不正确、不完整等问题。

交易数据:交易数据是业务处理过程中或事物处理所产生的数据,也称业务数据

元数据:描述数据的数据或关于数据的结构化数据;元数据是帮助查找、存取、使用和管理信息资源的信息

数据元:用一组属性描述定义、标识、表示和允许值的 数据单元,数据元由三部分组成:对象、特性、表示。

18.改变数据量纲的方法:归一化、z-score标准化、取对数

19、建立逆向评分:旧取值J个,则新取值=(J+1)-旧取值

20、根原因识别的工具:因果图、矩阵图、五问法等

21、严平稳:均值、方差、协方差等统计特征都不会受到时间的影响

22、宽平稳:假设一时间序列数据,均值、方差为常数,协方差只与时间间隔k有关

23.随机序列预测:简单指数平滑

Holt指数平滑:线性趋势预测

指数模型:非线性趋势预测

多项式模型:非线性趋势预测

24、多元线性回归模型的古典假设:

(1)残差的均值恒定为0

(2)同方差和无自相关假定

(3)随机扰动项与解释变量不相关假定

(4)无多重共线性假定

25、降维的方法:PCA(主成分分析)、FA(因子分析)、MDS(多维度尺度分析)

26、检测异常值的方法:箱线图、散点图、学生化残差指标

二、多选题

1.信息的组成:数据、元数据(描述数据的数据)

2.时间序列的组成成分:趋势、季节变动、循环变动、不规则变动,它们与观测值的关系可以通过加法模型和乘法模型

3.聚类分析时候,变量相似性的测量尺度:间隔尺度、顺序尺度、名义尺度

4.分层标签:RFM、客户价值

三.材料题

1.混淆矩阵指标讲解:

精度(precision, 或者PPV, positive predictive value) = TP / (TP + FP)

召回(recall, 或者敏感度,sensitivity,真阳性率,TPR,True Positive Rate) = TP / (TP + FN) 

特异度(specificity,或者真阴性率,TNR,True Negative Rate) = TN / (TN + FP)

AUC:ROC曲线下面积

SST总方差的自由度为SSE+参数个数-1;

SSR=参数个数-1。

2.逻辑回归的参数计算方法:牛顿法、梯度下降法

3.使用哑变量的前提:建模中出现分类变量

4.数据标准化方法:Z-score标准化、区间缩放、向量单位化

检测异常值:箱线图、散点图、3sigma法则

5.时间序列数据:一个个体的不同时间下的数据

横截面数据:多个个体的同一时间下的数据

面板数据:不同个体的不同时间下数据

6.ARIMA(p,d,q):自回归差分移动平均模型,通过差分将非平稳时间序列转化为平稳时间序列,再用ARMA模型来处理

模型参数解释:p:偏自相关系数截尾阶数,q:自相关系数截尾阶数,d:差分的阶数(差分次数)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1120062.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Transformers基本组件(二)快速入门Datasets、Evaluate、Trainer

Transformers基本组件(二)快速入门Datasets、Evaluate、Trainer 1、基础组件Datasets 数据集部分的工作,一部分在于数据集的收集,另一部分在于数据集的处理。Datasets库的出现,一定程度上也使得这两部分的工作变得简…

学习杂谈1

不知道写些什么就想着把这段时间网上看到的一些面试题写下来,供各个找工作的人参考 简述一下RabbitMQ的工作模式 simple模式(即最简单的收发模式) 消息产生消息,将消息放入队列消息的消费者(consumer)监听:消息队列&a…

YOLOV8改进:RefConv(即插即用重参数化重聚焦卷积替代常规卷积,无额外推理成本下涨点明显)

1.该文章属于YOLOV5/YOLOV7/YOLOV8改进专栏,包含大量的改进方式,主要以2023年的最新文章和2022年的文章提出改进方式。 2.提供更加详细的改进方法,如将注意力机制添加到网络的不同位置,便于做实验,也可以当做论文的创新点。 3.涨点效果:RefConv,实现有效涨点! 论文地址…

游戏设计模式专栏(十三):在Cocos游戏开发中运用责任链模式

点击上方亿元程序员关注和★星标 引言 大家好,我是亿元程序员,一位有着8年游戏行业经验的主程。 本系列是《和8年游戏主程一起学习设计模式》,让糟糕的代码在潜移默化中升华,欢迎大家关注分享收藏订阅。 责任链模式&#xff…

面试题:谈谈过滤器和拦截器的区别?

文章目录 一、拦截器和过滤器的区别二、拦截器和过滤器的代码实现1、拦截器2、过滤器 三、总结1、什么是Filter及其作用介绍2、Filter API介绍3、Filter链与Filter生命周期 四、拦截器五、过滤器和拦截器的区别 一、拦截器和过滤器的区别 1、拦截器(Interceptor)只对action请求…

全球国家行政区划边界(中国科学院地理科学与资源研究所)

简介: 行政区划边界是指各个行政区域之间划定的界限,以确保行政管理的有序和合法。通常,这些边界是根据政治、行政、文化等因素来划分的,如国家、省份、市级行政单元、县区等。这些行政区划边界的划分和调整需要经过政府的制定和…

proteus中仿真arduino的水位测试传感器

一、原理介绍 我们这里使用的水位传感器,只能说是一个小实验用途的水位传感器。我们首先上图 如上图所示,线没有连接,传感器由许5对裸露在外的铜线片作为传感部分,当浸入水中时这些铜线片会被水桥接。 这些被水连接起来的铜线&a…

CUDA学习笔记(二)CUDA简介

本篇博文转载于https://www.cnblogs.com/1024incn/tag/CUDA/,仅用于学习。 CUDA是并行计算的平台和类C编程模型,我们能很容易的实现并行算法,就像写C代码一样。只要配备的NVIDIA GPU,就可以在许多设备上运行你的并行程序&#xf…

2024王道考研计算机组成原理——指令系统

零、本章概要 指令寻址:解决的是PC"1"的问题 数据寻址:使用寄存器/内存/结合 基址寻址:用于多道程序的并发执行 直接寻址:call 0x12345678 变址寻址:esi edi用于循环,因为使用直接寻址需要一堆…

TX Text Control ActiveX 32.0 For VB6 Crack

ActiveX Visual Basic 6 应用程序的文档处理,TX Text Control适用于 Visual Basic 6 和基于 COM 的语言的综合文字处理和报告 视窗用户界面,功能齐全的文档编辑器 TX Text Control 是一款完全可编程的丰富编辑控件,它在专为 Visual Studio 设…

自然语言处理---Transformer机制详解之BERT模型介绍

1 BERT简介 BERT是2018年10月由Google AI研究院提出的一种预训练模型. BERT的全称是Bidirectional Encoder Representation from Transformers.BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且在11种不…

计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)

车辆跟踪及测距 该项目一个基于深度学习和目标跟踪算法的项目,主要用于实现视频中的目标检测和跟踪。该项目使用了 YOLOv5目标检测算法和 DeepSORT 目标跟踪算法,以及一些辅助工具和库,可以帮助用户快速地在本地或者云端上实现视频目标检测和…

最新AI智能写作创作系统源码V2.6.4/AI绘画系统/支持GPT联网提问/支持Prompt应用

一、AI创作系统 SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统AI绘画系统,支持OpenAI GPT全模型国内AI全模型。本期针对源码系统整体测试下来非常完美,可以说SparkAi是目前国内一款的ChatGPT对接OpenAI软件系统。那么如何搭建部署…

[深入浅出AutoSAR] SWC 设计与应用

依AutoSAR及经验辛苦整理,原创保护,禁止转载。 专栏 《深入浅出AutoSAR》 全文 3100 字, 包含 1. SWC 概念 2. 数据类型(Datatype) 3. 端口(Port) 4. 端口接口(Portinterface&…

【终极版】刷完这100行Python,从新人变成大佬

文章目录 基础入门菜鸟提升基础晋级高手之路内置包库奇技淫巧 基础入门 1 python 即在命令行输入python,进入Python的开发环境。 2 x 12*3-4/56**2 加减乘除四则混合运算,可当作计算器使用,其中**表示乘方。 3 print(x) 输出x的值&#x…

2023年中国跨境电商进出口数据及分布占比分析

中商情报网讯:据海关数据,2022年中国跨境电商进出口(含B2B)2.11万亿元,同比增长9.8%,跨境电商进出口规模首次突破2万亿元关口。其中,出口1.55万亿元,进口0.56万亿元。 2023上半年&a…

基于SSM的快递管理系统设计与实现

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

RBAC——基于角色权限的模型

目录 1、RBAC是什么? 2、为什么要使用RBAC模型? 3、RBAC的适用场景 4、RBAC流程图 5、RBAC各模块功能 6、访问控制流程 7、数据库设计及相关表结构 8、RBAC模型的JPA简单实现-单表及多表查询 9、RBAC模型四级分级 10、总结(优缺点&…

Spring Cloud Alibaba系列(6)之nacos集群搭建

传送门 Spring Cloud Alibaba系列之nacos:(1)安装 Spring Cloud Alibaba系列之nacos:(2)单机模式支持mysql Spring Cloud Alibaba系列之nacos:(3)服务注册发现 Spring Cloud Alibaba系列之nacos:(4)配置管理 Spring Cloud Al…

将本地的项目上传到Gitee

目录 1.先在Gitee新建一个仓库,提交即可 2.进入到要上传的项目里面,右键选择 Git Bash Here 3.右键后就打开了Git命令窗口 4.配置你的用户名和邮箱(已经配置过则可跳过) 5.查看你的用户名和邮箱配置(可不查看) 6.输入git init指令&#…