CDA数据分析师一级经典错题知识点总结(3)

news2025/1/13 3:46:56

1、SEMMA 的基本思想是从样本数据开始,通过统计分析与可视化技术,发现并转换最有价值的预测变量,根据变量进行构建模型,并检验模型的可用性和准确性。【强调探索性】

2、CRISP-DM模型Cross Industry Standard Process of Data Mining,被称为跨产业的数据挖掘标准流程
商业理解:其目的是要了解企业的整个运作过程。商业理解的作用主要是确定题目,即通过数据挖掘想要解决什么问题。【强调商业性】

数据理解:检查解决问题所需要的数据是否收集齐全,若没有则退回到商业理解这一步。

数据预处理:对收集到的数据进行处理,此阶段耗时最长。

建模:建立模型,若结果不好,则退回到数据预处理这一步,进行相应的调整。

评估:评估结果好就可以实施,评估结果不好就直接退回到商业理解这一步,重新开始。

实施:模型的实际应用。

3、数据分析的基本流程为以下6步曲

问题定义、数据获取、数据预处理、数据分析与建模、数据可视化、数据报告的撰写。

4、EXCEL常用函数:

日期函数:

EDATE 函数用于计算某个日期之前或之后的月份数。它的基本语法如下:

EDATE(start_date, months)

=EDATE("2024-01-01", 1) 返回 “2024-02-01”,即2024年1月1日加上1个月后的日期

  • start_date:起始日期。
  • months:你想要添加或减去的月份数。正值表示添加月份,负值表示减去月份。

EOMONTH 函数用于计算某个日期所在月份的最后一天。它的基本语法如下:

=EOMONTH("2024-01-15", 5) 返回 "2024-06-30”,即2024年1月15日所在月份的最后一天

5、主键的业务意义

表的业务记录单位,数据表中的非主键字段都要围绕主键展开,具备相关性。

6、ETL功能:Extract-Transform-Load,将数据从数据源端经过提取、清洗转换之后加载到数据仓库。

E:创建于数据源的连接,对数据进行引用

T:清洗–筛选过滤不完整、错误及重复的数据记录,转换–‘粒度’不一致、业务规则不一致

L:加载到数据仓库中存储和使用

7、from>where>group by >having >select >order by

8、开窗函数

在这里插入图片描述
实体完整性是是指每个表都有唯一的标识符–主键,主键不能为空或重复。

参照完整性是指外键的取值必须是另一个表的有效值或空值

用户定义完整性是指满足用户的某个需求,字段不为空等。

域完整性约束:域代表当前单元格,限制此单元格的数据正确。

9、集中趋势的描述 – 平均指标 各种数(众数、中位数、分位数、平均数)

大蒜有几条 算术>=几何>=调和平均数

离散程度的描述(各种差)–变异指标(极差、平均差、方差、四分位差、标准差、离散系数即变异系数)

描述性统计图表:直方图、散点图、箱线图

10、箱线图:
在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1。
在这里插入图片描述

统计分布:两点分布、二项分布、正态分布、卡方、t分布、F分布

相关关系:散点图、线性、正相关、协方差、相关系数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

参数估计

95% 对应 1.96

90% 对应 1.645
在这里插入图片描述
汇总规则

单向,只能一表筛选多表

双向,多表可以筛选一表,但是用规则二
在这里插入图片描述
基本透视规则:合计、计数、平均、最大最小值

什么是指标?
在这里插入图片描述
基本指标:求和类(常规求和、累计求和、时间维度下累计指标)、计数类、比较类(差异百分比、均比、定基比增长率、同环比增长率)
场景指标:
在这里插入图片描述

可视化报表和业务分析报告的差异:
在这里插入图片描述
RFM模型

重要价值用户–保持现状

重要发展用户–提升频次

重要保持用户–用户回流

重要挽留用户–重点召回

业务分析决策树

1.比较类

图表–油量表、进度图、柱图、条形图、雷达图、词云图、树状图、地图

2.序列类

图表(连续、有序类别的数据波动)折线图、面积图、柱图、漏斗图

3.构成类

图表–环状图、饼图、堆积图、瀑布图

4.描述类

图表–直方图、盒须图、气泡图、散点图

报告撰写流程: 业务理解→数据收集→数据处理→数据分析→图表制作→报告绘制

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2275782.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

算法题(32):三数之和

审题: 需要我们找到满足以下三个条件的所有三元组,并存在二维数组中返回 1.三个元素相加为0 2.三个元素的下标不可相同 3.三元组的元素不可相同 思路: 混乱的数据不利于进行操作,所以我们先进行排序 我们可以采取枚举的方法进行解…

【设计模式】介绍常见的设计模式

🥰🥰🥰来都来了,不妨点个关注叭! 👉博客主页:欢迎各位大佬!👈 文章目录 ✨ 介绍一下常见的设计模式✨ Spring 中常见的设计模式 这期内容主要是总结一下常见的设计模式,可…

单通道串口服务器(三格电子)

一、产品介绍 1.1 功能简介 SG-TCP232-110 是一款用来进行串口数据和网口数据转换的设备。解决普通 串口设备在 Internet 上的联网问题。 设备的串口部分提供一个 232 接口和一个 485 接口,两个接口内部连接,同 时只能使用一个口工作。 设 备 的网 口…

【蓝牙】win11 笔记本电脑连接 hc-06

文章目录 前言步骤 前言 使用电脑通过蓝牙添加串口 步骤 设置 -> 蓝牙和其他设备 点击 显示更多设备 更多蓝牙设置 COM 端口 -> 添加 有可能出现卡顿,等待一会 传出 -> 浏览 点击添加 hc-06,如果没有则点击 再次搜索 确定 添加成…

信息安全、网络安全和数据安全的区别和联系

信息安全、网络安全和数据安全是信息安全领域的三大支柱,它们之间既存在区别又相互联系。以下是对这三者的详细比较: 一.区别 1.信息安全 定义 信息安全是指为数据处理系统建立和采用的技术和管理的安全保护,保护计算机硬件、软件和数据不…

oracle闪回表

文章目录 闪回表案例1:(未清理回收站时的闪回表--成功)案例2(清理回收站时的闪回表--失败)案例3:彻底删除表(不经过回收站--失败)案例4:闪回表之后重新命名新表总结1、删…

如何让QPS提升20倍

一、什么是QPS QPS,全称Queries Per Second,即每秒查询率,是用于衡量信息检索系统(例如搜索引擎或数据库)或请求-响应系统(如Web服务器)每秒能够处理的请求数或查询次数的一个性能指标。以下是…

vue 实现打包并同时上传至服务器端

将 publish_script 及以下文件 upload.server.js 添加到 主文件下,与 src 同级别 具体操作步骤: 1、安装 npm install scp2 2、将下面两条命令加入至 package.json 的 scripts 中 "upload": "node publish_script/upload.server.js&q…

2015年IMO第3题

△ A B C \triangle ABC △ABC 的垂心为 H H H, A H AH AH 为直径的圆交 △ A B C \triangle ABC △ABC 的外接圆 ⨀ O \bigodot O ⨀O 于 A A A, Q Q Q. H Q HQ HQ 为为直径的圆交 ⨀ O \bigodot O ⨀O 于 Q Q Q, K K K. M M M 为 B C BC BC 边中点, F F F 为 A…

新活动平台建设历程与架构演进

01 前言 历时近两年的重新设计和迭代重构,用户技术中心的新活动平台建设bilibili活动中台终于落地完成!并迎来了里程碑时刻 —— 接过新老迭代的历史交接棒,从内到外、从开发到搭建实现全面升级,开启了活动生产工业化新时代&#…

《安富莱嵌入式周报》第348期:开源低功耗测试仪,开源创意万用表,续航100-300小时,开源PCB电机,自制shell和网络协议栈,开源水培自动化系统

周报汇总地址:嵌入式周报 - uCOS & uCGUI & emWin & embOS & TouchGFX & ThreadX - 硬汉嵌入式论坛 - Powered by Discuz! 视频版: https://www.bilibili.com/video/BV1Tzr9Y3EQ7/ 《安富莱嵌入式周报》第348期:开源低功…

【Kaggle】练习赛《预测贴纸的销量》(下)

前言 上篇利用各地区的GDP数据还填充目标标签的缺失值;中篇顺着这个思路,利用这个原理来预测未来的销量,具体方法思路:先一一对国家、产品和商店进行汇总,然后对未来三年的每日销售额进行预测,然后再进行分…

RT-DETR代码详解(官方pytorch版)——参数配置(1)

前言 RT-DETR虽然是DETR系列,但是它的代码结构和之前的DETR系列代码不一样。 它是通过很多的yaml文件进行参数配置,和之前在train.py的parser argparse.ArgumentParser()去配置所有参数不同,所以刚开始不熟悉代码的时候可能不知道在哪儿修…

细说STM32F407单片机以DMA方式读写外部SRAM的方法

目录 一、工程配置 1、时钟、DEBUG、GPIO、CodeGenerator 2、USART3 3、NVIC 4、 FSMC 5、DMA 2 (1)创建MemToMem类型DMA流 (2)开启DMA流的中断 二、软件设计 1、KEYLED 2、fsmc.h、fsmc.c、dma.h、dma.c 3、main.h…

Proteus-8086调试汇编格式的一点心得

这阵子开始做汇编的微机实验(微机原理与接口技术题解及实验指导,吴宁版本13章),中间出了挺多问题,解决后记录下。 先上电路图 用子电路来仿真发现仿真的时候子电路这块根本没有高低电平输出,只好把子电路拿…

FreeROTS学习 内存管理

内存管理是一个系统基本组成部分,FreeRTOS 中大量使用到了内存管理,比如创建任务、信号量、队列等会自动从堆中申请内存,用户应用层代码也可以 FreeRTOS 提供的内存管理函数来申请和释放内存 FreeRTOS 内存管理简介 FreeRTOS 创建任务、队列…

【西北工业大学主办 | EI检索稳定 | 高H值专家与会报告】2025年航天航空工程与材料技术国际会议(AEMT 2025)

2025 年航天航空工程与材料技术国际会议(AEMT 2025)将于2025年2月28日至3月2日在中国天津召开。本届会议由西北工业大学主办,由北京航空航天大学、北京理工大学作为支持单位加入,AEIC 学术交流中心协办。 AEMT 2025 旨在汇聚来自全…

目标检测跟踪中的Siamese孪生网络与普通卷积网络(VGG、ResNet)有什么区别?

1、什么是Siamese网络? Siamese网络又叫孪生网络,是一种特殊的神经网络架构,由一对(或多对)共享参数的子网络组成,用于学习输入样本之间的相似性或关系。最早在 1994 年由 Bromley 等人提出,最…

网络攻击行为可视化分析系统【数据分析 + 可视化】

一、系统背景 随着信息技术的快速发展,网络已成为现代社会不可或缺的一部分。然而,与此同时,网络攻击手段也日益多样化和复杂化,给企业和个人的信息安全带来了极大的威胁。传统的网络攻击分析方法往往依赖于人工分析和处理大量的…

一个运行在浏览器中的开源Web操作系统Puter本地部署与远程访问

文章目录 前言1.关于Puter2.本地部署Puter3.Puter简单使用4. 安装内网穿透5.配置puter公网地址6. 配置固定公网地址 💡 推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击跳转到网站…