【Python数据挖掘入门】一、数据挖掘概况

news2026/2/12 23:34:31

一、数据挖掘概况

数据挖掘是指从大量的数据中，通过统计学、人工智能、机器学习等方法，挖掘出未知的、具有价值的信息和知识的过程。

典型案例：

啤酒与尿布
杜蕾斯与口香糖
杜蕾斯与红酒
数据挖掘是一门交叉学科，覆盖了统计学、数据可视化、算法、数据库、机器学习、市场营销以及其他多门学科的知识。

人们普遍认为数据挖掘是一项高大上的工作，必须具备高深的分析技能，需要精通算法，熟悉程序开发，但其实最好的数据挖掘工程师往往是那些熟悉和理解业务的人。

数据挖掘和数据分析区别

数据分析和数据挖掘的本质是一致的。
在这里插入图片描述

二、数据挖掘需要解决的常见问题

在这里插入图片描述
数据挖掘要解决的问题最终都可以转化为四类问题：分类、聚类、关联性、预测

分类

得到分类型目标变量（Y）——属于有监督学习
需要使用已知目标分类的历史样本来训练
需要对未知分类的样本预测所属的分类

常见的分类方法：决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归等。
分类可以应用于“用户流失预测”，“促销活动响应”、“用户信用评估”等商业问题分析上。

聚类

无分类型目标变量（Y）——属于无监督学习，
不是事先给定分类，是根据数据特征制定的
物以类聚思想
常见的聚类算法：划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。
聚类可以应用于“目标市场细分”、“现有客户细分”等商业问题分析上。

关联（购物篮分析）

无目标变量（Y）——属于无监督学习
基于数据项关联，识别频繁发生的模式
常见的关联算法：Aprior算法、Carma算法、序列算法。
关联分析可以应用于“哪些商品同时购买几率高？”“如何提高商品销售和交叉销售？”等商业问题分析上。

预测

数值型目标变量（Y）——属于有监督学习
需有已知目标值的历史样本来训练模型
对未知样本预测其目标值
常见的预测方法有：简单线性回归分析、多重线性回归分析、时间序列分析等。
预测分析可以用于在“未来气温预测”、“GDP增长预测”、“收入、用户数预测”等商业问题上。

数据挖掘流程

业内经典的数据挖掘流程：CRISP-DM数据挖掘方法论。分为六个步骤，这六个步骤并不会直线进行，经常回到前面的步骤，因此该过程是一个循环的探索过程。

在这里插入图片描述

1.商业理解

确定商业目标：了解商业背景、商业目标和成功标准等。
确定挖掘目标：数据挖掘目标、数据口径、建模时间窗口和模型成功标准。
制定项目方案：项目计划、建模工具、算法等

2. 数据理解

数据收集
数据描述
数据探索：绘制图表
质量描述：摸清数据来源及真实性

3. 数据准备

完成在进行数据挖掘之前的准备工作，将数据处理成一张大宽表，也就是一维表。

数据导入
数据抽取：抽取符合条件的变量
数据清洗：缺失值、异常值、重复值处理等
数据合并：记录合并、字段合并、字段匹配等处理
变量计算：字段计算，生成新的变量，如均值和占比等

4. 模型构建

尝试不同模型，将模型调至最佳参数。由于不同模型对数据要求不同，在选好模型后可能会跳回数据准备阶段重新处理宽表。

准备模型的训练集和验证集
选择使用建模技术
建立模型
模型对比

5. 模型评估

技术层面评估：设置对造组进行比较；设置评估指标：命中率、覆盖率、提升度等。
业务经验：业务专家评估

6. 模型部署

根据模型挖掘的结果协助业务开展，定期优化模型。

营销过程跟踪记录
观察模型衰退变化，以定期优化模型
引入新的特征优化模型
模型写成程序固化到平台

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/366346.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

正则表达式常见语法_findall方法、r原串的使用

正则表达式常见语法_findall方法、r原串的使用

正则表达式常见语法 re.findall（）方法 findall（）方法中flag参数的作用运行结果为运行结果是空列表， 以上说明，正则表到时中的“点号”不能和换行符匹配。如果匹配模式设置为re.DOTALL或者re.S&#xff…

阅读更多...

类与对象（this 关键字、构造器）

类与对象（this 关键字、构造器）

目录一、面向对象二、类与对象三、对象内存图四、成员变量和局部变量区别五、this关键字六、构造器/构造方法一、面向对象一种编程思想:也就是说我们要以何种思路，解决问题，以何种形式组织代码当解决一个问题的时候，面向对象会把事物抽象成…

阅读更多...

23年六级缓考

23年六级缓考

【【六级674】3月六级规划+许愿成功的小伙伴记得来还愿啦！！（四六级延期考2周冲刺计划）】https://www.bilibili.com/video/BV1nx4y1w7fz?vd_source=5475f4f6010a81c8e6d4789af8e1a20f 作文

阅读更多...

「TCG 规范解读」初识 TPM 2.0 库续一

「TCG 规范解读」初识 TPM 2.0 库续一

可信计算组织（Ttrusted Computing Group,TCG）是一个非盈利的工业标准组织，它的宗旨是加强在相异计算机平台上的计算环境的安全性。TCG于2003年春成立，并采纳了由可信计算平台联盟（the Trusted Computing Platform Alli…

阅读更多...

前端预防XSS攻击全攻略

前端预防XSS攻击全攻略

如何防止XSS攻击一、是撒子 XSS攻击（跨站点脚本攻击），就是黑客恶意篡改你网页的前端代码，在里面注入一些恶意的 htmljavascript的脚本，并在你的浏览器内运行，获取你的信息，或者进行一些恶意操…

阅读更多...

3年自动化测试经验，面试连20K都拿不到，现在都这么卷了吗····

3年自动化测试经验，面试连20K都拿不到，现在都这么卷了吗····

我的情况大概介绍一下个人情况，女，本科，三年多测试工作经验，懂python，会写脚本，会selenium，会性能，会自动化，然而到今天都没有收到一份offer！从2022年11月1…

阅读更多...

Html 代码学习

Html 代码学习

场景:在页面中插入音频代码常见属性: src 音频的路径 controls 显示播放的控件 autoplay 自动播放 loop 循环播放场景:在页面中插入视频代码常见属性: src 路径 controls 显示播放的控件 autoplay 自动播放要配合muted 例如 autoplay muted loop 循环播放链接 /…

阅读更多...

MySQL 的体系结构、引擎与索引

MySQL 的体系结构、引擎与索引

MySQL的引擎与体系结构体系结构连接层最上层是一些客户端和链接服务，主要完成一些类似于连接处理、授权认证、及相关的安全方案。服务器也会为安全接入的每个客户端验证它所具有的操作权限服务层第二层架构主要完成大多数的核心服务功能，如SQL…

阅读更多...

合宙Air780E|FTP|内网穿透|命令测试|LuatOS-SOC接口|官方demo|学习（18）：FTP命令及应用

合宙Air780E|FTP|内网穿透|命令测试|LuatOS-SOC接口|官方demo|学习（18）：FTP命令及应用

1、FTP服务器准备本机为win11系统，利用IIS搭建FTP服务器。搭建方式可参考博文：windows系统搭建FTP服务器教程 windows系统搭建FTP服务器教程_程序员路遥的博客-CSDN博客_windows服务器安装ftp 设置完成后，测试FTP（已正常访问…

阅读更多...

Nginx配置代理解决本地html进行ajax请求接口跨域问题

Nginx配置代理解决本地html进行ajax请求接口跨域问题

场景 Nginx在Windows下载安装启动与配置前后端请求代理： Nginx在Windows下载安装启动与配置前后端请求代理_霸道流氓气质的博客-CSDN博客上面基于Vue的web项目进行代理请求后台接口。如果是进行异地接口联调，访问后台接口都需要通过vpn访问&#x…

阅读更多...

【Maven】（二）使用 Maven 创建并运行项目、聊聊 POM 中的坐标与版本号的规则

【Maven】（二）使用 Maven 创建并运行项目、聊聊 POM 中的坐标与版本号的规则

文章目录1.前言2.hello-world2.1.Archetype 创建2.2.使用 IDE 创建2.3.Maven的目录结构3.pom的基本组成3.1.Maven坐标的概念与规则3.2.版本号规则2.3.打包成可运行的JAR4.结语1.前言本系列文章记录了从0开始到实战系统了解 Maven 的过程，Maven 系列历史文章&#…

阅读更多...

注意啦！如何通过广告吸引客户直接下单？

注意啦！如何通过广告吸引客户直接下单？

2023年跨境电商越来越突出，据业内相关人士称，在未来几年与跨境电商相关的政策仍会继续倾斜甚至加大力度，因此各行各业都响应政策，在新政策落实之前致力于平台的转型升级，做新时代创新型的高质量发展，其实细…

阅读更多...

怎么找回电脑上删除的图片？

怎么找回电脑上删除的图片？

怎么找回电脑删除的图片?图片作为一种非常简单方便的文件，经常被用来辅助我们的日常工作和学习。但在我们整理电脑时，如果我们不小心手一抖就删除了一些重要的图片，遇到这种事我们要如何才能恢复呢? 众所周知，简单的删除并不会完…

阅读更多...

iOS 绿幕技术

iOS 绿幕技术

绿幕（green screen）技术，又称 chroma key effect，实际上是将图片上指定颜色设置为透明的图形处理技术，这些透明区域也可以被任意背景图片替换。这种技术在视频合成中被广泛使用。iOS 中，通过 CoreImage …

阅读更多...

LeetCode 622.设计循环队列

LeetCode 622.设计循环队列

设计你的循环队列实现。循环队列是一种线性数据结构，其操作表现基于 FIFO（先进先出）原则并且队尾被连接在队首之后以形成一个循环。它也被称为“环形缓冲器”。循环队列的一个好处是我们可以利用这个队列之前用过的空间。在一个普通队列里&a…

阅读更多...

flask框架(下)

flask框架(下)

文章目录flask框架(下)werkzeug简介请求上下文flask 处理方案回到 wsgi_app 方法中push 源码总结补充flask框架(下) werkzeug简介 Werkzeug是一个WSGI工具包，他可以作为一个Web框架的底层库。这里稍微说一下， werkzeug 不是一个web服务器，也…

阅读更多...

Java Stream、File、IO 超详细整理，适合新手入门

Java Stream、File、IO 超详细整理，适合新手入门

目录 Java Stream Java File Java IO Java Stream Java Stream 是 Java 8 中引入的一种新的抽象数据类型，它允许开发人员使用函数式编程的方式来处理集合数据。使用 Java Stream 可以方便地进行过滤、映射、排序和聚合等操作。下面是一个简单的示例：…

阅读更多...

10分钟快速入门Pandas库

10分钟快速入门Pandas库

pandas 是基于NumPy 的一种工具，该工具是为解决数据分析任务而创建的，这篇文章主要介绍了10分钟快速入门Pandas库,重点介绍pandas常见使用方法，结合实例代码介绍的非常详细，需要的朋友可以参考下目录Pandas的介绍pandas 是基于Num…

阅读更多...

其实一点不难学会这三步一定让你学会制作一个『3D建模』大屏

其实一点不难学会这三步一定让你学会制作一个『3D建模』大屏

上次已经教过大家怎样制作一个简单的2D数据可视化大屏~那有一些朋友们就会说那些炫酷的3D可视化大屏是怎样制作的呢？这不就来了，今天就教大家怎样用山海鲸可视化软件制作一个带3D建模的可视化大屏，并且最重要的是无需会特别复杂的3D建模知识。…

阅读更多...

数据结构与算法之爬楼梯动态规划

数据结构与算法之爬楼梯动态规划

一.题目(爬楼梯)假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢？注意：给定 n 是一个正整数。示例 1：输入： 2输出： 2解释： 有两种方法可以爬…

阅读更多...

推荐文章

最新文章