【Python数据挖掘入门】一、数据挖掘概况

news2024/10/5 19:26:59

一、数据挖掘概况

数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、具有价值的信息和知识的过程。

典型案例:

  • 啤酒与尿布
  • 杜蕾斯与口香糖
  • 杜蕾斯与红酒
    数据挖掘是一门交叉学科,覆盖了统计学、数据可视化、算法、数据库、机器学习、市场营销以及其他多门学科的知识。
    在这里插入图片描述
    人们普遍认为数据挖掘是一项高大上的工作,必须具备高深的分析技能,需要精通算法,熟悉程序开发,但其实最好的数据挖掘工程师往往是那些熟悉和理解业务的人。
    在这里插入图片描述

数据挖掘和数据分析区别

数据分析和数据挖掘的本质是一致的。
在这里插入图片描述

二、数据挖掘需要解决的常见问题

在这里插入图片描述
数据挖掘要解决的问题最终都可以转化为四类问题:分类、聚类、关联性、预测

分类

  • 得到分类型目标变量(Y)——属于有监督学习
  • 需要使用已知目标分类的历史样本来训练
  • 需要对未知分类的样本预测所属的分类

常见的分类方法:决策树、贝叶斯、KNN、支持向量机、神经网络、逻辑回归等。
分类可以应用于“用户流失预测”,“促销活动响应”、“用户信用评估”等商业问题分析上。

聚类

  • 无分类型目标变量(Y)——属于无监督学习,
  • 不是事先给定分类,是根据数据特征制定的
  • 物以类聚思想
    常见的聚类算法:划分聚类、层次聚类、密度聚类、网格聚类、基于模型聚类等。
    聚类可以应用于“目标市场细分”、“现有客户细分”等商业问题分析上。

关联(购物篮分析)

  • 无目标变量(Y)——属于无监督学习
  • 基于数据项关联,识别频繁发生的模式
    常见的关联算法:Aprior算法、Carma算法、序列算法。
    关联分析可以应用于“哪些商品同时购买几率高?”“如何提高商品销售和交叉销售?”等商业问题分析上。

预测

  • 数值型目标变量(Y)——属于有监督学习
  • 需有已知目标值的历史样本来训练模型
  • 对未知样本预测其目标值
    常见的预测方法有:简单线性回归分析、多重线性回归分析、时间序列分析等。
    预测分析可以用于在“未来气温预测”、“GDP增长预测”、“收入、用户数预测”等商业问题上。

数据挖掘流程

业内经典的数据挖掘流程:CRISP-DM数据挖掘方法论。分为六个步骤,这六个步骤并不会直线进行,经常回到前面的步骤,因此该过程是一个循环的探索过程。

在这里插入图片描述

1.商业理解

  • 确定商业目标:了解商业背景、商业目标和成功标准等。
  • 确定挖掘目标:数据挖掘目标、数据口径、建模时间窗口和模型成功标准。
  • 制定项目方案:项目计划、建模工具、算法等

2. 数据理解

  • 数据收集
  • 数据描述
  • 数据探索:绘制图表
  • 质量描述:摸清数据来源及真实性

3. 数据准备

完成在进行数据挖掘之前的准备工作,将数据处理成一张大宽表,也就是一维表。

  • 数据导入
  • 数据抽取:抽取符合条件的变量
  • 数据清洗:缺失值、异常值、重复值处理等
  • 数据合并:记录合并、字段合并、字段匹配等处理
  • 变量计算:字段计算,生成新的变量,如均值和占比等

4. 模型构建

尝试不同模型,将模型调至最佳参数。由于不同模型对数据要求不同,在选好模型后可能会跳回数据准备阶段重新处理宽表。

  • 准备模型的训练集和验证集
  • 选择使用建模技术
  • 建立模型
  • 模型对比

5. 模型评估

  • 技术层面评估:设置对造组进行比较;设置评估指标:命中率、覆盖率、提升度等。
  • 业务经验:业务专家评估

6. 模型部署

根据模型挖掘的结果协助业务开展,定期优化模型。

  • 营销过程跟踪记录
  • 观察模型衰退变化,以定期优化模型
  • 引入新的特征优化模型
  • 模型写成程序固化到平台

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/366346.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

正则表达式常见语法_findall方法、r原串的使用

正则表达式常见语法 re.findall()方法 findall()方法中flag参数的作用 运行结果为 运行结果是空列表, 以上说明,正则表到时中的“点号”不能和换行符匹配。 如果匹配模式设置为re.DOTALL或者re.S&#xff…

类与对象(this 关键字、构造器)

目录一、面向对象二、类与对象三、对象内存图四、成员变量和局部变量区别五、this关键字六、构造器/构造方法一、面向对象 一种编程思想:也就是说我们要以何种思路,解决问题,以何种形式组织代码 当解决一个问题的时候,面向对象会把事物抽象成…

23年六级缓考

【【六级674】3月六级规划+许愿成功的小伙伴记得来还愿啦!!(四六级延期考2周冲刺计划)】https://www.bilibili.com/video/BV1nx4y1w7fz?vd_source=5475f4f6010a81c8e6d4789af8e1a20f 作文

「TCG 规范解读」初识 TPM 2.0 库续一

可信计算组织(Ttrusted Computing Group,TCG)是一个非盈利的工业标准组织,它的宗旨是加强在相异计算机平台上的计算环境的安全性。TCG于2003年春成立,并采纳了由可信计算平台联盟(the Trusted Computing Platform Alli…

前端预防XSS攻击全攻略

如何防止XSS攻击 一、是撒子 XSS攻击(跨站点脚本攻击),就是黑客恶意篡改你网页的前端代码,在里面注入一些恶意的 htmljavascript的脚本,并在你的浏览器内运行,获取你的信息,或者进行一些恶意操…

3年自动化测试经验,面试连20K都拿不到,现在都这么卷了吗····

我的情况 大概介绍一下个人情况,女,本科,三年多测试工作经验,懂python,会写脚本,会selenium,会性能,会自动化,然而到今天都没有收到一份offer!从2022年11月1…

Html 代码学习

场景:在页面中插入音频 代码 常见属性: src 音频的路径 controls 显示播放的控件 autoplay 自动播放 loop 循环播放 场景:在页面中插入视频 代码 常见属性: src 路径 controls 显示播放的控件 autoplay 自动播放 要配合muted 例如 autoplay muted loop 循环播放 链接 /…

MySQL 的体系结构、引擎与索引

MySQL的引擎与体系结构 体系结构 连接层 最上层是一些客户端和链接服务,主要完成一些类似于连接处理、授权认证、及相关的安全方案。服务器也会为安全接入的每个客户端验证它所具有的操作权限 服务层 第二层架构主要完成大多数的核心服务功能,如SQL…

合宙Air780E|FTP|内网穿透|命令测试|LuatOS-SOC接口|官方demo|学习(18):FTP命令及应用

1、FTP服务器准备 本机为win11系统,利用IIS搭建FTP服务器。 搭建方式可参考博文:windows系统搭建FTP服务器教程 windows系统搭建FTP服务器教程_程序员路遥的博客-CSDN博客_windows服务器安装ftp 设置完成后,测试FTP(已正常访问…

Nginx配置代理解决本地html进行ajax请求接口跨域问题

场景 Nginx在Windows下载安装启动与配置前后端请求代理: Nginx在Windows下载安装启动与配置前后端请求代理_霸道流氓气质的博客-CSDN博客 上面基于Vue的web项目进行代理请求后台接口。 如果是进行异地接口联调,访问后台接口都需要通过vpn访问&#x…

【Maven】(二)使用 Maven 创建并运行项目、聊聊 POM 中的坐标与版本号的规则

文章目录1.前言2.hello-world2.1.Archetype 创建2.2.使用 IDE 创建2.3.Maven的目录结构3.pom的基本组成3.1.Maven坐标的概念与规则3.2.版本号规则2.3.打包成可运行的JAR4.结语1.前言 本系列文章记录了从0开始到实战系统了解 Maven 的过程,Maven 系列历史文章&#…

注意啦!如何通过广告吸引客户直接下单?

2023年跨境电商越来越突出,据业内相关人士称,在未来几年与跨境电商相关的政策仍会继续倾斜甚至加大力度,因此各行各业都响应政策,在新政策落实之前致力于平台的转型升级,做新时代创新型的高质量发展,其实细…

怎么找回电脑上删除的图片?

怎么找回电脑删除的图片?图片作为一种非常简单方便的文件,经常被用来辅助我们的日常工作和学习。但在我们整理电脑时,如果我们不小心手一抖就删除了一些重要的图片,遇到这种事我们要如何才能恢复呢? 众所周知,简单的删除并不会完…

iOS 绿幕技术

绿幕(green screen)技术,又称 chroma key effect,实际上是将图片上指定颜色设置为透明的图形处理技术,这些透明区域也可以被任意背景图片替换。 这种技术在 视频合成中被广泛使用。iOS 中,通过 CoreImage …

LeetCode 622.设计循环队列

设计你的循环队列实现。 循环队列是一种线性数据结构,其操作表现基于 FIFO(先进先出)原则并且队尾被连接在队首之后以形成一个循环。它也被称为“环形缓冲器”。循环队列的一个好处是我们可以利用这个队列之前用过的空间。在一个普通队列里&a…

flask框架(下)

文章目录flask框架(下)werkzeug简介请求上下文flask 处理方案回到 wsgi_app 方法中push 源码总结补充flask框架(下) werkzeug简介 Werkzeug是一个WSGI工具包,他可以作为一个Web框架的底层库。这里稍微说一下, werkzeug 不是一个web服务器,也…

Java Stream、File、IO 超详细整理,适合新手入门

目录 Java Stream Java File Java IO Java Stream Java Stream 是 Java 8 中引入的一种新的抽象数据类型,它允许开发人员使用函数式编程的方式来处理集合数据。 使用 Java Stream 可以方便地进行过滤、映射、排序和聚合等操作。下面是一个简单的示例:…

10分钟快速入门Pandas库

pandas 是基于NumPy 的一种工具,该工具是为解决数据分析任务而创建的,这篇文章主要介绍了10分钟快速入门Pandas库,重点介绍pandas常见使用方法,结合实例代码介绍的非常详细,需要的朋友可以参考下目录Pandas的介绍pandas 是基于Num…

其实一点不难学会这三步一定让你学会制作一个『3D建模』大屏

上次已经教过大家怎样制作一个简单的2D数据可视化大屏~那有一些朋友们就会说那些炫酷的3D可视化大屏是怎样制作的呢?这不就来了,今天就教大家怎样用山海鲸可视化软件制作一个带3D建模的可视化大屏,并且最重要的是无需会特别复杂的3D建模知识。…

数据结构与算法之爬楼梯动态规划

一.题目(爬楼梯)假设你正在爬楼梯。需要 n 阶你才能到达楼顶。每次你可以爬 1 或 2 个台阶。你有多少种不同的方法可以爬到楼顶呢?注意:给定 n 是一个正整数。示例 1:输入: 2输出: 2解释: 有两种方法可以爬…