7 种常用的数据挖掘技术分享

news2024/11/25 12:25:21

640?wx_fmt=gif  

watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQxNTcwNjU4,size_16,color_FFFFFF,t_70

有人说:一个人从1岁活到80岁很平凡,但如果从80岁倒着活,那么一半以上的人都可能不凡。

生活没有捷径,我们踩过的坑都成为了生活的经验,这些经验越早知道,你要走的弯路就会越少。 


摘要: 随着信息领域的进步,技术在各个领域产生了大量数据库。因此更加需要存储和操作重要数据,以便以后用于决策和改进业务活动。本文我们将分享7种数据挖掘技术,体验在数据化运营商业实践中的风采。 什么是数据挖掘? 数据挖掘是从海量数据中提取有用信息和模式的过程。它包括...

随着信息领域的进步,技术在各个领域产生了大量数据库。因此更加需要存储和操作重要数据,以便以后用于决策和改进业务活动。本文我们将分享7种数据挖掘技术,体验在数据化运营商业实践中的风采。

什么是数据挖掘?

数据挖掘是从海量数据中提取有用信息和模式的过程。它包括数据的收集、提取、分析和统计,也被称为知识发现的过程,即从数据或数据模式分析中进行知识挖掘。这是一个寻找有用信息以找出有用数据的逻辑过程。

数据挖掘的3个步骤

  • 探索:数据将被清除并转换为另一种形式,信息的性质也是确定的。
  • 模式识别:选择将做出最佳预测的模式。
  • 部署:使用已识别的模式来获得所需的结果。

数据挖掘的优势

  • 自动预测趋势和行为;
  • 可在新系统以及现有平台上实施;
  • 可在几分钟内分析庞大的数据库;
  • 自动发现隐藏模式;
  • 有很多模型可用于快速理解复杂数据;
  • 较快的速度能够让用户在更短的时间内轻松分析大量数据;
  • 产生改进的预测。

7种重要的数据挖掘技术

数据挖掘中最重要的任务之一是选择正确的数据挖掘技术。数据挖掘技术必须根据业务类型和业务面临的问题进行选择。因此必须使用一种通用的方法来提高使用数据挖掘技术的准确性和成本效益。本文主要讨论7种被认为是商务人士更常使用的数据挖掘技术。

  • 统计数据
  • 聚类
  • 可视化
  • 决策树
  • 关联规则
  • 神经网络
  • 分类

1. 统计技术

数据挖掘技术统计学是数学的一个分支,与数据的收集和描述有关。许多分析师并不认为统计技术是一种数据挖掘技术。但尽管如此,它仍有助于发现模式并建立预测性模型。因此,数据分析员应该对不同的统计技术有一定的了解。在当今世界,人们必须处理许多数据,并从中得出重要的模式。统计数据可以在更大程度上帮助您回答有关其数据的问题,例如:

  • 数据库中有哪些方法?
  • 事件发生的概率是多少?
  • 哪些模式对业务更有用?
  • 什么是高级摘要,哪些可详细了解数据库中的内容?

统计数据不仅回答了这些问题,还有助于对数据进行汇总和统计;同时有助于轻松提供有关数据的信息。通过统计报告,人们可以做出明智的决定。统计有不同的形式,但最重要和最有用的技术是收集和统计数据。收集数据的方法有很多种,如:

  • 直方图
  • 中位数
  • 模式
  • 方差
  • 最大值
  • 最小值
  • 线性回归

2. 聚类技术

聚类是数据挖掘中最古老的技术之一。聚类分析是识别彼此相似的数据的过程,这将有助于理解数据之间的差异和相似之处。聚类技术有时被称为分段,能够允许用户了解数据库中正在发生的事情。例如,保险公司可以根据客户的收入、年龄、保单性质和索赔类型对客户进行分组。聚类技术有不同类型的聚类方法,如下所示:

  • 分区方法
  • 层次化凝聚方法
  • 基于密度的方法
  • 基于网格的方法
  • 基于模型的方法

最流行的聚类算法是最近邻法。最近邻技术非常类似于集群。它是一种预测技术,用于预测一条记录中的估计值是什么,在历史数据库中查找具有类似估计值的记录,并使用非机密文档附近的表单中的预测值。这项技术表明,彼此较近的对象将具有相似的预测值。通过这种方法,可以非常容易地非常快速地预测最近项目的重要性。聚类算法在自动化方面也工作得很好,可以轻松执行复杂的 ROI 计算。该技术的准确度与其他数据挖掘技术一样有同样高的利用率。

在商业领域中,最近邻技术最常用于文本检索过程中,用于查找与已标记为令人印象深刻的主文档具有相同重要特征的文档。

3. 可视化

可视化是用于发现数据模式的最有用的技术。此技术在数据挖掘过程的开始阶段使用。许多类型的研究都在进行,以产生一种有趣的数据库投影,称为投影寻踪。有很多数据挖掘技术,它们将为好的数据提供有用的模式。但可视化是一种将不良数据转化为有用数据的技术,可以使用不同的数据挖掘方法来发现隐藏的模式。

4. 归纳决策树技术

决策树是一种预测模型,其名称本身意味着它看起来像一棵树。在这种技术中,树的每个分支都被视为一个分类问题。树的叶子被认为是与该特定分类相关的数据集的分区。该技术可用于勘探分析、数据前处理和预测工作。决策树可以被认为是原始数据集的分段,其中分段是出于特定原因进行的。分段下的每个数据在被预测的信息中都有一些相似之处,决策树提供了用户容易理解的结果。统计学家大多使用决策树技术来找出哪个数据库与企业的问题更相关,决策树技术可用于预测和数据预处理。

这项技术的第一步也是最重要的一步是种植树木。种树的基础是在每个树枝上找到可能被问到的最佳问题。诊断树在以下任何一种情况下停止增长。如果数据段仅包含一条记录,所有记录都包含相同的特征。这一增长不足以使情况进一步恶化,CART 代表分类和回归树,是一种数据探索和预测算法,可以更复杂地挑选问题。它尝试所有这些问题,选择一个最佳问题,用于将数据拆分成两个或更多个段。在决定了细节之后,再次单独询问每个新元素的问题。

另一种流行的决策树技术是 CHAID(卡方自动交互检测器),与 Cart 相似,但有一点不同。Cart 帮助选择最好的问题,而 Chaid 有助于选择拆分。

5. 神经网络

神经网络是当今人们使用的另一项重要技术。这种技术最常用于数据挖掘技术的起步阶段。人工神经网络是在人工智能社区中形成的。神经网络很容易使用,它们在特定程度上是自动化的。因此,预计用户不会对工作或数据库有太多了解。这种技术有两个主要部分:节点和链接。

  • 节点:与人脑中的神经元自由匹配。
  • 连接:它与人脑中神经元之间的连接自由匹配。

神经网络是相互连接的神经元的集合,形成单层或多层。神经元的形成和它们的相互连接被称为网络的架构。神经网络模型有很多种,每种模型都有各自的优缺点。每个神经网络模型都有不同的体系结构,该体系结构使用其他学习过程。

神经网络是一种强大的预测建模技术。但即使是专家也不太容易理解。它创造了非常复杂的模型,不可能完全理解。因此,为了了解神经网络技术,目前正在寻找新的解决方案,具体如下:

  • 第一个解决方案是将神经网络打包成一个完整的解决方案,使其可以用于单一应用。
  • 第二种解决方案是与专家咨询服务捆绑在一起。

神经网络已经在各种应用中得到了应用,这项技术已被用于检测行业中发生的欺诈行为。

6. 关联规则技术

关联规则技术有助于找到两个或多个项目之间的关联,并了解数据库中不同变量之间的关系。它发现了用于识别变量的数据集中的隐藏模式,以及频率最高的其他变量的频繁出现。这项技术包括两个过程,即查找所有频繁出现的数据集和 从频繁数据集创建强关联规则,其中包括三种类型的关联规则,规则如下:

  • 多层关联规则
  • 多维关联规则
  • 数量关联规则

这种技术最常用于零售业,以发现销售模式。这将有助于提高转化率,从而增加利润。

7. 分类

数据挖掘技术分类是最常用的数据挖掘技术,它通过一组预先分类的样本来创建一个可以对一大组数据进行分类的模型。此技术有助于获取有关数据和元数据(有关数据的数据)的重要信息。这项技术与聚类分析技术密切相关,它使用决策树或神经网络系统,其中主要涉及两个过程,学习和分类。学习指在这个过程中,数据通过分类算法进行分析;分类指在此过程中,数据用于衡量分类规则的精度。不同类型的分类模型包括:

  • 决策树归纳法分类
  • 贝叶斯分类
  • 神经网络
  • 支持向量机(支持向量机)
  • 基于关联的分类

结论

通过本文,我们了解了数据挖掘的重要技术,并对每种技术的特点和技术指标进行了详细说明。它是许多业务领域中的重要工具,且这些技术最适合用于得出问题的解决方案。

 这些程序员职场“潜规则”,让你少走5年弯路_【官方推荐】唐城的博客-CSDN博客


   Ã¥Â®Â«Ã¥Â´Ã©ÂªÃ©Â¾Ã§Â«Ã¨Â¡Â¨Ã¦Ã¥|é¾ç«gifå¾è¡¨æåä¸è½½å¾ç一边赶路,一边寻找出路,希望大家在每个幸福的日子里,都能快乐前行。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/167651.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

详解DFS(深度优先搜索)算法+模板+指数+排列+组合型枚举+带分数四道例题

目录 前言: 1.背景 2.图解分析 3.算法思想 4.dfs四大例题 4.1.递归实现指数型枚举 题解: 4.2.递归实现排列型枚举 题解: 字典序: 4.3.递归实现组合型枚举 题解: 4.4.带分数 题解: 5.最后: 前言:…

来了解一下ASN.1?

想要了解证书,必须先了解ASN.1和编码规则。这篇文章简单介绍ASN.1,不过分探讨细节,大家如果有兴趣可以继续深入研究。 一、ASN.1 ASN.1是Abstract Syntax Notation One(抽象文法描述语言)的缩写。计算机系统之间交换…

Android Studio 阅读 frameworks/base 下的代码

从网上搜的方案都是生成 android.ipr,但是这个需要整编,整编一次比较费时费劲,所以想了个巧招 首先用 Android Studio 打开 frameworks/base,其文件夹目录大概形如下: ├── Android.bp├── Android.mk├── api …

入门深度学习——基础知识总结(python代码实现)

入门深度学习——基础知识总结(python代码实现) 目前,AI基本上可以说是烂大街了。几乎什么都可以说使用了AI技术,听起来很拉风,很nb的样子。而其中目前最为火热的非深度学习(Deep Learning)莫属…

VisionPro (R) QuickBuild 工具使用问题解决 自用

右击我的电脑选择属性。搜索“安全中心” 点击病毒和威胁保护 在病毒和威胁保护中选择威胁信息(当前威胁-保护历史记录) 受影响的项目 file: C:\WINDOWS\sysWOW64\cognex.dll 相机和光源不能同时触发,光源要先于相机触发并且持续相机采集…

leetCode周赛-328

相关题解题目一:6291. 数组元素和与数字和的绝对差题目二:6292. 子矩阵元素加 1题目三:6293. 统计好子数组的数目题目四:2538. 最大价值和与最小价值和的差值题目一:6291. 数组元素和与数字和的绝对差 题目链接&#…

Web Security 之 Insecure deserialization

Insecure deserialization 在本节中,我们将介绍什么是不安全的反序列化,并描述它是如何使网站遭受高危害性攻击的。我们将重点介绍典型的场景,并演示一些 PHP、Ruby 和 Java 反序列化的具体示例。最后也会介绍一些避免不安全的反序列化漏洞的…

14正交向量与子空间

正交向量与子空间 本章研究的重点还是之前提到过的子空间,但是本章我们主要从正交的角度来探讨这些子空间具有的性质,主要内容见下图。 注意,上图指出了我们之前没有关注到的子空间的一些性质:对于一个矩阵,其零空间…

微信推送消息给女友提醒每天天气情况,本文讲解流程,附带代码,可快速上手。

实现的效果图 此模板为自己添加的,各位看客可以自行添加,如何添加接着往下看。备注在数据库自定义设置。如果你非专业人士,可以联系作者给你专属设置。如果需要代为设置跳转到文章结束位置。 完整的代码 代码下载地址 微信公众号设置 申…

《Linux Shell脚本攻略》学习笔记-第八章

8.1 简介 TCP/IP网络的运作过程就是在节点之间传递分组。每一个分组中都包含了目标的IP地址以及处理分组中数据的应用程序端口号。 当节点接收到分组时,它会查看自己是否就是改分组的目的地。如果是,节点会再检查端口号并调用相应的应用程序来处理分组数…

Cookie 会话身份验证是如何工作的?

在 Web 应用程序中,Cookie-Session 是一种标准的身份验证方法。饼干,也被称为“sweet cookies”。类型为“小文本文件”,是指一些网站为了识别用户身份而存储在客户端的数据。Session的主要功能是通过服务器记录用户的状态。 在典型的在线购物…

类与类之间关系的表示方式

1.关联关系 关联关系是对象之间的一种引用关系,用于表示一类对象与另一类对象之间的联系,如老师和学生,师傅和徒弟,丈夫和妻子等。关联关系是类与类之间最常用的一种关系,分为一般关联关系,聚合关系和组合…

郭天祥十天入门单片机学习笔记

电子元件 排阻 有两种: nn1 二极管 几个概念 限流电阻:与二极管串联,防止电流过大烧毁二极管导通压降:二极管亮起的最小电压 贴片式绿色为阴极,插入式短脚为阴极 数码管 共阴极:对应段选信号置1亮…

测试开发 | 这些常用测试平台,你们公司在用的是哪些呢?

测试管理平台是贯穿测试整个生命周期的工具集合,它主要解决的是测试过程中团队协作的问题。在整个测试过程中,需要对测试用例、Bug、代码、持续集成等等进行管理。下面分别从这四个方面介绍现在比较流行的管理平台。 图片108091 50.2 KB 测试用例管理平台…

Doris 使用记录(随机更新(ง •_•)ง)

文章目录知识点常见数据分布方式使用表动态分区Hash分桶知识点 常见数据分布方式 分布式数据库中常见的数据分布方式。 轮询:Round-Robin,假设分桶数为3,数据按顺序依次写入桶1、桶2、桶3,然后继续循环。 区间:Ran…

【Lp-CVT and Applications】

Lp-CVT and Applications 论文笔记 本文是论文 Lp Centroidal Voronoi Tessellation and its Applications 的学习笔记。有不足之处,请指出!非常感谢! 1 主要工作 解决问题:推广CVT以适用各向异性和六面体网格划分。推广 CVT &am…

如何模拟实现一个“缓存”?

目录 前言 一、LRU Cache是什么 二、模拟实现 2.1、通过继承 LinkedHashMap 模拟实现 2.2、自主模拟实现LRU Cache 2.2.1、LRU Cache的定义 2.2.2、存放结点 2.2.3、访问结点 2.2.4、LRU Cache 完整模拟代码 小结 前言 这次主要实现一个类似缓存的一种数据结构&#xf…

day49 业务逻辑水平垂直越权访问控制脆弱验证

前言: #知识点: 1、水平越权-同级用户权限共享 2、垂直越权-低高用户权限共享 3、访问控制-验证丢失&取消验证 4、脆弱验证-Cookie&Token&Jwt等 #前置知识: 1、逻辑越权原理- -水平越权:用户信息获取时未对用户…

NTP(Network Time Protocol)协议详解

一、NTP的基本概念: NTP(Network Time Protocol)------网络时间协议-----应用层协议,用来在分布式时间服务器和客户端之间进行时间同步。 二、采用NTP的目的: 是对网络内所有具有时钟的设备进行时钟同步,使网络内所有设备的时钟…

JDY-06蓝牙透传无天线模块介绍

JDY-06蓝牙透传无天线模块简介JDY-06透传模块是基于蓝牙4.0协议标准,工作频段为2.4GHZ范围,调制方式为GFSK,最大发射功率为0db,最大发射距离60米,采用TICC2541芯片设计,支持用户通过AT命令修改设备名、服务…