数据技术之数据挖掘

news2024/11/26 1:44:28

第7章 数据挖掘

1.什么是数据挖掘

数据挖掘(Data Mining)就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程。数据挖掘的目标是建立一个决策模型,根据过去的行动数据来预测未来的行为。

2.阿里数据挖掘平台

阿里巴巴的算法平台选用MPI作为基础计算框架,其核心机器学习算法的开发都是基于阿里云MaxCompute的MPI实现的。
MaxCompute MPI处理流程图如下:
在这里插入图片描述

伏羲:阿里云飞天系统的分布式调度系统
女娲:阿里云飞天系统的分布式一致性协同服务系统
盘古:阿里云飞天系统的分布式文件存储系统

基于MaxCompute MPI的机器学习算法如下:

分类具体算法
分类算法LogisticRegression、kNN、GBDT、DTC5.0、Randomforest、linearSVM、nonlinearSVM、NavieBayes、Bayes、Fisher 判别、马氏距离判别、标签传播分裂等
回归算法LinearRegression、GBDT、LASSO、RidgeRegression、Factorization Machines、XGBoost等
聚类算法K-Means、Canopy、PSC普聚类、标签传播聚类、EM 聚类等
推荐算法etrec 协同过滤、 SVD协同过滤、 ALS协同过滤等
深度学习Word2Vec、Doc2Vec、CNN、DBN、DeepMatchModel等
其他PageRank、LOA、pLSA、关联规则、NMF、CRF、SVD、RankSVM、PCA、kcore、sssp、Modularity 计算等

:etrec 是阿里巴巴集团搜索算法团队开发的运行于 MaxCompute 上的基于商品的协同过滤算法

3.数据挖掘中台体系

  • 挖掘数据中台

数据挖掘的过程中包含两类数据:

特征数据
结果数据

数据中台分为三层:

特征层( Featural Data Mining Layer, FDM )
中间层:
  个体中间层( Individual Data Mining Layer, IDM )
  关系中间层( Relational Data Mining Layer, RDM )
应用层( Application-oriented Data Mining Layer, ADM )

在这里插入图片描述

FDM层:用于存储在模型训练前常用的特征指标,并进行统一的清洗和去噪处理,提升机器学习特征工程环节的效率。
IDM层:个体挖掘指标中间层,面向个体挖掘场景,用于存储通用性强的结果数据,主要包含商品、卖家、买家、行业等维度的个体数据挖掘的相关指标
RDM层:关系挖掘指标中间层,面向关系挖掘场景,用于存储通用性强的结果数据,主要包含商品间的相似关系、竞争关系,店铺间的相似关系、竞争关系等。
ADM 层:用来沉淀比较个性偏应用的数据挖掘指标,比如用偏好的类目、品牌等,这些数据已经过深度的加工处理,满足某一特点业务或产品的使用。

  • 挖掘算法中台

算法是数据挖掘的神经中枢。
数据挖掘算法中台的建设目的是从各种各样的挖掘场景中抽象出有代表性的几类场景,并形成相应的方法论和实操模板。常见的数据挖掘应用如下:
在这里插入图片描述

4.数据挖掘案例

  • 用户画像

利用数据分析辅以算法的视角对用户进行特征刻画,为用户打上各种各样的标签。

  • 互联网反作弊

从业务上看,反作弊工作主要体现在以下几个方面:

(1)账户/资金安全与网络欺诈防控
(2)非人行为和账户识别
(3)虚假订单与信用炒作识别
(4)广告推广与 APP 安装反作
(5)UGC 恶意信息检测

从所采用的算法技术上说,反作弊方法主要包括如下几类:
(1)基于业务规则的方法

这类方法主要是根据实际的业务场景,不断地发现总结作弊和获利手法,通过反作弊规则的不断拓展或产品设计的完善来识别、缓解甚至消除作弊现象。
优点:精度高、可解释性强,能准确识别老的作弊方式;
缺点:人力成本高,而且对新的作弊手法滞后性较强。

(2)基于有监督学习的方法

按照有监督分类算法的流程来建模,通过正负样本标记、特征提取、模型训练及预测等过程来识别作弊行为。
优点:通用性强,人力成本主要集中在样本的标记和特
缺点:会出现类不平衡现象,有些算法结果的可解释性不强,容易造成错判,需要辅以其他指标和方法进行综合判断。

(3)基于无监督学习的方

在此类方法中较常见的是异常检测算法,该方法假设作弊行为极其见且在某些特征维度下和正常行为能够明显地区分开来。
优点:不需要标记正负样本,而且检测到的异常行为还可以沉淀到规则系统中
缺点:特征设计和提取的工作量大,需要在所有可能的风险维度下刻画行为特征。

应用
(1)离线反作弊系统

离线反作弊系统主要包含规则判断、分类识别、异常检测等模块,通过历史行为和业务规则的沉淀,来判断未来行为的作弊情况。
优点:准确率较高, 所使用的历史数据越多,判断结果越准确。
缺点:时效性较差,无法及时给出判断结果

(2)实时反作弊系统

随着在某些场景下对时效性要求的不断提高,人们逐渐发现实时反作弊系统的必要性和重要性。所以,将离线中的许多规则和算法进行总结,在基本满足准确率和覆盖率的前提下抽取出其中计算速度较快的准确率为代价,而且由于数据需要进行实时采集和计算,所以对数据存储和计算系统的性能要求也非常高。

挑战

作弊手段的多样性和多变性
算法的及时性和准确性
数据及作弊手段的沉淀和逆向反馈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/88765.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java-1213

JVM历程 Sun Classic VM 1996年发布,世界上第一款商用Java虚拟机,JDK1.4时被淘汰,现在hotspot内置了此虚拟机 这款虚拟机只提供了解释器(现在主流的虚拟机还会提供即时编译器JIT)解释器和JIT两者用一个就可以让程序执…

分享一种 ConstraintLayout 让TextView 自适应的同时,还不超出限制范围的方式

分享一种 ConstraintLayout 让TextView 自适应的同时,还不超出限制范围的方式 不知道大家有没有遇到这种布局需求: 上图布局很简单,ImageView 中间的TextView View ImageView,需求是中间的 TextView 宽度需要根据内容来展示&…

OpenMLDB 实时引擎性能测试报告

OpenMLDB 提供了一个线上线下一致性的特征平台。其中,为了支持低延迟高并发的在线实时特征计算,OpenMLDB 设计实现了一个高性能的实时 SQL 引擎。本报告覆盖了 OpenMLDB 实时 SQL 引擎的性能测试,包含了在较为复杂的负载、典型配置下的各种性…

多线程知识笔记(四)-----volatile、wait方法、notify方法

文章目录1、volatile关键字2、volatile和synchronized对比3、wait和notify方法1、volatile关键字 先看例子: class Counter {public int flag 0; }public class Test4{public static void main(String[] args) {Counter counter new Counter();Thread t1 new Th…

如何使用Footrace 钱包监控功能和设置自定义的交易警报

2022-06-12 本文将介绍如何使用 Footrace 监控 CEX 的钱包地址并设置自定义警报。 什么是 Footrace? Footrace (Foot Trace) 是一个多链的钱包追踪监控平台,可以监控CEX、DEX、鲸鱼、聪明钱、或任何你想关注的地址的钱包。 Footrace 帮助投资者保护他…

有了这几个软件安全测试工具,编写安全测试报告再也不愁

软件的安全是开发人员、测试人员、企业以及用户共同关心的话题,尤其是软件产品的使用者,因为系统中承载着用户的个人信息、人际互动、管理权限等各类隐私海量关键数据。软件安全测试工作不仅是为了用户,更牵扯到许多的利益共同体。因此软件安…

2854-40-2,环二肽cyclo(Pro-Val)

Component of coffee flavor 咖啡香精成分 在烘焙咖啡中检测到Cyclo(Pro-Val)和其他含pro的二酮哌嗪类化合物。这些化合物的含量随着烘焙强度的增加而增加,它们增加了苦味。这种味道苦涩的环二肽也在可可、巧克力、牛肉和奶酪等其他食品中被检测到。Cyclo(Pro-Val)显…

Linux物理内存管理——会议室管理员如何分配会议室

之前学习了站在内存的角度去看内存,看到的都是虚拟内存,这些虚拟内存总是要映射到物理页面的,这一篇文章来学习物理内存是如何管理的。 物理内存的组织方式 之前学习虚拟内存的时候,当涉及物理内存的映射的时候,总是…

不会还有人不知道如何搭建【关键字驱动自动化测试框架】吧 ?

前言 这篇文章我们将了解关键字驱动测试又是如何驱动自动化测试完成整个测试过程的。关键字驱动框架是一种功能自动化测试框架,它也被称为表格驱动测试或者基于动作字的测试。关键字驱动的框架的基本工作是将测试用例分成四个不同的部分。首先是测试步骤&#xff0…

MobileNet网络模型(V1,V2,V3)

MobileNet网络中的亮点:DW卷积,增加了两个超参数,控制卷积层卷积核个数的α,控制输入图像大小的β,这两个超参数是我们人为设定的,并不是学习到的。BN batch normal批规范化,为了加快训练收敛速…

大数据MapReduce学习案例:数据去重

文章目录一,案例分析(一)数据去重介绍(二)案例需求二,案例实施(一)准备数据文件(1)启动hadoop服务(2)在虚拟机上创建文本文件&#xf…

大数据MapReduce学习案例:TopN

文章目录一,案例分析(一)TopN分析法介绍(二)案例需求二,案例实施(一)准备数据文件(1)启动hadoop服务(2)在虚拟机上创建文本文件&#…

linux把乱码文件(非文件内容)删除(Xshell中使用rz命令上传文件出现乱码,删除乱码文件)的步骤讲解

我的场景是:首先安装lrzsz:yum install lrzsz,然后后使用rz -be上传文件出现乱码问题,想要把乱码文件删除 圆圈圈出来的就是乱码文件,横线划线出来的是使用rm命令删除但是无效 解决方法是:ls | grep -v ‘…

人人都是数据分析师

一.耳熟能详的数据你真的了解吗? 1.数据的类型 根据数据的存储形式,可以将数据分为结构化数据和非结构化数据两种类型 存储在数据库中的结构化数据能够很方便地进行检索、分析以及展示分析结果。结构化数据是进 行数据分析的基本类型,大多数…

【1697. 检查边长度限制的路径是否存在】

来源:力扣(LeetCode) 描述: 给你一个 n 个点组成的无向图边集 edgeList ,其中 edgeList[i] [ui, vi, disi] 表示点 ui 和点 vi 之间有一条长度为 disi 的边。请注意,两个点之间可能有 超过一条边 。 给…

(附源码)springboot建达集团公司平台 毕业设计 141538

springboot建达集团公司平台 摘 要 随着互联网大趋势的到来,社会的方方面面,各行各业都在考虑利用互联网作为媒介将自己的信息更及时有效地推广出去,而其中最好的方式就是建立网络管理系统,并对其进行信息管理。由于现在网络的发…

DAMOYOLO:基于DAMOYOLO训练数据集详细教程

前段时间yolov7的推出引起一篇热潮,接着rmyolo紧跟潮流,后面阿里的达摩院也推出了自己的yolo算法,怎么说呢,damoyolo推出依旧不少天了,现在才写博客,因为damoyolo给我的体验感不是很好。 先看下DAMOYOLO的…

安科瑞模拟信号隔离器BM-DIS/I 经2000V隔离输出DC4-20mA 二线制

安科瑞 王晶淼/刘芳 1.信号隔离器功能 BM系列模拟信号隔离器可以对电流、电压等电量参数或温度、电阻等非电量参数进行高速精确测量,经隔离转换成标准的模拟信号输出。既可直接与指针表、数显表相接,也可以与自控仪表(如PLC)、各…

nginx负载均衡实战练习

1、简介 nginx是一个web服务器,反向代理服务器、开源并且高性能,社区里面有很多工程师在维护这个项目。可以在官网(Index of /download/)下载组件。而且nginx可以用来做流量转发,也是是负载均衡功能,分散单…

160. 相交链表

给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表不存在相交节点,返回 null 。 图示两个链表在节点 c1 开始相交: 题目数据 保证 整个链式结构中不存在环。 注意,函数返回结果后…