Python 全栈体系【四阶】(二十二)

news2024/11/28 4:57:40

第五章 深度学习

二、推荐系统

3. 关联规则

3.1 Apriori

“啤酒与尿布”的故事产生于 20 世纪 90 年代的美国沃尔玛超市。沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现。原来,美国的妇女通常在家照顾孩子,所以她们经常会嘱咐丈夫在下班回家的路上为孩子买尿布,而丈夫在买尿布的同时又会顺手购买自己爱喝的啤酒。这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。

这个发现为商家带来了大量的利润,但是如何从浩如烟海却又杂乱无章的数据中,发现啤酒和尿布销售之间的联系呢?

3.1.1 Apriori 算法产生

1993 年美国学者 Agrawal 提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。Agrawal 从数学及计算机算法角度提出了商品关联关系的计算方法——Apriori 算法。

沃尔玛从上个世纪 90 年代尝试将 Aprior 算法引入到 POS 机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。

3.1.2 如何寻找?

在历史购物记录中,一些商品总是在一起购买。但人看上去不是那么的直观的,而是隐蔽的。让计算机做这事,设计算法让计算机自动去找,找到这样的模式(规律)。

目标:寻找那些总是一起出现商品。
mahout 实战—>机器学习实战

《mahout 实战》与《机器学习实战》一起购买的记录数占所有商品记录总数的比例——支持度(整体)

买了《mahout 实战》与《机器学习实战》一起购买的记录数占所有购买《mahout 实战》记录数的比例——置信度(局部)

需要达到一定的阈值

支持度、置信度越大,商品出现一起购买的次数就越多,可信度就越大。

支持度:在所有的商品记录中有 2%量是购买《mahout 实战》与《机器学习实战》

置信度:买《mahout 实战》的顾客中有 60%的顾客购买了《机器学习实战》

作用:找到商品购买记录中反复一起出现的商品,能帮助营销人员做更好的策略,帮助顾客方便购买。

策略:
1、同时购买的商品放一起
2、同时购买的商品放两端

支持度、置信度转化为数学语言进行计算:
A 表示《mahout 实战》B 表示《机器学习实战》

support(A->B) = P(AB) (《mahout 实战》和《机器学习实战》一起买占总的购买记录的比例)

confidence(A->B) = P(B|A) (购买了《mahout 实战》后,买《机器学习实战》占的比例)

项集:项的集合称为项集,即商品的组合。
k 项集:k 件商品的组合,不关心商品件数,仅商品的种类。
项集频率:商品的购买记录数,简称为项集频率,支持度计数。
注意,定义项集的支持度有时称为相对支持度,而出现的频率称为绝对支持度。
频繁项集:如果项集的相对支持度满足给定的最小支持度阈值,则该项集是频繁项集。
强关联规则:满足给定支持度和置信度阈值的关联规则。
请添加图片描述

3.1.3 明确问题

要找总是在一起出现的商品组合
提出衡量标准支持度、置信度(达到一定的阈值)
给出支持度、置信度直观计算方法
在计算方法中起决定因素的是频繁项集
由频繁项集轻松找到强关联规则

找关联规则 --> 找频繁项集

步骤:

  • 找出所有的频繁项集;这个项集出现的次数至少与要求的最小计数一样。如在 100 次购买记录中,至少一起出现。
  • 由频繁项集产生强关联规则;这些关联规则满足最小支持度与最小置信度。

先验性质:频繁项集的所有非空子集也一定是频繁的。
逆否命题:若一个项集是非频繁的,则它的任何超集也是非频繁的。

请添加图片描述
请添加图片描述

3.1.4 挑战
  • 多次数据库扫描

  • 巨大数量的候补项集

  • 繁琐的支持度计算

3.1.5 改善 Apriori: 基本想法
  • 减少扫描数据库的次数
  • 减少候选项集的数量
  • 简化候选项集的支持度计算
    请添加图片描述
3.1.6 代码

请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述

请添加图片描述
请添加图片描述

3.2 FPGrowth

相比 Apriori 算法需要多次扫描数据库,FPGrowth 只需要对数据库
扫描 2 次。

第 1 次扫描获得单个项目的频率,去掉不满足支持度要求的项,并对剩下的项排序。

第 2 次扫描建立一颗 FP-Tree 树。

3.2.1 例子
IDItems
1A,E,F,G
2A,F,G
3A,B,E,F,G
4E,F,G

{A,F,G}的支持度数为 3,支持度为 3/4。
{F,G}的支持度数为 4,支持度为 4/4。
{A}的支持度数为 3,支持度为 3/4。

{F,G}=>{A}的置信度为:{A,F,G}的支持度数除以{F,G}的支持度数,即 3/4

{A}=>{F,G}的置信度为:{A,F,G}的支持度数除以{A}的支持度数,即 3/3 4

挖掘强关联规则是在满足一定支持度的情况下寻找置信度达到阈值的所有商品组合。

3.2.2 规律

我们要找出哪些总是一起购买的商品,比如人们买薯片的时候通
常也会买鸡蛋,则[薯片,鸡蛋]就是一条频繁模式(规律)。

第一步:扫描数据库,每项商品按频数递减排序,删除频数小于最小支持度 MinSup 的商品。 (第一次扫描数据库)
薯片:7 鸡蛋:7 面包:7 牛奶:6 啤酒:4 (这里我们令 MinSup=4)以上结果就是频繁 1 项集,记为 F1。
F1 中排序 薯片:7 鸡蛋:7 面包:7 牛奶:6 啤酒:4

第二步:对于每一条购买记录,按照 F1 中的顺序重新排序。

IDItems
1薯片,鸡蛋,面包,牛奶
2薯片,鸡蛋,啤酒
3面包,牛奶,啤酒
4薯片,鸡蛋,面包,牛奶,啤酒
5薯片,鸡蛋,面包
6鸡蛋,面包,啤酒
7薯片,面包,牛奶
8薯片,鸡蛋,面包,牛奶
9薯片,鸡蛋,牛奶

第三步:把第二步得到的各条记录插入到 FP-Tree 中。

请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1577687.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

javaWeb新闻发布及管理系统

摘 要 随着电脑、智能手机等能够连接网络设备的家庭化和大众化,各种网站开始被设计和开发出来,功能多种多样,涉及的领域也各有不同,生活、商业、科技等等。而信息的发布是网络的一大特点,人们上网的主要需求就是汲取自…

2024年中国金融科技(FinTech)行业发展洞察报告

核心摘要: 金融监管体系的改革推动金融科技行业进入超级监管时代,数据要素应用与金融场景建设成为如今行业关注的重要领域,为金融机构提供以业务需求为导向的技术服务成为“厚积成势”阶段行业发展的新目标,市场参与者的“业技融…

抖音电商罗盘品牌人群运营策略指南

【干货资料持续更新,以防走丢】 抖音电商罗盘品牌人群运营策略指南 部分资料预览 资料部分是网络整理,仅供学习参考。 抖音运营资料合集(完整资料包含以下内容) 目录 品牌人群运营策略,旨在帮助品牌通过精细化运营提…

node相关

文章目录 nodeJS是什么?优缺点使用场景全局对象适合用于构建 I/O 密集型不适用于计算密集型任务 nodeJS是什么? Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行时环境,它是跨平台和开源的。 Node.js 使用高效、轻量级的事件驱动、非阻…

线性代数难学怎么办?到星河社区让飞桨来帮忙!

用飞桨帮我们好好学线性代数 参考自《动手学深度学习》第二章 《漫画线性代数》等。星河社区代码一键执行:线性代数难学怎么办?到星河社区让飞桨来帮忙! 线性代数,这个在数学领域举足轻重的学科,是众多学科的基础&am…

MySQL8.3.0 master/slave 主从复制方案

一 、什么是MySQL主从 MySQL主从(Master-Slave)复制是一种数据复制机制,用于将一个MySQL数据库服务器(主服务器)的数据复制到其他一个或多个MySQL数据库服务器(从服务器)。这种复制机制可以提供…

Shoplazza闪耀Shoptalk 2024,新零售创新解决方案引领行业新篇章!

在近期举办的全球零售业瞩目盛事——Shoptalk 2024大会上,全球*的零售技术平台-店匠科技(Shoplazza)以其*的创新实力与前瞻的技术理念,成功吸引了与会者的广泛关注。此次盛会于3月17日至20日在拉斯维加斯曼德勒湾隆重举行,汇聚了逾万名行业精英。在这场零售业的盛大聚会上,Shop…

MATLAB | 怎样绘制更有立体感的柱状图

之前写了一篇文章说明了MATLAB图例可以自己diy,这次又有了diy的机会,我开发了一个简单的小工具,能够实现绘制伪3d的柱状图,大概效果如下: 使用说明 由于涉及的代码比较接近MATLAB底层的图形对象,有点东西还…

MySQL学习笔记------事务

事务 事务是一组操作的集合,他是一个不可分割的单位,事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求,即这些操作要么同时成功,要么同时失败 事务操作 create table account(id int comment ID,name varchar(10) …

怎样恢复已删除的照片?教你3个方法,一键恢复!

很多人喜欢以拍照的形式记录生活,手机里的照片就很容易堆积成山,但当内存不够用时就不得不选择删除。可是这些美好的照片始终是很多人心中抹不去的记忆,那么该怎样恢复已删除的照片呢?下面几招,教你一键恢复&#xff0…

基于opencv的猫脸识别模型

opencv介绍 OpenCV的全称是Open Source Computer Vision Library,是一个跨平台的计算机视觉库。OpenCV是由英特尔公司发起并参与开发,以BSD许可证授权发行,可以在商业和研究领域中免费使用。OpenCV可用于开发实时的图像处理、计算机视觉以及…

使用美化方法设计项目主窗体(二)

使用美化方法设计项目主窗体 分析效果图的实现 效果图: 新建 Windows 窗体 新窗体命名:FrmMain.cs修改窗体的位置:StartPosition:CenterScreen窗体的无边框设计:FormBorderStyle:none修改窗体的大小&a…

JDK下载及安装说明

1.JDK下载 访问oracle官网:http://www.oracle.com 在首页点击Downloads,进入oracle软件下载页。 在下载页面,点击Java。 选择Java (JDK) for Developers,点击。 在 Java SE Downloads 页面,点击中间的DO…

如何挂载img镜像以及lvm分区

上一章节,我在win10下利用qemu安装了一个aarch64的 kylin-server-v10的ISO系统镜像包。安装时将系统安装到了虚拟硬盘kylin-server-v10.img 里,现在有个需求,要读出kylin-server-v10.img中文件系统的内容。 通过fdisk命令可以看到 kylin-ser…

Docker容器(六)网络配置与数据卷

一、高级网络配置 1.1概述 当 Docker 启动时,会自动在主机上创建一个 docker0 虚拟网桥,实际上是 Linux 的一个 bridge,可以理解为一个软件交换机。它会在挂载到它的网口之间进行转发。 同时,Docker 随机分配一个本地未占用的私有…

位置编码学习

基本概念 关于位置编码的一切:https://kexue.fm/archives/8130#T5%E5%BC%8F 残差连接 Post Norm 关注深度 残差的意思是给前面的层搞一条“绿色通道”,让梯度可以更直接地回传,但是在Post Norm中,这条“绿色通道”被严重削弱…

助贷行业的业务增长工具:CRM客户管理系统的核心作用与应用流程

在当前助贷行业,企业如何更好地抓住客户需求、提高业务效率、优化服务体验一直是助贷企业关注的焦点。在这个背景下,一款优秀的CRM客户管理系统无疑成为了实现这些目标的关键。本文将探讨这样一款专为助贷行业打造的CRM客户管理系统,看它是如…

极市平台 | 综述:一文详解50多种多模态图像融合方法

本文来源公众号“极市平台”,仅用于学术分享,侵权删,干货满满。 原文链接:综述:一文详解50多种多模态图像融合方法 0 极市导读 本工作总结了50篇论文中Lidar和camera的多模态融合的一些概念方法。笔者结合原文以及自…

重庆餐饮设计公司排行榜曝光,这些企业值得关注!

在如今饮食文化多元化、餐饮产业蓬勃发展的时代,餐饮设计企业扮演着至关重要的角色。一个好的餐厅设计可以为顾客提供舒适、美观的用餐环境,也能够提升餐厅的整体形象和竞争力。重庆作为中国西南地区的经济中心和旅游胜地,餐饮业发展迅速&…

用二八定律分析零售数据,不就更直观了吗?

20%的商品贡献了80%的销售金额,你会不会想知道这些商品的销售金额、毛利、销售金额累计占比、毛利累计占比,会不会想知道这些商品在各个门店的销售表现?看是否能进一步提高销售金额,提高毛利。这样的报表该怎么做?奥威…