胡扯推荐算法(协同)及其dome实现

news2024/11/28 0:39:51

文章目录

  • 前言
    • 推荐系统定义
    • 基本分类
    • 相似度计算
      • 欧式距离
      • 皮尔逊系数
      • 余弦相似度
  • 协同过滤
  • 案例
    • 数据定义
    • 相似度计算
    • 推荐
    • svd奇异值分解优化
    • 完整代码
  • 总结

前言

打瞌睡遇到送枕头的感觉真爽嘿嘿 @BoyC啊

废话不多说,开始吧。

推荐系统定义

推荐系统(Recommendation System, RS),就是根据用户的日常行为,自动预测用户的喜好,为用户提供更多完善的服务。例如给DY上的小姐姐疯狂点赞此时DY会疯狂推送小姐姐,那么我们这边也是这样的。

基本分类

主要可以分为以下两类:

  1. 基于内容(content-based)的推荐。主要依据的是推荐项的性质。
  2. 基于协同过滤(collaborative filtering)的推荐。主要依据的是用户或者项之间的相似性。

此外基于协同过滤的推荐系统用可以分为两类:

  1. 基于项的推荐系统。主要依据的是项与项之间的相似性。
  2. 基于用户的推荐系统。主要依据的是用户与用户之间的相似性。

所以我们的推荐算法,推荐系统大体上就是做这几件事情,基于用户时,找到和你趣味相投的小伙伴,通过这个小伙伴有的去补齐你没有的,举个例子,假设你喜欢刷小姐姐,但是你没有关注A主播,此时系统发现有个其他和你相似的用户都关注了A,那么下次就给你推荐A。那么基于项,这个类似,看你对于项的定义,总之,就是找到和当前有的类似的玩意,然后按照评分给你推荐,比如你刷视频的时候发现你对科技频道很感兴趣,那么此时,把和科技频道相似的例如数学频道推荐给你。

相似度计算

那么在我们这边比较核心的地方就是咱们的一个相似度的一个计算。那么这里的话有几个方法。

欧式距离

这个就不用我多说了吧,例如Lmeans用的比较多的一个方法,直接分类是吧。

皮尔逊系数

这个也不用我多说了吧:
在这里插入图片描述
高中数学就已经开始见面了的东西。

余弦相似度

这个就更简单了,把两个东西,变成一个向量,计算向量夹角的值,然后的话,越相似越接近1.
在这里插入图片描述

协同过滤

ok,此时的话,基本的概念是说完了,那么接下来说一说神马是协同过滤这个玩意。

这个东西其实容易理解。首先我们还是来好好解释一下这个名词的意思,首先什么是协同,过滤的话很好理解,我们的推荐算法本身就是在做一种过滤嘛。那么协同呢,我们把这两个字拆开来理解,说白了就是,联合,相同,联合类似的事物进行推断,之后过滤出可信度最高的一组结果。

所以我们基本上可以开始梳理出一套流程,那就是:

在猜测你喜欢啥的时候,例如推测你喜欢谁,那么此时我们的流程是这样子的

  1. 看看你的情史(你的历史数据/最近操作,点赞收藏等等)
  2. 根据你的情史,去找找和你有类似经历的家伙,查看这些家伙现在和什么样的女生在一起(找和你类似的用户)
  3. 找出和你情况最类似的几个家伙,看看他们现在和什么女生在一块(假设这些人存在,这里请不要带入你自己,我知道你没有)(找出相似度较高的一组用户的喜好的标签之类的数据)
  4. 判断那些家伙和那些女孩是不是达到了情侣程度,在筛选一次,找出那些家伙中的女朋友(选出了相似度高的用户喜好的标签后,筛选出他们最喜欢的几组标签)
  5. 结合那些女孩的特点,在你熟悉的圈子里面找到你最有可能喜欢的女孩(拿到推荐标签,到具体服务里面找到实际的数据)

那么这个就是一个基本大致的流程,这里不要对号入座哈,相信自己,你绝对是和我一样的!

案例

那么接下来,我们来玩玩这个。这里的话我们来玩玩这个基于用户的过滤,这里我们还是拿那个上面的例子举个栗子吧,就是假设咱们有一个脱单App,现在有一些数据,我们现在要做一个匹配(给你推荐什么类型的女孩子是适合你的)

但是咱们这块的话简化一下流程,先前是还要找到和你相似的家伙,现在的话简化一下,我们假设数据是这样的:
在这里插入图片描述
我们这边就只是说,根据你目前在这个脱单App产生的一些数据,例如上面表中表示的是,当前这个用户点在了上面类型女孩多少次。我们这边通过这些你点赞的女孩类型去推测你会对哪些类型感兴趣。这个时候你可能会说了,我都点赞了,我肯定是对点赞的女孩类型感兴趣了,如果不是喜欢谁TM天天看咧,但是怎么说呢,你当前喜欢这些女孩类型可能只是你目前只能接触到这些女生或者男生,有可能有更好的你压根没有接触到(等等党,不吃亏)那么这个时候,我是不是可能根据别的用户,别的一些也对你当前点赞了的女孩类型的用户,他们所喜欢的其他的类型的女孩进行一个拓展推荐,甚至就是说,我们发现你当前点赞了女孩类型9,此时我们发现点赞了9这个类型的用户都点赞了类型1,并且点赞的次数远远大于类型9,那么是不是有可能是说类型1可能会更好?

所以这个就是咱们的这个推荐的一个逻辑。

ok,那么首先对于这个我们要做的其实很简单,咱们这里的话其实有两个方案。

  1. 基于用户去推荐,看看相似的用户喜欢啥类型
  2. 直接基于标签类型去做,看看相似的标签还有那些
    但是不管是哪一种,咱们都是基于这个目前的数据去做的。

那么咱们这边的话就是直接基于这个第2点去做吧。

数据定义

我们看到数据定义的代码:

    data_ = [[0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5],
            [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],
            [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],
            [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],
            [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],
            [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],
            [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],
            [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],
            [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],
            [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],
            [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]

    feature = ["女孩类型"+str(i) for i in range(1,len(data_[0])+1)]
    users = ["用户" + str(i) for i in range(1,len(data_)+1)]
    data = np.mat(data_)
    df = pd.DataFrame(data, columns=feature, index=users)
    print("测试数据为:")
    print(df)

在这里插入图片描述

相似度计算

咱们的相似度是基于这个用户的点赞来算的,群众的眼睛是雪亮的嘛。


    def cos_sim(self,x, y):
        """
        计算余弦值(相似度
        :param x:
        :param y:
        :return:
        """
        return ((x * y.T) / (np.sqrt(x * x.T) * np.sqrt(y * y.T)))[0, 0]

    def similarity(self,data):
        """
        计算相似度
        :return:
        """
        m = np.shape(data)[0]
        simil = np.mat(np.zeros((m, m)))

        for i in range(m):
            for j in range(i, m):
                if j != i:
                    simil[i, j] = self.cos_sim(data[i, :], data[j, :])
                    simil[j, i] = simil[i, j]
                else:
                    simil[i, j] = 0
        return simil

这里用的是cos,计算简单一点。

推荐

咱们现在有了这个相似度,我们的相似度矩阵是一个二维的,此时表示的是类别之间的一个关系。
那么此时传入一个用户当前喜欢哪一些类型,计算出这些类型相似的标签,然后做出一个排序,推荐。

   def __recommend(self,data, simil, user):
        """
        根据当前的用户进行一个推荐,通过咱们的这个
        相似度矩阵,然后进行评分
        :param data:
            我们这边是对用户喜欢的女孩类型进行推荐,所以data做了一个转置
        :param simil:
            相似度矩阵,我们这里做的是不同女孩类型的相似度
        :param user:
            要知道哪些用户的一个推荐
        :return:
        interaction: 互动(其实就是原来的表)
        """
        m, n = np.shape(data)
        interaction = data[:, user].T
        predict = {}
        not_inter = []
        for i in range(n):
            # 用户没有点赞的类型
            if interaction[0, i] == 0:
                not_inter.append(i)
            else:
                predict[i] = interaction[0,i]

        # 对点赞进行预测
        for x in not_inter:

            for j in range(m):
                if interaction[0, j] != 0:
                    if x not in predict:
                        predict[x] = simil[x, j] * interaction[0, j]
                    else:
                        predict[x] = predict[x] + simil[x, j] * interaction[0, j]
        # 按照预测的评分大小从大到小排序
        return sorted(predict.items(), key=lambda d: d[1], reverse=True)

如果你想基于用户也简单,反一下。

此时我们还可以筛选出前面几个


    def RecomtopK(self,user,k):
        """
        推荐前面K个
        :param predict:
        :param k:
        :return: 返回适合的类型的下标以及对应的评分
        """
        data_T = self.data.T
        if(self.simil.all()==None):
            raise Exception("请先build")
        predict = self.__recommend(data_T, self.simil, user)

        top_recom = []
        len_result = len(predict)
        if k >= len_result:
            top_recom = predict
        else:
            for i in range(k):
                top_recom.append(predict[i])
        return top_recom

svd奇异值分解优化

之后的话,咱们这里还涉及到一个优化,就是这个svd,主要是计算咱们的这个相似度矩阵的时候的一个优化,通过svd,可以对原来的矩阵进行一个压缩,之后的加速运算得到相似度矩阵。
因为这个协同过滤其实最重要的就是计算出相似度矩阵,之后通过这个矩阵进行一个搜索过滤。

    def __svd(self,data,threshold=0.9):
        """
        :param data: 
        :param threshold: 保留多少特征
        :return: 
        """
        n = np.shape(data)[1]
        U, Sigma, VT = np.linalg.svd(data)
        sig2 = Sigma ** 2
        cut = 0
        for i in range(n):
            if sum(sig2[:i]) / sum(sig2) > threshold :
                cut = i
                break
        Sig4 = np.mat(np.eye(cut) * Sigma[:cut])
        xformedItems = data.T * U[:, :cut] * Sig4.I
        svd_data = xformedItems.T
        return svd_data

完整代码

之后是完整的代码:

import numpy as np
import pandas as pd

class RecmBaseDome(object):

    def __init__(self,data):
        self.data = data
        self.simil = None

    def cos_sim(self,x, y):
        """
        计算余弦值(相似度
        :param x:
        :param y:
        :return:
        """
        return ((x * y.T) / (np.sqrt(x * x.T) * np.sqrt(y * y.T)))[0, 0]

    def similarity(self,data):
        """
        计算相似度
        :return:
        """
        m = np.shape(data)[0]
        simil = np.mat(np.zeros((m, m)))

        for i in range(m):
            for j in range(i, m):
                if j != i:
                    simil[i, j] = self.cos_sim(data[i, :], data[j, :])
                    simil[j, i] = simil[i, j]
                else:
                    simil[i, j] = 0
        return simil

    def __recommend(self,data, simil, user):
        """
        根据当前的用户进行一个推荐,通过咱们的这个
        相似度矩阵,然后进行评分
        :param data:
            我们这边是对用户喜欢的女孩类型进行推荐,所以data做了一个转置
        :param simil:
            相似度矩阵,我们这里做的是不同女孩类型的相似度
        :param user:
            要知道哪些用户的一个推荐
        :return:
        interaction: 互动(其实就是原来的表)
        """
        m, n = np.shape(data)
        interaction = data[:, user].T
        predict = {}
        not_inter = []
        for i in range(n):
            # 用户没有点赞的类型
            if interaction[0, i] == 0:
                not_inter.append(i)
            else:
                predict[i] = interaction[0,i]

        # 对点赞进行预测
        for x in not_inter:

            for j in range(m):
                if interaction[0, j] != 0:
                    if x not in predict:
                        predict[x] = simil[x, j] * interaction[0, j]
                    else:
                        predict[x] = predict[x] + simil[x, j] * interaction[0, j]
        # 按照预测的评分大小从大到小排序
        return sorted(predict.items(), key=lambda d: d[1], reverse=True)


    def __svd(self,data,threshold=0.9):
        """
        :param data: 
        :param threshold: 保留多少特征
        :return: 
        """
        n = np.shape(data)[1]
        U, Sigma, VT = np.linalg.svd(data)
        sig2 = Sigma ** 2
        cut = 0
        for i in range(n):
            if sum(sig2[:i]) / sum(sig2) > threshold :
                cut = i
                break
        Sig4 = np.mat(np.eye(cut) * Sigma[:cut])
        xformedItems = data.T * U[:, :cut] * Sig4.I
        svd_data = xformedItems.T
        return svd_data

    def build(self,svd=True,threshold=0.9):
        """
        构建这个推荐系统(表)
        :param svd: 要不要使用svd对数据进行一个压缩
        :param threshold: 
        :return: 
        """

        svd_data = self.data
        if(svd):
            svd_data = self.__svd(self.data,threshold)
        svd_data = svd_data.T
        self.simil = self.similarity(svd_data)



    def RecomtopK(self,user,k):
        """
        推荐前面K个
        :param predict:
        :param k:
        :return: 返回适合的类型的下标以及对应的评分
        """
        data_T = self.data.T
        if(self.simil.all()==None):
            raise Exception("请先build")
        predict = self.__recommend(data_T, self.simil, user)

        top_recom = []
        len_result = len(predict)
        if k >= len_result:
            top_recom = predict
        else:
            for i in range(k):
                top_recom.append(predict[i])
        return top_recom

if __name__ == '__main__':
    data_ = [[0, 0, 0, 0, 0, 3, 0, 0, 0, 0, 5],
            [0, 0, 0, 3, 0, 4, 0, 0, 0, 0, 3],
            [0, 0, 0, 0, 4, 0, 0, 1, 0, 4, 0],
            [3, 3, 4, 0, 0, 0, 0, 2, 2, 0, 0],
            [5, 4, 5, 0, 0, 0, 0, 5, 5, 0, 0],
            [0, 0, 0, 0, 5, 0, 1, 0, 0, 5, 0],
            [4, 3, 4, 0, 0, 0, 0, 5, 5, 0, 1],
            [0, 0, 0, 4, 0, 4, 0, 0, 0, 0, 4],
            [0, 0, 0, 2, 0, 2, 5, 0, 0, 1, 2],
            [0, 0, 0, 0, 5, 0, 0, 0, 0, 4, 0],
            [1, 0, 0, 0, 0, 0, 0, 1, 2, 0, 0]]

    feature = ["女孩类型"+str(i) for i in range(1,len(data_[0])+1)]
    users = ["用户" + str(i) for i in range(1,len(data_)+1)]
    data = np.mat(data_)
    df = pd.DataFrame(data, columns=feature, index=users)
    print("测试数据为:")
    print(df)
    #每次上面那个pd就是拿来看的
    recbase = RecmBaseDome(data)
    recbase.build()
    top_recom = recbase.RecomtopK(0,3)
    print(top_recom)
    #接下来看看这个用户0(用户1)适合的类型是啥
    items  = []
    for top in top_recom:
        items.append(feature[top[0]])
    print(items)

之后是咱们的一个测试:
在这里插入图片描述
我们测试的是用户1

0, 0, 0, 0, 0, 4, 0, 0, 0, 0, 5

可以发现这个用户对于类型6的女孩也是有点赞的而且点赞了3次,但是top3却没有这个类型6。这个也印证了前面说的,可能更加适合的在后面,那么依据是什么呢,很简单“群众的眼睛是雪亮的”,类型6可能存在一定的问题,当然也有可能是说,你最先发现了类型6的好,她可能是影藏款,但是随着数据量加大,这种可能性还是比较低的。

总结

水完了一个dome,下班~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/3837.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

张益唐与黎曼猜想

一个人活在世界上,可以有不同层次的贡献,有正的有负的。唐山烧烤店打人的那种人,就是典型的负的贡献。正的贡献有大有小,像我这样开发一个小软件,写一段小博文,这是小的贡献;像张益唐这样&#…

zlMediaKit 9 ThreadPool模块

semaphore.h TaskQueue.h threadgroup.h ThreadPool.h ThreadPool semaphore 基于条件变量和锁实现的信号量post和wait语义 #include <mutex> #include <condition_variable>namespace toolkit {class semaphore { public:explicit semaphore(size_t initia…

Linux命令从入门到实战 ----查找文件和目录压缩和解压缩

文章目录搜索查找find查找文件和目录locate快速定位文件路径grep 过滤查找| 管道符which命令用于查找文件。whereis压缩和解压缩gzip/gunzip 压缩zip/unzip压缩tar打包总结搜索查找 find查找文件和目录 find指令将从指令指定目录下向下遍历其各个子目录&#xff0c;将满足条件…

算法60天:day46

算法60天&#xff1a;day46动态规划-单词拆分动态规划-多重背包问题动态规划-背包总结动态规划-单词拆分 力扣链接 class Solution { public:bool wordBreak(string s, vector<string>& wordDict) {unordered_set<string> wordSet(wordDict.begin(),wordDict…

RabbitMQ消息发送和接收(实例)

消息发送&#xff1a; 1.首先启动rabbitmq 2.查看防火墙状态&#xff0c;如果是开启状态则需要关闭防火墙 3.通过浏览器访问rabbitmq控制台&#xff0c;ip15672端口号 &#xff0c;例如http://192.168.174.129:15672 登录时输入自己的此前设置的登录名和密码 4.打开idea,创建r…

农产品果蔬商城交易系统(Java+Web+MySQL)

目录 摘要 I Abstract II 前言 1 1 课题简介 2 1.1 选题背景 2 1.2 课题的意义 2 1.3 系统目标 3 2. 可行性研究 5 2.1 技术可行性 5 2.2 经济可行性 5 2.3 操作可行性 5 2.4 法律可行性 6 3. 需求分析 7 3.1 系统需要解决的主要问题 7 3.2 系统具备的基本功能 7 3.3 数据流图…

MySQL开篇:简单的库操作,表操作,数据类型

✨博客主页: 心荣~ ✨系列专栏:【MySQL】 ✨一句短话: 难在坚持,贵在坚持,成在坚持! 文章目录一. 什么是MySQL二. 基础库操作1. 创建数据库2. 查看所有数据库3. 选中数据库4. 删除数据库三. 设置数据库的编码字符集四. MySQL数据类型1. 数值类型2. 字符串类型3. 日期数据类型五…

_Linux 动态库

文章目录0. 前言1. 生成动态库1.1 我们把静态库和动态库打包1.2 当动静库同时存在的时候默认生成的是动态库1.3 -static2. 动态库的使用2.1 运行动态库的方法3. 库文件名称和引入库的名称0. 前言 链接&#xff1a;静态库文章 上一章我们讲解了静态库的生成和两种使用&#xff…

Netty架构设计

目录 Selector模型 SelectableChannel Channel注册到Selector SelectionKey 遍历SelectionKey 事件驱动 责任链模式 Selector模型 Java NIO是基于Selector模型来实现非阻塞IO&#xff0c;Netty底层基于Java NIO实现的&#xff0c;因此也使用了Selector模型。 Selector提…

Go语言五大主流web框架

以下 star数截止2022年11月份 1.Gin&#xff08;64.1K&#xff09; 项目简介&#xff1a;Gin 是一个用 Go (Golang) 编写的 HTTP Web 框架。 它具有类似 Martini 的 API&#xff0c;但性能比 Martini 快 40 倍。 仓库地址&#xff1a;https://github.com/gin-gonic/ginhttps…

TensorRt安装和命令行测试

1、选择TensorRt版本 安装tensorrt前&#xff0c;需要先了解自己的显卡算力、架构等&#xff0c;点击 算力列表链接 对号入座。 这里仅展示RTX和Titan系列&#xff0c;其他系列可在当前网页选择。 1.1、cuda版本 首先需要安装cuda&#xff0c;其版本并不是最新就好&#xf…

基于SSM跨境电商网站的设计与实现/海外购物平台的设计

通过对跨境电商网站的编写&#xff0c;使得自己对于javaweb技术和数据库理论有了更深的认识。课题设计javaweb&#xff0c;能够学习网页编程知识。此课题设计的知识有HTML&#xff0c;CSS和MVC模式等。还跟javaScript的知识有关。在不断的学习过程中提高自己的编程能力。本跨境…

TCP/IP网络参考模型

目录 TCP/IP四/五层模型 应用层常见协议——传输数据PDU 传输层协议——传输数据段 端口号 TCP面向连接服务 UDP无面向连接服务 网络层协议——传输数据包 IP协议 数据链路层——传输数据帧 Ethernet帧格式 IEEE802.3帧格式 TCP/IP四/五层模型 标准定义的TCP/IP模型…

使用idea自动开发springMVC程序及表单标签

1.新建项目 选择Spring—>SpringMVC——>Download 点击next&#xff0c;起好项目名称project name&#xff0c;我这里项目名是MVCTag&#xff0c;选择好项目的路径project location&#xff0c;然后点击确定就会自动加载SpringMVC所需要的全部jar包 项目新建完成&…

【Spring5】基于注解的Bean管理简直是Spring中的Spring

文章目录1 什么是注解2 基于注解方式实现对象的创建3 组件扫描配置的细节4 基于注解实现属性的注入4.1 几种注解概述4.2 Autowire注解演示4.3 Qualifier注解演示4.4 Value注解演示5 纯注解的开发模式写在最后1 什么是注解 注解是代码中特殊的标记&#xff0c;格式如下&#xf…

Latex论文排版

O、部分参考&#xff1a; https://blog.csdn.net/qq_41982200/article/details/123051883?spm1001.2014.3001.5506 https://blog.csdn.net/qq_27353621/article/details/127170340 一、基础知识 1、空一行 → 分一段 空很多行也只是分一段 2、加粗、斜体 3、新章节 4…

JAVA学习笔记(二)

JAVA学习笔记 包1.1基本使用 2.2包的命名 2.3常用的包 2.4使用细节 访问修饰符面向对象 3.1面向对象三大特征 封装、继承、多态 3.2封装介绍 3.3封装的理解和好处 3.4封装的实现步骤 3.5构造器和setXXX结合 3.6继承&#xff08;细节&#xff09; 3.7super基本用法 3.8super给…

Kotlin基础学习笔记之第六章——kotlin的类型系统

一、本章简介 与java相比&#xff0c;kotlin中引入了一些新特性&#xff0c;他们是提升代码可读性的基本要素&#xff0c;比如&#xff1a;对可空的类型和只读集合的支持。与此同时&#xff0c;kotlin去掉了一些java类型系统中不必要的或者有问题的特性&#xff0c;比如把数组作…

docker安装mysql同步数据到linux与docker容器卷

可以去dockerhub搜索mysql寻找命令 docker run -p 3310:3306 --name mysql57 -v /home/mysql/conf:/etc/mysql/conf.d -v /home/mysql/datadir:/var/lib/mysql -e MYSQL_ROOT_PASSWORD123456 -d mysql:5.7 -e配置启动容器mysql 需要配置密码 -v 是绑定容器卷到linux 上 …

阿里二面,前端开发在web3.0中该如何应用,答完面试官对我笑了笑

近期听说周星驰也开始招募web3.0的人才了&#xff0c;可见其火爆程度真是不一般啊&#xff0c;不得不说的是&#xff0c;这又是一场新的革命&#xff0c;必将带来腥风血雨。 对于前端开发来说&#xff0c;很多人可能刚刚准备学习&#xff0c;刚刚入门&#xff0c;刚刚在企业中找…