基于矩阵分解算法的评分预测实现---信息检索课设以及所涉及的深度学习原理

news2024/11/22 9:07:28

一、实验环境

Windows,Python 3

Python作为主要编程语言,使用PythonPandasNumPyMatplotlib等库

二、实验内容

主要任务

  1. 查阅相关资料,了解矩阵分解算法的基本概念、应用场景及其难点。重点了解SVD(Singular Value Decomposition,奇异值分解)系列方法。
  2. 掌握Python语言的基本使用。
  3. 了解梯度下降算法概念,熟悉并复现矩阵分解算法。
  4. 标准评测数据集MovieLens上验证矩阵分解算法。
  5. 学习numpy或pandas的基本使用方法,能够对ratings.csv和movies.csv文件中的数据进行提取。使用numpy或sklearn中的知识,随机划分训练集、验证集、测试集,比例为8:1:1。
  6. 使用Python语言或利用PyTorch、TensorFlow等深度学习库,复现矩阵分解算法,在标准评测数据集MovieLens上验证该算法,并且能够取得较低的均方误差(MSE不能高于1.5)。

三、实验过程

第一步:学习numpy或pandas的基本使用方法,能够对ratings.csv和movies.csv文件中的数据进行提取。

运行结果:

通过这些处理,生成了两个新的文件moviesProcessed.csv和ratingsProcessed.csv,其中包含了处理后的电影信息和电影评分信息,为后续的推荐系统构建提供了处理后的数据。

第二步:划分使用numpy或sklearn中的知识,随机划分训练集、验证集、测试集,比例为8:1:1。

随机划分训练集(80%)train_data、验证集(10%)valid_data和测试集(10%)test_data。

第三步:使用Python语言或利用PyTorch、TensorFlow等深度学习库,复现矩阵分解算法。

为了创建矩阵分解模型,我们使用嵌入来显示用户和电影,使用点积来捕捉它们之间的相互作用。

我们还引入了用户和电影的偏置,以考虑用户和电影的整体评分倾向。

def matrix_factorization_model(num_users, num_movies, embedding_size=10):
    user_input = Input(shape=(1,), name='user_input')
    user_embedding = Embedding(input_dim=num_users, output_dim=embedding_size, input_length=1)(user_input)

    movie_input = Input(shape=(1,), name='movie_input')
    movie_embedding = Embedding(input_dim=num_movies, output_dim=embedding_size, input_length=1)(movie_input)
   偏置:

    user_bias = Embedding(input_dim=num_users, output_dim=1, input_length=1)(user_input)
    movie_bias = Embedding(input_dim=num_movies, output_dim=1, input_length=1)(movie_input)

    dot_user_movie = Dot(axes=2)([user_embedding, movie_embedding])
    dot_user_movie = Add()([dot_user_movie, user_bias, movie_bias])
    prediction = Flatten()(dot_user_movie)

    model = Model(inputs=[user_input, movie_input], outputs=prediction)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1893922.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2023年的Facebook营销:超级完整指南

Facebook营销不是可选的,是必须的。Facebook是世界上使用最多的社交平台,每天吸引22.9亿活跃用户。 它也不全是度假照片和虚张声势。对于53.2% 的 16-24 岁互联网用户,社交媒体是他们进行品牌研究的主要来源。而且,66% 的 Facebo…

红黑树插入删除流程(流程图)

红黑树插入删除流程(流程图) 红黑树性质 左根右(二叉树)根叶黑(根节点是黑色的)不红红(不存在相邻两个红色节点)黑路同(对于每个节点,从该节点出发到任一空叶节点所经过…

学会python——用python制作一个登录和注册窗口(python实例十八)

目录 1.认识Python 2.环境与工具 2.1 python环境 2.2 Visual Studio Code编译 3.登录和注册窗口 3.1 代码构思 3.2 代码实例 3.3 运行结果 4.总结 1.认识Python Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。 Python 的设计具有很强的可读…

tapd 与国内外主流的8大项目管理软件大对比

对比Tapd与8大项目管理工具:PingCode、Worktile、Redmine、Teambition、广联达、Jira、禅道、飞书。 Tapd 是腾讯推出的一款敏捷开发管理工具,特别适合那些需要高效协作和快速迭代的敏捷开发团队。它支持多种敏捷方法论,包括Scrum和Kanban&am…

二轴机器人装箱机:重塑物流效率,精准灵活,引领未来装箱新潮流

在现代化物流领域,高效、精准与灵活性无疑是各大企业追求的核心目标。而在这个日益追求自动化的时代,二轴机器人装箱机凭借其较佳的性能和出色的表现,正逐渐成为装箱作业的得力助手,引领着未来装箱新潮流。 一、高效:重…

字节码编程ASM之生成变量并sout

写在前面 本文看下如何通过asm生成变量并sout。 1:代码 直接看代码吧,注释很详细,有不懂的,留言告诉我: package com.dahuyuo.asmtest;import org.objectweb.asm.*; import org.objectweb.asm.commons.AdviceAdapt…

PE文件学习

一、介绍 PE文件,即Portable Executable文件,是一种标准的文件格式,主要用于微软的Windows操作系统上。这种格式被用来创建可执行程序(如.exe文件)、动态链接库(.DLL文件)、设备驱动&#xff0…

千万不要用国产BI,不然你会发现它性价比奇高——以奥威BI软件为例

在信息技术日新月异的今天,企业对于商业智能(BI)软件的选择往往陷入了一个误区:盲目追求国际品牌,却忽视了身边那些性价比极高的国产精品。如果你不慎踏入了“千万不要用国产BI”的陷阱,那么奥威BI软件将是…

豆包Marscode体验官,体验云编程和AI助手加持的快乐

我正在参加「豆包MarsCode初体验」征文活动,活动链接:https://juejin.cn/post/7384997062416252939?utm_sourcejuejin&utm_mediumpush&utm_campaigntiyanguan Marscode官网地址:工作台 - MarsCode 其实早在前不久,我就…

谷歌地图 | 路线优化 API 助力企业解锁物流新潜能

在当今竞争激烈的市场环境中,企业面临着越来越大的压力,需要提高运营效率、降低成本并满足不断增长的客户期望。对于依赖车队进行交付或服务的企业来说,这些挑战尤为艰巨。 近日, Google 地图平台路线优化 API 已经正式上线。路线…

服务器工具集合推荐

推荐一个朋友开源的服务器运维整合工具,目前的功能包括: ddns,rdp、ssh终端、ftp、http代理,支持在线文件编辑,文件管理,docker,进程,系统监控、wol唤醒,电脑远程开机,点对点&#…

【STM32】在标准库中使用DMA

1.MDA简介 DMA全称Direct Memory Access,直接存储区访问。 DMA传输将数据从一个地址空间复制到另一个地址空间。当CPU初始化这个传输动作,传输动作本身是由DMA控制器来实现和完成的。DMA传输方式无需CPU直接控制传输,也没有中断处理方式那样保留现场和…

科普文:Linux服务器性能调优之CPU调度策略和可调参数

概叙 进程 进程是操作系统虚拟出来的概念,用来组织计算机中的任务。计算机的核心是CPU,它承担了所有的计算任务;而操作系统是计算机的管理者,它负责任务的调度、资源的分配和管理,统领整个计算机硬件;应用…

Raylib 解决拖拽与绘制坐标,在GPU坐标与鼠标坐标不相同的解决办法

注意数字可以通过加减排列组合得出 原理,诞生于发现可以拖拽,数据加减,与左下角排列,发现坐标系可以按左下角为原点理解 int positionx 0 - draftx;int positiony 0 drafty; // 相对于左下角位置,水平方向就是当…

TensorRT-Int8量化详解

int8量化是利用int8乘法替换float32乘法实现性能加速的一种方法 对于常规模型有:y kx b,此时x、k、b都是float32, 对于kx的计算使用float32的乘法 对于int8模型有:y tofp32(toint8(k) * toint8(x)) b,其中int8 * int8结果为in…

软件安全测试之代码审计包括哪些内容?代码审计报告该如何获取?

在信息化时代,随着计算机技术的快速发展,软件产品已经成为了人们生活和工作中不可或缺的一部分。然而,随着软件产品的复杂性和应用范围的扩大,软件安全性问题日益凸显,给企业和个人带来了极大的风险。为了保障软件系统…

JAVA每日作业day7.4

ok了家人们今天学习了Date类和simpleDateformat类,话不多说我们一起看看吧 一.Date类 类 java.util.Date 表示特定的瞬间 ( 日期和时间 ) ,精确到毫秒。 1.2 Date类的构造方法 public Date(): 用来创建当前系统时间对应的日期对象。 public Date(long …

BBA车主,千万别去试驾问界M9

文 | AUTO芯球 作者 | 雷慢&响铃 我劝你啊,千万别去试驾问界M9, 不然啊,可能1个小时50万就没了, 不信你看这个“大冤种”, 他曾经发誓打死不买电车, 考虑了三、四年换宝马X5, 结果谈完…

@react-google-maps/api实现谷歌地图嵌入React项目中,并且做到点击地图任意一处,获得它的经纬度

1.第一步要加入项目package.json中或者直接yarn install它都可以 "react-google-maps/api": "^2.19.3",2.加入项目中 import AMapLoader from amap/amap-jsapi-loader;import React, { PureComponent } from react; import { GoogleMap, LoadScript, Mar…