如何将图数据库应用于电影智能推荐

news2024/12/25 12:58:18

导读

电影,是一种结合视觉与听觉的现代艺术。如今,电影已不单是人们娱乐消遣的生活方式,也逐渐成为国家文化软实力的重要标志之一。据有关数据统计,2021年中国影视行业市场规模达2349亿元,同比增长23.2%,预计2020年至2025年的五年期复合年均增长率为5.0%,具备强大市场需求度。而国内影视行业政策注重内容端的输出,影视从业人员并未针对不同客群精准投放作品。

早在2014年,国外某影视平台就运用机器学习和个性化推荐算法技术,通过深度挖掘用户数据,打造影视个性化推荐系统。举个例子,假如有人邀请你看电影,那你的第一个问题一定是:什么电影?大部分情况下,我们可能会根据朋友推荐、热点票房、用户打分、标签类型来选择电影。那么这个时候出现一个朋友,基本在他推荐的电影里,总能命中喜好助你度过闲暇时光,即个性化推荐系统作用。艾媒咨询数据显示,在2021-2022年中国消费者偏好的不同形式影视作品中,74.5%消费者会选择电视剧,71.8%消费者会选择电影,61.5%消费者会选择综艺,47.4%消费者会选择动漫,29.4%消费者会选择纪录片。那么在未来,如何将大数据、人工智能技术运用到影视产业,促进产业智能化、智慧化升级,成为国内发展的新态势。

图技术需求

让更多人看见,是内容行业不变的准则。 但在现阶段,观影人普遍存在无法第一时间找到心仪影片的痛点,往往将时间浪费在菜单栏寻找或搜索框检索上。因此,影视行业应该将内容直接面向用户,根据观众的观影习惯“投其所好”。基于此背景,通过图数据库技术,将电影参演者信息、制作方信息、观影人信息、电影类型信息等相关的知识概念抽取出来,构建电影知识图谱,为影视从业人员提供全局视角,根据观众观音习惯快速匹配合适内容。

以Galaxybase图数据库构建电影知识图谱的基本原理图如下。
以Galaxybase图数据库构建电影知识图谱的基本原理

图模型构建

构建电影、观众、参影人之间的互联关系,可根据实际情况进行展开,将电影、观众、参影人、IP、标签设置为点,参影人与电影、观众与电影、电影与IP、电影与标签间的依赖关系设置为边。接下来使用Galaxybase图数据库来创建数据模型,点类型和点属性如下表所示。

点类型属性
参影人参影人ID、出生年份、姓名等
观众观众ID、观众类型等
电影电影ID、上映年份、语言、评分、电影名等
IPIP_ID、类型、IP名称等
标签标签名

边类型、起始点类型、终止点类型如下表所示。

边类型起始点类型终止点类型
作者IP参影人
相关IPIP
属于IP标签
参演参影人电影
主演参影人电影
导演参影人电影
属于参影人标签
相关电影IP
属于电影标签
观影观众观影
相似标签标签

电影知识图谱模型如下图所示。
电影知识图谱模型

图谱应用 - 电影推荐

在电影知识图谱中,系统将根据观众观看过的历史电影信息,为其推荐可能感兴趣的内容到首页,提高电影的点击率和观众满意度。举例,在上文所建图模型中,系统将寻找编号为“A001”的观众观看过的历史电影,从其历史电影的IP、标签出发,推测其观影偏好,找到风格类似的电影,自动将这些电影推荐至首页。

查询语句

// 查询观众 ID 为 “A001”的观众历史观影数据
MATCH p1=(:观众{观众ID:"A001"})-[:观影]->(m1:电影)
WITH p1,m1
// 找到上述电影的标签和IP
MATCH p2=(m1)-[:属于|相关]-(m2)
WITH p1,p2,m2
// 找与上述电影有相同标签或IP的其它电影
MATCH p3=(m2)-[:属于|相关]-(m3:电影)
// 返回该观众历史观影数据,相关电影推荐
RETURN p1,p2,p3

查询结果

如下图所示,根据返回结果可以发现观众ID为“A001”的观众观看过ID为“7873”、“M99”、“890”的三部影片,而ID为“456”的影片,与“M99”拥有一个相同IP,两个相同标签;ID为“34535”、“67856”的影片与上述电影均有两个相同标签,由此推测观众可能对这三部影片感兴趣,可以建议系统优先推荐。
电影推荐查询结果

图谱应用 - 智能问答

在电影知识图谱中,应当存在简单的问答推理功能,满足用户对电影、演员个性化选择的需求。举例,观众观看了吴京主演的长津湖,想起来甄子丹和吴京都是我们熟知的武打影星,那他们有没有一起参与主演的电影呢,在上文所建图模型中,我们将进行探查。

查询语句

// 查询有两个人参与或主演的电影
MATCH p1=(m1:参影人)-[r1:参演|主演]-(m2:电影)-[r2:参演|主演]-(m3:参影人)
// 参影人的变量同时去匹配吴京和甄子丹两个姓名
WHERE m1.姓名 = "甄子丹" AND m3.姓名 = "吴京"
WITH m2,p1
// 查询这个电影的标签和IP
MATCH p2=(m2)-[:相关|属于]-(m4)
// 返回两条路径
RETURN p1,p2

查询结果

如下图所示,可以看到吴京和甄子丹在标签内同属功夫巨星,他们一同参演或主演的电影是杀破狼,这部影片属于动作片和剧情片,系统将用户搜索的结果返回,并将影片推荐至首页。
智能问答查询结果

结语

以上仅为电影知识图谱的简单展示,通过上述两个例子,可以看到相较于传统的推荐算法,基于图数据库的知识图谱,能够抽取电影信息、参影人信息、观影信息等数据,将用户、电影、演员之间的依赖关系以全局统一视角进行整合,挖掘观众与电影间内在的隐性关联,进行精准电影推荐和用户个性化问答,提高用户观影体验,助力影视产业实现智能化升级。

后续,我们会在创邻科技微信公众号与官网发布更多图数据库热点应用场景和前沿资讯,并将可复现的数据集、建模方法、查询语句进行公开,欢迎对图数据库感兴趣的同学关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/386432.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

java--IO

IO1.文件流2.常用的文件操作(1)根据路径构建一个File对象(2)根据父目录文件子路径构建(3)根据父目录子路径构建(4)获取文件相关信息(5)目录的操作和文件的删除…

计算机图形学07:有效边表法的多边形扫描转换

作者:非妃是公主 专栏:《计算机图形学》 博客地址:https://blog.csdn.net/myf_666 个性签:顺境不惰,逆境不馁,以心制境,万事可成。——曾国藩 文章目录专栏推荐专栏系列文章序一、算法原理二、…

Git 企业级分支提交流程

Git 企业级分支提交流程 首先在本地分支hfdev上进行开发,开发后要经过测试。 如果测试通过了,那么久可以合并到本地分支develop,合并之后hfdev和development应该完全一样。 git add 文件 git commit -m ‘注释’ git checkout develop //切换…

svn使用

一、SVN概述 1.1为什么需要SVN版本控制软件 1.2解决之道 SCM:软件配置管理 所谓的软件配置管理实际就是对软件源代码进行控制与管理 CVS:元老级产品 VSS:入门级产品 ClearCase:IBM公司提供技术支持,中坚级产品 1.…

【无标题】开发板设置系统时间

开发板设置系统时间环境查看系统时间查看硬件时间设置系统时间设置RTC时间时钟包括硬件时钟和系统时钟,系统时钟就是linux系统显示的时间,用命令 date可以显示当前系统时间;硬件时钟就是硬件自身的时间了。它们两者没有关系的,但是…

如何利用Power Virtual Agents机器人远程打开电脑中的应用

今天我们来介绍如何利用Power Virtual Agents来远程控制电脑。我们的设计思路是在聊天机器人里输入触发短语后打开自己电脑中的题库软件。 首先,进入已经创建好的聊天机器人编辑界面。 新建一个主题后,在“新建主题”中添加“触发短语”。 添加节点后&a…

C++代码优化(3):条款13~17

"野性袒露着灵魂纯粹"条款13:以对象管理资源(1)什么是资源?C中最常使用的资源就是动态内存分配,在系统编程层面上,文件描述符(fd)、互斥锁(mutex)、套接字网络socket……不管是哪一种资源,重要的是,你不使用…

CEC2014:鱼鹰优化算法(Osprey optimization algorithm,OOA)求解CEC2014(提供MATLAB代码

一、鱼鹰优化算法简介 鱼鹰优化算法(Osprey optimization algorithm,OOA)由Mohammad Dehghani 和 Pavel Trojovsk于2023年提出,其模拟鱼鹰的捕食行为。 鱼鹰是鹰形目、鹗科、鹗属的仅有的一种中型猛禽。雌雄相似。体长51-64厘米…

Spark 任务调度机制

1.Spark任务提交流程 Spark YARN-Cluster模式下的任务提交流程,如下图所示: 图YARN-Cluster任务提交流程 下面的时序图清晰地说明了一个Spark应用程序从提交到运行的完整流程: 图Spark任务提交时序图 提交一个Spark应用程序,首…

mysql数据库之存储过程

一、存储过程简介。 存储过程是事先经过编译并存储在数据库中的一段sql语句的集合,调用存储过程可以简化应用开发人员的很多工作,减少数据在数据库和应用服务器之间的传输,对于提高数据处理的效率是也有好处的。 存储过程思想上很简单&…

Mysql常见面试题总结

1、什么是存储引擎 存储引擎指定了表的类型,即如何存储和索引数据,是否支持事务,同时存储引擎也决定了表在计算机中的存储方式。 2、查看数据库支持哪些存储引擎使用什么命令? -- 查看数据库支持的存储引擎 show engines; 或者 …

百趣代谢组学分享,关于儿童Graves病相关的新环境物质的鉴定

代谢组学文章标题:Identification of Novel Environmental Substances Relevant to Pediatric Graves’ Disease 发表期刊:Frontiers in endocrinology 影响因子:6.055 作者单位:苏州大学附属儿童医院 百趣提供服务&#xf…

外贸建站多少钱才能达到预期效果?

外贸建站多少钱才能达到预期效果?这是每个外贸企业都会问的问题。作为一个做外贸建站多年的人,我有一些个人的操盘感想。 首先,我认为外贸建站的投资是非常必要的。 因为在现代社会,网站已经成为外贸企业开展业务的必要工具之一…

3种方法删除7-Zip压缩包的密码

7-Zip压缩软件是一款完全免费且开源的软件,不仅能压缩和解压7-Zip压缩包,还能给压缩包设置打开密码。 有些小伙伴可能会遇到这样的问题,7-Zip压缩包设置密码后,过了一段时间不需要密码保护了,或者一不小心忘记了密码&…

后端快速上手前端三剑客 HtmlCSSJavaScript

文章目录前言HTML1.基础标签2.多媒体标签:3.表格&列表&布局4.表单CSS1.简介2.导入方式3.选择器JavaScript1.简介2.引入方式3.基本语法4.对象(1) 基本对象(2) BOM对象(3) DOM对象5.事件前言 结构:HTML 表现:CSS 行为:Java…

D. Linguistics(思维 + 贪心)

Problem - D - Codeforces Alina发现了一种奇怪的语言,它只有4个单词:a, B, AB, BA。事实也证明,在这种语言中没有空格:一个句子是通过将单词连接成一个字符串来写的。Alina发现了一个这样的句子,她很好奇:有没有可能它恰好由a个单词a, b个单…

EasyExcel You can try specifying the ‘excelType‘ yourself 异常排查与处理

目录 问题发现 报错信息 问题排查 1、确定异常 2、查询easyexcel源码读取文件源码 3、查看业务代码 优化方案 1、将路径获取文件流的方式换为httpclient获取 2、dug测试修改代码 总结 问题发现 在测试环境测试导入订单,发现订单导入提示数据导入异常。 …

Python dict字典全部操作方法

文章目录一. 介绍二. 字典的创建1. 手动创建2. 使用内置函数dict()创建3. 使用dict.fromkeys()方法创建三. 字典元素的读取1. 下标方式读取Value2. dict.get()读取Value3. keys()方法返回“键”4. values()方法返回“值”5. items()方法返回“键-值”对四. 字典元素的添加与修改…

【20230227】回溯算法小结

回溯法又叫回溯搜索法,是搜索的一种方式。回溯法本质是穷举所有可能。如果想让回溯法高效一些,可以加一些剪枝操作。回溯算法解决的经典问题:组合问题切割问题子集问题排列问题棋盘问题如何去理解回溯法?回溯法解决的问题都可以抽…

hadoop调优

hadoop调优 1 HDFS核心参数 1.1 NameNode内存生产配置 1.1.1 NameNode内存计算 每个文件块大概占用150byte,如果一台服务器128G,能存储的文件块如下 128 (G)* 1024(MB) * 1024(KB) * 1024(Byte) / 150 Byte 9.1 亿 1.1.2 Hadoop2.x 在Hadoop2.x中…