大数据知识图谱项目——基于知识图谱的电影问答系统(超详细讲解及源码)

news2024/10/5 16:32:49

大数据知识图谱项目——基于知识图谱的电影问答系统(超详细讲解及源码)

一、项目概述

知识图谱是将知识连接起来形成的一个网络。由节点和边组成,节点是实体,边是两个实体的关系,节点和边都可以有属性。知识图谱除了可以查询实体的属性外,还可以很方便的从一个实体通过遍历关系的方式找到相关的实体及属性信息。

本项目基于电影知识的问答,通过搭建一个电影领域知识图谱,并以该知识图谱完成自动问答与分析服务。本项目以neo4j作为存储,基于传统规则的方式完成了知识问答,并最终以关键词执行cypher查询,并返回相应结果查询语句作为问答。

该问答系统完全基于规则匹配实现,通过关键词匹配,对问句进行分类,电影问题本身属于封闭域类场景,对领域问题进行穷举并分类,然后使用cypher的match去匹配查找neo4j,根据返回数据组装问句回答,最后返回结果。

二、实现知识图谱的医疗知识问答系统基本流程

1、建立图谱(结构化的,详见代码;非结构化的需要的NLP特别多)
2、构建类别判定(可以基于机器学习方法或者深度学习方法的文本分类或者是基于关键字的规则方法)(本文为规则方法)
3、提取问题中的实体
4、根据类别和实体构建查询语句并查询
5、根处理查询结果并输出

三、实现知识图谱的电影问答系统基本流程

Neo4j版本:Neo4j Desktop1.4.15;
neo4j里面医疗系统数据库版本:4.4.5;
Pycharm版本:2021;
JDK版本:jdk1.8.0_211;
NongoDB版本:MongoDB-windows-x86_64-5.0.14;

四、Node4j实验环境的安装配置

(一)安装JAVA
1.下载java安装包:
官网下载链接:https://www.oracle.com/java/technologies/javase-downloads.html
在这里插入图片描述
本人下载的版本为JDK-1.8,JDK版本的选择一定要恰当,版本太高或者太低都可能导致后续的neo4j无法使用。

安装好JDK之后就要开始配置环境变量了。 配置环境变量的步骤如下:
右键单击此电脑—点击属性—点击高级系统设置—点击环境变量
在这里插入图片描述
在下方的系统变量区域,新建环境变量,命名为JAVA_HOME,变量值设置为刚才JAVA的安装路径,我这里是C:\Program Files\Java\jdk1.8.0_211
在这里插入图片描述
编辑系统变量区的Path,点击新建,然后输入 %JAVA_HOME%\bin
在这里插入图片描述
打开命令提示符CMD(WIN+R,输入cmd),输入 java -version,若提示Java的版本信息,则证明环境变量配置成功。
在这里插入图片描述
2.安装好JDK之后,就可以安装neo4j了
2.1 下载neo4j
官方下载链接:https://neo4j.com/download-center/#community
也可以直接下载我上传到云盘链接:
Neo4j Desktop Setup 1.4.15.exe
https://www.aliyundrive.com/s/huXS4HXMn9V
提取码: 36vf

打开之后会有一个自己设置默认路径,可以根据自己电脑情况自行设置,然后等待启动就行了
在这里插入图片描述
打开之后我们新建一个数据库,名字叫做:“基于电影领域的问答系统”

详细信息看下图:

数据库所用的是4.4.5版本,其他数据库参数信息如下:

项目结构整体目录:

├── README.md       // 描述文件
├── 建立词表.py     // 建立词表的程序文件
├── 建立图谱.py     // 建立知识图谱的程序文件
├── chatbot_graph.py     // 聊天系统主函数文件/运行文件
├── question_classifier.py        // 聊天系统问题分类函数 
├── question_parser.py        // 聊天系统问题转换函数 
├── answer_search.py        // 聊天系统问题回复函数
├── genre.txt        // 建立的词表 
├── movie.txt        // 建立的词表  
├── person.txt        // 建立的词表  
└── data   //数据文件
    └── genre.csv               // 图谱数据集之一
    └── movie_to_genre.csv               // 图谱数据集之一
    └── movie.csv               // 图谱数据集之一
    └── person_to_movie.csv               // 图谱数据集之一
    └── person.csv               // 图谱数据集之一
    └── userdict3.txt               // 图谱数据集之一
    └── vocabulary.txt              // 图谱数据集之一
    └── question              // 问题模版(项目中未用,但参考了)
        └── ...              // 16个问题模版

问答系统框架的构建是通过chatbot_graph.py、answer_search.py、question_classifier.py、question_parser.py等脚本实现。

五、系统实现具体步骤

下面给大家简单介绍一下里面的部分内容和源码。
创建一个“电影问答系统”的知识图谱项目,选择默认的neo4j(defult)数据库:
**加粗样式**
数据库所用的是4.4.5版本,其他数据库参数信息如下:
在这里插入图片描述
我们点击open进去数据库浏览器界面
在这里插入图片描述
里面有我们的端口号和连接用户名user:
在这里插入图片描述
将我们脚本的端口号、用户名和密码与neo4j里面保持一致。
在这里插入图片描述

#graph直接写账号密码会不安全
g=Graph('bolt://localhost:7687',user='neo4j',password='123456')
#创建config以及db.cfg用来存储信息

建立一个与Neo4j图数据库的连接。Graph是py2neo库中的一个类,用于创建一个图数据库的实例。在这里,通过指定bolt://localhost:7687作为数据库的地址和端口,user和password作为登录凭据,来创建一个名为g的图数据库对象。这个对象可以用来执行与数据库相关的操作,比如创建节点、创建关系等。

构建词表和图谱时候,路径要跟我们本地设置的目录保持一致:
在这里插入图片描述
answer_search.py脚本部分代码截图:
在这里插入图片描述
定义一个名为search_main的方法,它接受一个参数sqls,该参数是一个包含多个字典的列表。每个字典代表一个查询,包含两个键:question_type和sql。question_type表示查询的类型,sql是一个包含一个或多个Cypher查询的列表。在方法内部,它首先创建一个空列表final_answers,用于存储最终的答案。然后,它遍历sqls列表中的每个字典。对于每个字典,它提取question_type和sql的值,并创建一个空列表answers来存储查询结果。

接下来,它遍历queries列表中的每个查询,并使用self.g.run(query).data()执行Cypher查询,并将结果添加到answers列表中。最后,它调用answer_prettify方法,将question_type和answers作为参数传递,并将返回的结果存储在final_answer变量中。如果final_answer不为空,则将其添加到final_answers列表中。最后,方法返回final_answers列表,其中包含了所有查询的答案。通过执行一系列的Cypher查询,并将查询结果进行处理和美化,然后返回最终的答案列表。

question_classifier.py脚本部分代码截图:
在这里插入图片描述

question_classifier.py脚本根据问题的内容将问题分类到不同的类型中。在QuestionClassifier类的构造函数中,首先获取当前文件的路径,并根据路径拼接出特征词文件的路径。然后,加载特征词文件中的内容,分别存储到person_wds、movie_wds和genre_wds这三个列表中。接着,将这三个列表中的元素合并到region_words这个集合中。

接下来,通过调用build_actree方法构造了一个领域actree,用于加速过滤。然后,调用build_wdtype_dict方法构建了一个词对应类型的字典wdtype_dict。在构造函数的最后,定义了一些问句疑问词的列表,用于判断问题的类型。这些列表包括评分、上映、风格、剧情、出演、演员简介、合作出演、总共和生日等。最后,打印出初始化完成的提示信息。作用是初始化一个问题分类器对象,并加载特征词和构建相关数据结构,为后续的问题分类做准备。

在这里插入图片描述
成功构建电影知识图谱节点和关系!

脚本运行完之后查看neo4j数据库中构建的知识图谱:

 match (n) return n

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

这里提示:Not all return nodes are being displayed due to Initial Node Display setting. Only 3000 of 5045 nodes are being displayed
由于“初始节点显示”设置,并非所有返回节点都显示。5045个节点中仅显示3000个
这里因为我设置的参数只显示前3000个,只显示了一部分,可以根据自己需求自由设置。

问答框架包含问句分类、问句解析、查询结果三个步骤,首先是构建词表和建立图谱;
问句分类,是通过question_classifier.py脚本实现的。
question_parser.py脚本进行问句分类后对问句进行解析。
answer_search.py脚本对解析后的结果进行查询
chatbot_graph.py脚本进行问答实测。

流程: chatbot_graph(总控)->question_classifier(分类)->question_parser(构建查询语句)->answer_search(处理查询结果并输出)

在这里插入图片描述

这个chatbot_graph脚本是整个问答系统的主程序。首先创建了一个ChatBotGraph类,包含了三个主要的组件:问题分类器(QuestionClassifier)、问题解析器(QuestionParser)和答案搜索器(AnswerSearcher)。在ChatBotGraph类的构造函数中,初始化了这三个组件的实例。QuestionClassifier用于对用户输入的问题进行分类QuestionParser用于解析分类结果,AnswerSearcher用于搜索合适的答案。chat_main方法是主要的交互逻辑。它接收用户输入的问题作为参数,并依次调用分类器、解析器和搜索器来获取最终的答案。如果没有找到合适的答案,将返回一个默认的回答。在代码的最后部分,创建了一个ChatBotGraph的实例,并通过一个死循环不断接收用户输入的问题,并输出对应的回答。

当我们执行chatbot_graph.py主程序,开始实现电影知识问答:
“您好!请输入您想要提问的电影知识问题:”
在这里插入图片描述
我们输入一个简单的问题:“李连杰和成龙的简介”
问答系统返回的结果如下:
在这里插入图片描述
再试试其它的问题:比如十面埋伏的评分、十面埋伏和功夫的简介、黄飞鸿之三狮王争霸里面的演员等等,当然不仅限于此,还有很多关于电影知识方面都可以问,对脚本也进行了一些优化。
问答系统返回结果如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

最后总结一下本文章基于电影问答系统的主要特征是知识图谱,系统依赖一个或多个领域的实体,并基于图谱进行推理或演绎,深度回答用户的问题,更擅长回答知识性问题,与基于模板的聊天机器人有所不同的是它更直接、直观的给用户答案。本项目问答系统没有复杂的算法,一般采用模板匹配的方式寻找匹配度最高的答案,可以直接给出答案。经过测试本问答系统能回答的问题有很多,基于问句中存在的关键词回答效果表现很好。做出来的基于电影知识问答系统能够根据用户提出的问题很好的进行解答。做出来的问答系统还是很Nice的。

我还写了另一篇关于大数据知识图谱项目——基于知识图谱的医疗知识问答系统(超详细讲解及源码)的文章,附链接:
https://blog.csdn.net/Myx74270512/article/details/129147862?spm=1001.2014.3001.5502

这里只是简要介绍一下项目的部署和一些细节部分,具体详细内容和部署细节在开发文档里面,各位有兴趣的小伙伴可以私信我要详细的项目开发文档、完整项目源码和其它相关资料。
在这里插入图片描述
欢迎各位小伙伴的来访!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1209490.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【网络奇缘】- 计算机网络|网络类型|性能指标

🌈个人主页: Aileen_0v0🔥系列专栏: 一见倾心,再见倾城 --- 计算机网络~💫个人格言:"没有罗马,那就自己创造罗马~" 目录 计算机网络分类 1.根据范围分类 ​编辑 2.按使用者分​编辑 3.按交换技术分 ​编辑4.按拓扑结构分 ​…

基恩士软件的基本操作(三,监控台调试)

目录 模拟器 模拟器编辑 plc的传输 监控器 在线编辑 程序出现问题时的排查方法 接点跳转功能 交叉参考功能 关系映射功能 程序监控器 登录监控器(查看与修改软元件的值) 批量监控器 实时时序图 单元监控器 I/O单元监控器 运动单元监控器…

【Shell脚本11】Shell 函数

Shell 函数 linux shell 可以用户定义函数,然后在shell脚本中可以随便调用。 shell中函数的定义格式如下: [ function ] funname [()]{action;[return int;]}说明: 1、可以带function fun() 定义,也可以直接fun() 定义,不带任何…

Latex在图表标题里面引用参考文献时,出现参考文献顺序混乱的解决方案(适用于bibtex)

问题描述 如果你在figure环境的\caption或\captionof中使用\cite,但是参考文献的顺序仍然不正确,可能是因为LaTeX的处理流程导致了这个问题。 比如图片在第二章节但里面引用了参考文献,在文章末尾的参考文献第二章图片的参考文献顺序&#…

CCNA课程实验-14-Final_Lab

目录 实验条件网络拓朴需求 配置实现1. 配置PC1~3, DHCP_Server的vlan2. VLAN10、20的网关为MSW1对应的SVI,VLAN30、40的网关为MSW2对应的SVI;3. 配置5台交换机之间线路均为Trunk4. 配置5台交换机均启用Rapid-PVST(RSTP)5. 配置DHCP Server,创…

Uniapp开发 购物商城源码 在线电商商城源码 适配移动终端项目及各小程序

lilishop电商商城系统 商城移动端,使用Uniapp开发,可编译为所有移动终端项目及各小程序 源码下载:https://download.csdn.net/download/m0_66047725/88487579 源码下载2:关注我留言

Camtasia 2024中文版功能介绍

在如今的数字时代,屏幕录制已成为许多工作或学习中不可或缺的一部分,无论是制作教学视频、演示软件功能,还是为了录制游戏过程,屏幕录制软件都扮演着至关重要的角色。实际上屏幕录制不仅仅可以单纯录制屏幕,还能玩出非…

​软考-高级-系统架构设计师教程(清华第2版)【第5章 软件工程基础知识(190~233)-思维导图】​

软考-高级-系统架构设计师教程(清华第2版)【第5章 软件工程基础知识(190~233)-思维导图】 课本里章节里所有蓝色字体的思维导图

【Linux网络】1分钟使用shell脚本完成DNS主从解析服务器部署(适用于centos主机)

DNS正向解析主从解析服务器脚本 1、脚本内容 主服务器脚本 #!/bin/bash ##先修改本地DNS缓存服务器 read -p "请输入主服务器ip地址:" masterIP sed -i /DNS/d /etc/sysconfig/network-scripts/ifcfg-ens33 echo "DNS$masterIP" >> /e…

electronjs入门-编辑器应用程序

我们将在Electron中创建一个新项目,如我们在第1章中所示,名为“编辑器”,我们将在下一章中使用它来创建编辑器;在index.js中,这是我们的主要过程;请记住为Electron软件包放置必要的依赖项: npm…

【MediaFoundation】相关的概念

MF 概览 Media Foundation 提供了两种不同的编程模型,左边展示的是端到端的媒体数据模型,主要用在:播放URL或者文件,以及控制流。 在图表右侧展示的第二种模型中,应用程序可以从源头拉取数据,也可以将数据…

代号:408 —— 1000道精心打磨的计算机考研题

文章目录 📋前言🎯计算机科学与技术专业介绍(14年发布)🧩培养目标🧩毕业生应具备的知识和能力🧩主要课程 🎯代号:408🔥文末送书🧩有什么优势&…

量化交易:使用 python 进行股票交易回测

执行环境: Google Colab 1. 下载数据 import yfinance as yfticker ZM df yf.download(ticker) df2. 数据预处理 df df.loc[2020-01-01:].copy()使用了 .loc 方法来选择索引为 ‘2020-01-01’ 以后的所有行数据。通过 .copy() 方法创建了一个这些数据的副本,确…

PCA9698的IIC转接GPIO控制N路灯

PCA9698验证灯的办法和PCA9535验证6路数字继电器,编译成ko直接Insmod,然后查看/dev/节点有了吗?然后用iictool命令往对应iic地址上面写数据,看看灯亮灭或者听继电器开关声响,至于写多少,研究芯片手册上面参…

Spark SQL编程

1. Spark SQL概述 1.1 什么是Spark SQL Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同,Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息来执行额外的优化。与Spa…

Mac M2/M3 芯片环境配置以及常用软件安装-前端

最近换了台新 Mac,所有的配置和软件就重新安装下,顺便写个文章。 一、环境配置 1. 安装 Homebrew 安装 Homebrew【Mac 安装 Homebrew】 通过国内镜像安装会比较快 /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Ho…

IDEA接口调试插件不好找?这款免费用!

IDEA插件市场中的API调试插件不是收费(Fast Request )就是不好用(apidoc、apidocx等等)今天给大家介绍一款国产的API调试插件:Apipost-Helper,完全免费且好看好用! 这款插件由Apipost团队开发的…

【Qt之QWizard】使用2,示例分析

效果图 根据首页的选择不同&#xff0c;进入不同的选项。 以下是代码。 示例 .h #ifndef LICENSEWIZARD_H #define LICENSEWIZARD_H#include <QWizard>QT_BEGIN_NAMESPACE class QCheckBox; class QLabel; class QLineEdit; class QRadioButton; QT_END_NAMESPACEcla…

C/C++轻量级并发TCP服务器框架Zinx-框架开发001: 读取标准输入,回显到标准输出

文章目录 完整代码实现参考-非项目使用项目使用的代码 - 乱-但是思路与上面的相同创建Kernel类添加删除修改epoll&#xff0c;才能写run方法创建stdin_Channel类在Kernel类中实现run方法 完整代码实现参考-非项目使用 #include <errno.h> #include <signal.h> #in…

科学上网导致Adobe软件运行弹出This non-genuine Adobe app will be disabled soon,尝试解决办法

之前介绍用防火墙拦截Adobe软件的出站规则可以解决软件的非正版弹窗&#xff0c;但是有的用户却不行是为什么&#xff0c;原因是使用了代理网络。因为Adobe此时跑的不是本地的流量而是代理的流量。所以防火墙拦截就不起作用了。 首先是之前介绍过的拦截方法&#xff0c;如果你没…