知识图谱构建实战:GraphRAG与Neo4j的结合之道

news2024/11/16 0:34:37

前言

我们在前面讲解 GraphRag 从原始文本中提取知识图谱和构建图结构的时候,最后存储的文件是parquet 格式,文件存储在下面文件夹:

这节我们就探索一下怎么将我们生成好的图谱文件导入到我们的 Neo4j 图数据库,最后进行可视化分析,也能和我们之前的项目混合检索结合起来。

一、准备工作

新建一个 python 脚本文件,比如 graphrag_import.py 可以放在项目的根目录,这里可以随便选择,然后设置我们GraphRAG 生成的图谱文件目录:

  GRAPHRAG_FOLDER="artifacts"

安装 neo4j ,如果前面安装过,可以忽略:

  pip install --upgrade --quiet neo4j

导入我们需要的库:

import pandas as pd
from neo4j import GraphDatabase
import time

设置我们的 Neo4j 图库地址,账户密码,以及要导入的数据库名字:

NEO4J_URI="bolt://********:7687"
NEO4J_USERNAME="neo****"
NEO4J_PASSWORD="*****"
NEO4J_DATABASE="****"
driver = GraphDatabase.driver(NEO4J_URI, auth=(NEO4J_USERNAME, NEO4J_PASSWORD))

下载一个语料数据集,https://www.gutenberg.org/cache/epub/24022/pg24022.txt

根目录新建 /ragtest/input 空文件,然后把下载好的语料文件放入 input 下面。

二、创建约束

定义一个批处理方法, 使用批处理方法将数据导入 Neo4j

参数:statement 是要执行的 Cypher 查询,df 是要导入的数据框,batch_size 是每批要导入的行数。

def batched_import(statement, df, batch_size=1000):
    total = len(df)
    start_s = time.time()
    for start in range(0,total, batch_size):
        batch = df.iloc[start: min(start+batch_size,total)]
        result = driver.execute_query("UNWIND $rows AS value " + statement,
                                      rows=batch.to_dict('records'),
                                      database_=NEO4J_DATABASE)
        print(result.summary

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2046688.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java Web|day7. Web会话跟踪(cookie与session)

Web会话跟踪(cookie与session) 会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。 cookie 定义 cookie是某些网站为了辨别用户身份,进行Session跟踪而储存在用户本地终端上的数据(通常经过加密&am…

虹科应用|增强型以太网交换机:如何实现同IP控制的高效网络管理?

导读:车载以太网交换机的配置和管理是确保数据流高效、安全传输的关键。虹科增强型以太网交换机(EES)通过其先进的功能,为用户提供了一种灵活且高效的解决方案。 随着车载网络对带宽需求的不断提高,虹科Technica推出一…

第二届EI机器视觉、图像处理与影像技术国际会议将于9月13-15日召开

第二届机器视觉、图像处理与影像技术国际会议(The 2nd International Conference on Machine Vision, Image Processing & Imaging Technology,简称MVIPIT)将于2024年9月13日-15日在中国张家口举行。 MVIPIT 2024聚焦机器视觉、图像处理…

如何将 CICD 模版重构为 CICD component?

极狐GitLab 是 GitLab 在中国的发行版,专门面向中国程序员和企业提供企业级一体化 DevOps 平台,用来帮助用户实现需求管理、源代码托管、CI/CD、安全合规,而且所有的操作都是在一个平台上进行,省事省心省钱。可以一键安装极狐GitL…

MFC画图示意八皇后问题的含义

八皇后问题是C语言算法的一个经典例子; 它要求解的问题是, 以国际象棋为背景,有八个皇后(八个棋子),如何在 8*8 的棋盘中放置八个皇后,使得任意两个皇后都不在同一条横线、纵线或者斜线上。 根据资料,答案不止一个,共有92个;可以有92种摆法; 第一个答案应该是如…

小程序学习day08-导航传参、下拉刷新(移动端的专有名词)、上拉触底(移动端的专有名词)、自定义编译模式、生命周期

34、导航传参 (1)声明式导航传参 1)Navigator组件的url属性用来指定将要跳转到页面的路径,同时,可以携带参数 2)携带参数的要求 ①参数与路径之间用?分隔 ②参数键与参数值之间用相连 ③不同参数用&…

如何在手机版和网页版Facebook上更改名字(2024)

本文将详细介绍如何在Facebook上更改名字,包括手机和网页版Facebook的具体步骤,以及添加Facebook昵称的方法,并分享如何高效管理多个Facebook网页版账户。 Facebook怎么改名字 Facebook手机版改名 打开Facebook APP并登录账号。 点击右下角的…

TinTinLand Web3 + DePIN 共学月|深入探索 DePIN 项目,全景分析去中心化网络未来

「TinTinLand Web3 主题共学月」是由 TinTinLand 每月发起的主题学习活动,携手知名项目共同打造一个系统化、互动性强的学习平台,帮助开发者不断提升技能,紧跟 Web3 技术的前沿发展。活动通过演示视频、学习打卡、模拟环境、实际操作等多种方…

2024-08-16升级记录:使用Android RecyclerView控件显示列表型信息

在页面上使用RecyclerView实现一个列表型信息展示&#xff1a; 步骤如下&#xff1a; 一、在页面布局中添加RecyclerView控件 <TextViewandroid:id"id/txt_gnss_info"android:layout_width"match_parent"android:layout_height"wrap_content"…

学习node.js 二 path模块,os模块,process

目录 path模块 1. path.basename() 2. path.dirname 3. path.extname 4. path.join 5. path.resolve 6. path.parse path.format OS模块 1. 获取操作系统的一些信息 &#xff08;1&#xff09;os.platform() &#xff08;2)os.release &#xff08;3&#xff09;os.ho…

1.1GB大更新,华为Pura70系列鸿蒙新版本优化哪些方面

华为Pura70 Pro手机迎来了其操作系统的又一次重要更新&#xff0c;推送了鸿蒙4.2.0.176新版本。这次升级不仅在安全性、音效和智慧多窗等方面进行了优化&#xff0c;还集成了2024年7月的安全补丁&#xff0c;为用户带来了更加安全、流畅的使用体验。 1.升级包内容丰富 华为Pur…

Python编码系列—掌握Python Web开发:Flask与FastAPI实战应用

&#x1f31f;&#x1f31f; 欢迎来到我的技术小筑&#xff0c;一个专为技术探索者打造的交流空间。在这里&#xff0c;我们不仅分享代码的智慧&#xff0c;还探讨技术的深度与广度。无论您是资深开发者还是技术新手&#xff0c;这里都有一片属于您的天空。让我们在知识的海洋中…

Ropdump:针对二进制可执行文件的安全检测工具

关于Ropdump Ropdump是一款针对二进制可执行文件的安全检测工具&#xff0c;该工具基于纯Python开发&#xff0c;是一个命令行工具&#xff0c;旨在帮助广大研究人员检测和分析二进制可执行文件中潜在的ROP小工具、缓冲区溢出漏洞和内存泄漏等安全问题。 功能介绍 1、识别二进…

win10安装docker,打包python、java然后centos执行镜像

一、win10安装Docker Desktop docker官网&#xff08;需要魔法&#xff09;下载&#xff1a;https://www.docker.com/products/docker-desktop/ 安装方法参考&#xff1a;https://blog.csdn.net/beautifulmemory/article/details/137970794 下载完毕后界面安装&#xff0c;不勾…

日拱一卒(3)——leetcode学习记录:二叉树最小深度

一、任务&#xff1a;平衡二叉树 给定一个二叉树&#xff0c;找出其最小深度。 最小深度是从根节点到最近叶子节点的最短路径上的节点数量。 说明&#xff1a;叶子节点是指没有子节点的节点。 二、思路&#xff1a; 1. 递归计算二叉树的深度 节点不存在&#xff0c;返回0…

2024新型数字政府综合解决方案(九)

新型数字政府综合解决方案通过整合人工智能、大数据、区块链与云计算技术&#xff0c;构建了一个智能化、透明化和高效的政务服务平台&#xff0c;以提升政府服务的响应速度和处理效率&#xff0c;增强数据的安全性和透明度&#xff1b;该平台实现了跨部门的数据共享与实时更新…

Zotero更改插入word中所有引用编号的颜色

002-如何批量更改Zotero插入在word中参考文献的颜色&#xff08;快速变蓝&#xff09; 主要根据此视频进行学习。 需要记住 查找的内容为&#xff1a; ^19 ADDIN ZOTERO_ITEM 在word中打开 文件->更多->选项->高级 下滑选择域底纹&#xff0c; 可以看到所有的引用 …

【数据结构与算法】分治法

分治法目录 一.分治法的思想二.分治法的步骤三.举个例子四.具体实现五.完整代码 一.分治法的思想 将一个大问题,拆解成为若干个小问题,而且大问题与小问题的解决方法一样. 说到这里我们可以联想到递归,没错就是用递归的思想. 分:递归解决较小的问题 治:子问题的解构建原问题的…

RTX 4070 GDDR6显存曝光:性能与成本的平衡之选

近期&#xff0c;关于NVIDIA RTX 4070新显卡的信息曝光&#xff0c;这款显卡将配备较为缓慢的GDDR6显存&#xff0c;而非更高性能的GDDR6X。这一配置的选择引发了业内的广泛关注&#xff0c;特别是在性能与成本的平衡问题上。 新版RTX 4070 OC 2X的核心特点 **1.显存类型与带…

Python | Leetcode Python题解之第341题扁平化嵌套列表迭代器

题目&#xff1a; 题解&#xff1a; class NestedIterator:def __init__(self, nestedList: [NestedInteger]):# 对于nestedList中的内容&#xff0c;我们需要从左往右遍历&#xff0c;# 但堆栈pop是从右端开始&#xff0c;所以我们压栈的时候需要将nestedList反转再压栈self.…