图数据库 vs 向量数据库

news2024/11/26 3:56:28

最近大模型出来之后,向量数据库重新翻红,业界和市场上有不少声音认为向量数据库会极大的影响图数据库,图数据库市场会萎缩甚至消失,今天就从技术原理角度来讨论下图数据库和向量数据库到底差别在哪里,适合什么场景,图数据库会不会消失。

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费使用,欢迎参与!

人工智能思路之争

讨论图、向量,大模型之前先简单说下人工智能发展过程中出现的主义之争。人工智能在过去几十年的发展中,出现了好几种思路,也就分为几大学派,或者主义。分别是:

  • 符号主义(symbolicism),又称为逻辑主义、心理学派或计算机学派,主要就是基于逻辑推理的智能模拟方法,对应到人类智能就是认知能力(学习能力、推理能力、专家能力),知识图谱就是源于符号主义。

  • 连接主义(connectionism),又称为仿生学派或生理学派,其主要原理为神经网络及神经网络间的连接机制与学习算法,深度神经网络解决的就是感知智能(人类的眼、耳、鼻、舌、身对环境的感知能力),现在的大模型就是连接主义的产物,但同时因为模型参数足够大,从感知智能又突破到了认知智能,甚至未来会走向 AGI(通用人工智能)。

  • 行为主义(actionism),又称为进化主义或控制论学派,其原理为控制论及感知-动作型控制系统,这一派主要搞机器人。比如机器人的操控,要求机器人不光要认知和感知,还要操作和行动。nvidia的黄教主最近就各种场合讲未来是机器人的时代。

图片

这三种主义是思路之争,其实也代表了对人工智能模拟的三个路径。未来可能会走向大一统和融合。

图数据库适合什么场景

图数据库比起传统的信息存储和组织模式,图数据库能够很清晰揭示复杂的模式,尤其在错综复杂的社交,物流,金融风控行业效果更为明显。典型场景有:

  • 社交网络:数十亿关系查询,传统关系型数据库无法胜任低时延,以及超过 3 层好友关系的查询。

  • 推荐引擎:通过用户的兴趣、好友和阅读历史记录等信息之间的关系,向用户提供推荐。典型用在电商、短视频、新零售场景。

  • 网络&IT 运维:基础设备规模庞大,结构复杂,帮助深入了解设备状态,设备之间的关系,实现网络设备智能监控和管理。

  • 金融风控:提供实时的用户行为检测,识别敏感用户,及时识别欺诈风险,错综复杂的人物关系分析,进行用户分群,识别异常群体等。

图片

向量数据库适合什么场景

向量数据库最早解决非结构化数据相似度检索问题。通过把非结构化数据 embedding 成向量,通过向量的相似度检索来实现非结构化数据的相似度搜索。电销场景有:

  • 相似度检索:可以做多模态检索(文本、图片、音频、视频),推荐系统,分类系统等。典型用在

    • 互联网,如电商的推荐。

    • 政企,如公安的图谱搜索

    • 自动驾驶,质检图谱的搜索等

  • 语义检索:利用文本,向量的混合搜索,实现多路召回,再加上reRanker模型实现语义排序。常用于企业的搜索,实现高质量的搜索

  • RAG:大模型活了,搭配大模型使用,把检索结果给到大模型,实现高质量的总结。最常用的是知识库,客服,大模型记忆问答等场景。这块各行各业都在实验和创新的 copilot 就是用到了 RAG 技术。

用一张表格总结如下:

分类

说明

能做什么业务

典型场景和行业

相似度检索

向量传统应用场景,向量检索为主

  • 多模态检索(文本、图片、音频、视频)

  • 推荐系统

  • 分类系统

  • 互联网,电商的推荐

  • 政企,如公安的图片搜索

  • 网盘,自动驾驶里面的图片搜索

语义搜索

文本和向量混合索引

替代 ES 的一些搜索场景

  • 文档,向量混合搜索,多路召回

  • reranker 模型一般有Cohere Rerank(闭源)和BGE-Reranker(开源)

  • 企业搜索,行业不限

RAG

搭配大模型使用,检索结果给大模型总结

  • 知识库

  • 客服

  • 大模型记忆问答

  • 各种copilot,行业不限

图片

两者对比

图数据库擅长推理能力,但是图实体模型建立本身门槛高,需要大量专业人员。向量数据库人工介入较少,但是结果准确度就差一些,各有各合适空间。下面是两者的对比:

向量数据库+大模型

图数据库+知识图谱

性能

数据量大,性能更好

数据量大,性能受挑战

复杂问题

复杂问题,查询结果不一定完整

复杂问题,可以取得更可靠的内容

建模难度

适合处理非结构化数据,文本转换成高维向量

实体关系建模,构建知识图谱

建模工作难度和工作量很大

适合场景

智能推荐系统:找出相似的,不需要精确

决策支持系统,需要梳理特定关系,保证逻辑关系正确性

因此我们可以看出,向量和知识图谱还是有各自适合的范围。

选型考虑条件

如果一个业务到底要选型向量还是知识图谱,就要从多个维度去考虑,下面是建议参考和选型的维度:

向量数据库

知识图谱

问题复杂度

非结构化,无复杂关系的选向量

大量相互关联知识实体

使用场景

简单相似度搜索,用向量数据库

基于实体关系的,复杂推理

数据量考量

扩展性高,数据量大

数据增长,关系复杂,维护难度会变高

团队能力

人力缺乏,选向量

事件建模,开发,算法技能

未来趋势

目前市面上看到各个厂家都在纷纷探索向量+图的融合演进,可见的未来,大概率两者会取各自长处,进行融合解决更复杂的问题。

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费使用,欢迎参与!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1873342.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

广和通 OpenCPU 二次开发(一) —— 串口

广和通 OpenCPU 二次开发(一) —— 串口 1.port,端口号2.引脚序列号对应芯片引脚图找,也可以对照GPIO功能复用表找3.要复用的pin脚对应的功能mode根据GPIO功能复用表选择 一、核心配置## 标题代码 int port 1; fibo_gpio_mode_s…

iML6602-无滤波器2×30W,60W音频放大器

iML6602是一款由集创北方推出的国产高性能、高效率的双声道D类音频功率放大器;它提供2X30W和60W的功率输出,支持无滤波器立体声,适用于蓝牙/无线扬声器、条形音响、LCD/LED电视和家庭影院等应用;可替代TI-TPA3128/3118/3110/3130/…

【知识图谱系列】Neo4j使用Py2neo与python进行链接

目录 一、安装py2neo 二、打开Neo4j 三、使用Python操作Neo4j 一、安装py2neo pip install --upgrade py2neo -i https://pypi.tuna.tsinghua.edu.cn/simple 可以先阅读下文档:https://py2neo.org/v4/index.html 这个文档里有好多关于这个工具包的API介绍&#x…

awk的用法

目录 awk简述 awk的用法 选项 内置变量 命令格式 打印行号 打印指定行 打印奇偶行 按行取列 BEGIN打印模式 乘法计算 awk -v 变量赋值 awk的条件判断 面试题awk的三元表达式 awk的精确筛选 逻辑且、或关系 awk做小数运算 curl 练习 1.获取其中的所有子域名…

MATLAB-振动问题:单自由度阻尼振动系统受迫振动

一、基本理论 二、MATLAB实现 单自由度阻尼振动系统受迫振动,MATLAB代码如下: clear; clc; close allA 1; psi 0; F0 10; D 20; Rm 0.5; M 1; omega 2; delta Rm / (2*M); omega0 sqrt(D / M); Omega sqrt(omega0^2 - delta^2); Zm Rm i *…

Python学习笔记25:进阶篇(十四)常见标准库使用之性能测试timeit模块学习使用

前言 本文是根据python官方教程中标准库模块的介绍,自己查询资料并整理,编写代码示例做出的学习笔记。 根据模块知识,一次讲解单个或者多个模块的内容。 教程链接:https://docs.python.org/zh-cn/3/tutorial/index.html 性能测量…

视频共享融合赋能平台LntonCVS安防监控平台现场方案实现和应用场景

LntonCVS国标视频融合云平台采用端-边-云一体化架构,部署简单灵活,功能多样化。支持多协议(GB28181/RTSP/Onvif/海康SDK/Ehome/大华SDK/RTMP推流等)和多类型设备接入(IPC/NVR/监控平台)。主要功能包括视频直…

数据中心机柜如何正确选择

选择适合数据中心的机柜是一个综合考量多个因素的过程,以下是一些关键点,帮助您做出正确的选择: 结构与承重: 考虑机柜的类型(开放式或封闭式)、重量载荷能力,确保它能承受数据中心内设备的总重…

期末C语言易错知识点整理

1.在定义多维数组时,除了最左边的维度,其余的维度必须明确指定大小 2.int m[1][4]{4}; 定义的是一个 1 行 4 列的二维数组,初始化时提供了一个元素 4,其余元素默认初始化为 0,因此是正确的。 3.二维数组 a[3][6] 中的索…

flash-Attention2安装和使用

flash-Attention2安装和使用 文章目录 flash-Attention2安装和使用写在前面解决方案 写在前面 就怕你不知道怎么查 pytorch、cuda 的版本 配置cuda:vim ~/.bashrc export CUDA_HOME/usr/local/cuda/ export PATH$PATH:$CUDA_HOME/bin export LD_LIBRARY_PATH$LD_LIB…

分页插件 count有数据,代码不往下执行

如下:如果打印了sql那么当row>0时会有图2下面sql详情的输出 问题出在了分页参数上,pageNum为1,并且pageSize>2才能打印出图二的结果,图一为pageNum值是0,注意,查询第一页,分页应该传入的是1而不是0

松下的台灯值得入手吗?书客、飞利浦真实横评大分享!

我们都知道,无论是学习还是工作,都需要一个良好的照明环境,而台灯就是我们日常生活中非常重要的照明工具。它不仅能够提供额外的光线,还能减少眼睛疲劳,提高我们的工作和学习效率。 所以,选购一款合适的台…

根据后端返回的省市区重新封装树结构(省市区通过children表示)

对比图(截取部分): 注:先看分步,最后会附上完整代码(如果有用,可以给小编点个赞吗?十分感谢) 1.首先将前端返回相同的省份只展示一次 const obj {}; let keyList []r…

安防监控视频平台LntonAIServer视频监控管理平台裸土检测算法技术核心和应用场景

LntonAIServer裸土检测算法是一种基于人工智能技术的创新解决方案,旨在实现对裸土地表的自动识别。以下是对该算法的详细分析: 技术基础: 1、该算法利用深度学习和计算机视觉技术,通过捕捉视频或图像中的关键信息,如…

SDIO学习(2)--SD卡 2.0协议

目录 1 SD卡简介 1.1 SD卡概念 1.2 SD卡外形和接口 1.3 SD卡特点 2 SD 2.0特点 3 SD 2.0总线拓扑结构 3.1 SD模式 3.2 SPI模式 4 SD 2.0总线协议 5 SD卡寄存器 5.1 OCR寄存器 5.2 CID 寄存器 5.3 CSD 寄存器 5.3.1 CSD结构 5.3.2 CSD寄存器 (CSD Version 2.0)…

软件测试之接口测试(Postman/Jmeter)

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一、什么是接口测试 通常做的接口测试指的是系统对外的接口,比如你需要从别的系统来…

从零开始备考CCIE安全,这么做就对了

CCIE Security认证是思科提供的最高级别的安全认证,验证在设计、实施和故障排除复杂的安全网络基础设施方面的能力。 获得CCIE Security认证不仅是对你网络安全专业知识的高度认可,更是职业发展的重要转折。 它能够显著提升你的职业竞争力,为…

制造企业的仓库管理如何做好数据分析?

在竞争激烈的现代制造业环境中,仓库管理成为许多生产制造企业面临的一大挑战。随着产品种类的不断增加和客户需求的日一个型号,仓库不仅要处理物料、半成品和成品,还要应对产品更新换代、不同项目客户的特殊需求等复杂因素。面对这些挑战&…

分布式kettle调度管理平台简介

介绍 Kettle(也称为Pentaho Data Integration)是一款开源的ETL(Extract, Transform, Load)工具,由Pentaho(现为Hitachi Vantara)开发和维护。它提供了一套强大的数据集成和转换功能&#xff0c…