向量数据库的崛起:如何改变数据存储与机器学习的未来

news2024/9/8 23:33:53

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

近年来,随着大量语言模型(LLMs)和生成式人工智能(GenAI)运动的兴起,向量数据库技术蓬勃发展,吸引了众多创业公司和投资者的关注。传统的关系数据库如Postgres或MySQL非常适合处理结构化数据——这些数据类型预定义明确,可以整齐地排列在行和列中。然而,对于图像、视频、电子邮件、社交媒体帖子等非结构化数据,传统数据库的处理方式就显得力不从心。

与此相对,向量数据库通过向量嵌入的形式存储和处理数据,将文本、文件、图像等数据转换为数值表征,捕捉不同数据点之间的含义和关系。这种方法非常适合机器学习,因为数据库根据各项数据的相关性在空间上存储数据,这使得检索语义上相似的数据变得更加容易。

这对于OpenAI的GPT-4等大型语言模型尤其有用,因为它允许AI聊天机器人通过分析以前的类似对话来更好地理解对话上下文。向量搜索还可用于各种实时应用,如社交网络或电商应用中的内容推荐,因为它可以快速查看用户搜索过什么,并检索出类似的项目。

向量搜索还可以帮助减少LLM应用中的“幻觉”,通过提供可能在原始训练数据集中不可用的额外信息。

向量搜索初创公司Qdrant的首席执行官兼联合创始人Andre Zayarni向TechCrunch解释说:“如果不使用向量相似度搜索,你仍然可以开发AI/ML应用,但你需要进行更多的重新训练和微调。当有大量数据集需要处理时,向量数据库就显得尤为重要,它是一个高效便捷处理向量嵌入的工具。”

今年1月,Qdrant获得了2800万美元的资金支持,凭借其快速增长成为去年增长最快的商业开源创业公司之一。并且,它远非唯一一个最近筹集资金的向量数据库初创公司——Vespa、Weaviate、Pinecone和Chroma去年共筹集了2亿美元用于各种向量产品。

自今年年初以来,我们还看到Index Ventures领投了Superlinked的950万美元种子轮融资,该平台将复杂数据转化为向量嵌入。几周前,Y Combinator(YC)公布了其2024年冬季群体,其中包括Lantern,这是一家为Postgres销售托管向量搜索引擎的初创公司。

此外,Marqo在去年年底获得了440万美元的种子轮融资,紧接着在2月份进行了1250万美元的A轮融资。Marqo平台提供全方位的向量工具,包括向量生成、存储和检索,使用户无需借助OpenAI或Hugging Face等第三方工具,通过单一API即可使用所有功能。

Marqo的联合创始人Tom Hamer和Jesse N. Clark曾在亚马逊担任工程师,他们意识到在不同模式如文本和图像上进行语义灵活搜索的巨大未满足需求。这促使他们在2021年离开亚马逊创立了Marqo。

Clark对TechCrunch表示:“在亚马逊从事视觉搜索和机器人技术工作时,我真正开始考虑向量搜索——我在思考新的产品发现方式,很快就聚焦于向量搜索。在机器人技术中,我利用多模态搜索来检索我们的图像,以识别可能存在的错误物体,比如软管和包裹,否则这些问题将非常难以解决。”

虽然向量数据库在ChatGPT和GenAI运动的喧嚣中正当其时,但它们并非适用于每一种企业搜索场景的灵丹妙药。

Percona的创始人Peter Zaitsev向TechCrunch解释说:“专用数据库往往专注于特定的用例,因此可以为所需任务的性能以及用户体验设计其架构,与需要适应当前设计的通用数据库相比。”

尽管专业数据库可能在某些方面表现出色但忽视了其他方面,我们开始看到数据库领域的老牌公司如Elastic、Redis、OpenSearch、Cassandra、Oracle和MongoDB,以及像Microsoft的Azure、Amazon的AWS和Cloudflare这样的云服务提供商,都在添加向量数据库搜索技术。

Zaitsev将这一最新趋势与十多年前JSON的情况进行比较,当时网络应用变得更加普遍,开发者需要一种对人类来说易于阅读和编写的语言独立数据格式。在那种情况下,像MongoDB这样的文档数据库作为新的数据库类别出现,而现有的关系数据库也引入了JSON支持。

Zaitsev对TechCrunch表示:“我认为向量数据库也可能出现类似的情况。那些正在构建非常复杂和大规模AI应用的用户将使用专用的向量搜索数据库,而那些需要为其现有应用构建一些AI功能的人更可能在他们已经使用的数据库中使用向量搜索功能。”

但Zayarni和他的Qdrant同事们正押注,完全围绕向量构建的原生解决方案将提供所需的“速度、内存安全和规模”,随着向量数据的爆炸性增长,与那些将向量搜索作为后期添加的公司相比,原生解决方案将表现更优。

Zayarni说:“他们的宣传是,‘如果需要,我们也可以进行向量搜索’。而我们的宣传是,‘我们以最佳方式进行高级向量搜索’。这完全是关于专业化。我们实际上建议从你技术栈中已有的数据库开始。如果向量搜索是你解决方案的关键组成部分,用户终将面临限制。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1613341.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于 Spring Boot 博客系统开发(一)

基于 Spring Boot 博客系统开发(一) 本系统是简易的个人博客系统开发,为了更加熟练地掌握SprIng Boot 框架及相关技术的使用。🤓🤓🤓 本系统开发所需的环境及相关软件 操作系统:Windows Java…

20240330-1-词嵌入模型w2v+tf-idf

Word2Vector 1.什么是词嵌入模型? 把词映射为实数域向量的技术也叫词嵌⼊ 2.介绍一下Word2Vec 谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一。Word2Vec实际是一种浅层的神经网络模型,它有两种网络结构,分别是连续词袋&#xff…

iOS 全平台矢量动画库:体积小巧、功能丰富 | 开源日报 No.227

airbnb/lottie-ios Stars: 24k License: NOASSERTION lottie-ios 是一个用于在 iOS 平台上本地渲染 After Effects 矢量动画的库。 该项目主要功能、关键特性、核心优势包括: 跨平台支持:可在 iOS, macOS, tvOS, visionOS, Android 和 Web 上使用实时渲…

NewStarCTF 2023 web

目录 week1 泄漏的秘密 Begin of Upload Begin of HTTP ErrorFlask Begin of PHP R!C!E! EasyLogin week2 游戏高手 include 0。0 ez_sql Unserialize? Upload again! R!!C!!E!! week3 Include 🍐 medium_sql POP Gadget GenShin wee…

jvm调优的命令和工具总结与分析

目录 1 前置启动程序 2 Jmap查看内存信息 2.1 jmap ‐histo查看历史实例信息 2.2 jmap ‐heap查看堆信息: 2.3 jmap ‐dump导出堆内存信息 2 Jstack查找死锁 2.1 用jstack加进程id查找死锁 2.2 还可以用jvisualvm自动检测死锁 3 Jinfo查看参数配置值 3.1 …

Hadoop1X,Hadoop2X和hadoop3X有很大的区别么?

Hadoop的演进从Hadoop 1到Hadoop 3主要是为了提供更高的效率、更好的资源管理、更高的可靠性以及对更多数据处理方式的支持。下面是Hadoop 1, Hadoop 2, 和 Hadoop 3之间的主要区别和演进的原因: Hadoop 1 特点: 主要包括两大核心组件:HDFS&a…

kettle从入门到精通 第五十三课 ETL之kettle MQTT/RabbitMQ consumer实战

1、上一节课我们学习了MQTT producer 生产者步骤,MQTT consumer消费者步骤。该步骤可以从支持MRQTT协议的中间件获取数据,该步骤和kafka consumer 一样可以处理实时数据交互,如下图所示: 2、双击步骤打开MQTT consumer 配置窗口&a…

sso-oauth2单点登录功能笔记

场景:最近公司2个系统需要做单点登录,A系统作为服务器,认证方式是sso-oauth2方式,B系统作为客户端,token方式是ta-token,先来张sso-oauth2认证方式的图 前置准备工作 第一步:要确认谁是服务提…

Python 全栈安全(一)

原文:annas-archive.org/md5/712ab41a4ed6036d0e8214d788514d6b 译者:飞龙 协议:CC BY-NC-SA 4.0 前言 序言 多年前,我在亚马逊搜索了一本基于 Python 的应用程序安全书。我以为会有多本书可供选择。已经有了很多其他主题的 Pyt…

【Linux】MySQL的安装及配置(Ubuntu-18.04)

一、安装MySQL 分别安装MySQL服务器、MySQL客户端、C/C开发库 sudo apt-get install mysql-server sudo apt-get install mysql-client sudo apt-get install libmysqlclient-dev 二、配置MySQL 1.查看默认配置文件,此处的user和password为默认提供的,…

vulfocus靶场thinkphp命令执行cve-2018-1002015

thinkPHP 5.0.x版本和5.1.x版本中存在远程代码执行漏洞,该漏洞源于ThinkPHP在获取控制器名时未对用户提交的参数进行严格的过滤。远程攻击者可通过输入‘\’字符的方式调用任意方法利用该漏洞执行代码 开启靶场: 使用工具: think…

SpringBoot-无法从static上下文引用同非static方法

1.问题 说明:无法从static上下文引用同非static方法。 2.解决 说明:return后面的语句中,调用的是变量的方法,而不是类型的方法!

ChatGPT研究论文提示词集合3-【数据收集】、【数据分析】和【解释与讨论】

点击下方▼▼▼▼链接直达AIPaperPass ! AIPaperPass - AI论文写作指导平台 目录 1.数据收集 2.数据分析 3.讨论与解释 4.书籍介绍 AIPaperPass智能论文写作平台 近期小编按照学术论文的流程,精心准备一套学术研究各个流程的提示词集合。总共14个步…

从零到一大屏开发过程记录

写在前面,博主是个在北京打拼的码农,凭借多年前端工作经验做过各类项目,最近心血来潮在这儿写点东西,欢迎大家多多指教。 对于文章中出现的任何错误请大家批评指出,一定及时修改。有任何想要讨论和学习的问题可联系我&…

Windows使用freeSSHd搭建sftp服务器

一、安装 1、运行freeSSHd.exe(最好以管理员方式运行) 2、选择安装位置 3、选择全部安装 4、是否创建开始启动栏快捷入口 5、是否创建桌面快捷方式 6、安装 7、安装完成,点击close 8、安装私钥 9、是否要安装为服务 10、全部安装完成 二、配…

强固型工业电脑在码头智能化,龙门吊/流机车载电脑的行业应用

码头智能化行业应用 对码头运营来说,如何优化集装箱从船上到码头堆场到出厂区的各个流程以及达到提高效率。 降低成本的目的,是码头营运获利最重要的议题。为了让集装箱码头客户能够安心使用TOS系统来调度指挥码头上各种吊车、叉车、拖车和人员&#xf…

Linux内核之slab、slub内存分配器实例用法区别(五十八)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

从零实现诗词GPT大模型:实现Transformer架构

专栏规划: https://qibin.blog.csdn.net/article/details/137728228 首先说明一下,跟其他文章不太一样,在本篇文章中不会对Transformer架构中的自注意力机制进行讲解,而是后面单独1~2篇文章详细讲解自注意力机制,我认为由浅入深的先了解Transformer整体架构和其中比较简单…

Drive Scope for Mac:硬盘健康监测分析工具

Drive Scope for Mac是一款专为Mac用户设计的硬盘健康监测与分析工具,致力于保障用户的数据安全。这款软件功能强大且操作简便,能够实时检测硬盘的各项指标,帮助用户及时发现并解决潜在问题。 Drive Scope for Mac 1.2.23注册激活版下载 Driv…

在RISC-V64架构的CV1811C开发板上应用perf工具进行多线程程序性能分析及火焰图调试

CV1811C环境编译 SDK目录结构 . ├── build // 编译目录,存放编译脚本以及各board差异化配置 ├── buildroot-2021.05 // buildroot开源工具 ├── freertos // freertos系统 ├── fsbl // fsbl启动固件,prebuilt形式存在…