Databend 怎么看 OpenAI 收购实时数仓 Rockset?

news2024/10/5 23:51:20

6月21日(上周五),OpenAI 官方宣布完成对实时分析数据库 Rockset 的收购,一时引起数据库圈和 AI 圈热议,很多朋友也来询问 Databend 如何看待这个事件。这次收购表明了市场对实时数据分析和数据处理解决方案的高度重视,数据是 AI 发展的核心要素,拥有强大的数据处理能力将帮助 OpenAI 能够更好地将数据与 AI 技术进行深度融合。作为新一代云原生数据仓库服务商,我们也很高兴看到分析型数据(OLAP)能够推动 AI 技术的进一步发展。我们相信,这将促进整个行业的快速发展,并激励我们不断创新,以应对未来更复杂的数据处理需求。

Rockset 实际上是国外比较早做实时数据仓库的一个厂商,提供实时数据索引和查询功能。该公司目前客户包括 JetBlue、Allianz Direct、 Seesaw,以及 Facebook 的母公司 Meta 等。双方虽然没有公布具体的收购金额,但 Rockset 融资总额约有 1 亿美元,所以收购价格肯定也在 1 亿美元之上。 OpenAI 官方发布的消息称收购 Rockset 主要是为了增强其数据处理和分析能力,以更好地支持其生成型人工智能(GenAI)和大模型的需求。

能够引起 OpenAI 兴趣的肯定有其独到之处,那为什么 OpenAI 要收购一家数据仓库公司?Rockset 有哪些技术可以弥补 OpenAI 的短板?我们首先来看看 Rockset 的产品具有哪些主要特性:

实时数据汇聚:Rockset 以其高效的实时数据索引和查询能力著称,能够快速处理和分析大量数据。Rockset 支持从 Kafka、MongoDB、DynamoDB、S3 和 OpenAI 等各种来源的持续数据摄取。数据库实现了低延迟的索引和查询,使其适用于实时分析和搜索应用。Rockset 提供混合搜索能力,可以在单个查询中集成向量搜索、关键词搜索、元数据过滤和地理空间数据,无需使用多个系统即可高效且全面地检索数据。

多维索引:Rockset 的多维索引(Converged Index)是其数据库技术的核心概念之一。它将行索引+列索引+搜索索引(倒排索引)多种索引方法结合在一起,以实现高效的查询和实时分析。Rockset 可以自动为所有输入数据创建多维索引无需人工干预,这极大减少了数据库管理的复杂性;多维索引支持快速的数据检索,能实现毫秒级的查询响应时间,这对实时分析和需要即时响应的应用至关重要。

云原生架构:作为云原生解决方案,Rockset 无需复杂的设置和维护,提供自动扩展等功能,根据工作负载需求动态调整资源。这确保了计算和存储资源的高效利用。

灵活且快速的 SQL 支持:Rockset 支持全功能的 SQL 用于查询、过滤、聚合、连接和向量搜索。这使得快速构建和迭代数据应用程序变得容易,节省了大量开发时间。

作为一款实时数仓产品,Rockset 的这些特性刚好解决了目前大模型向企业级市场发展的几个关键问题:

实时数据分析:大模型存在一个天然劣势就是实时数据感知弱,OpenAI 是基于历史数据做训练,在数据新鲜度上存在短板。想解决这个问题,大模型和 GenAI 就需要处理大量实时数据,以生成实时决策和分析。Rockset 能够快速查询和分析大量数据,从而支持实时分析需求。

高效的数据处理:Rockset 数据库能够高效地处理复杂的查询,包括聚合和多维分析,这对于训练和优化 AI 模型至关重要。它们可以通过预先计算和存储复杂查询的结果,显著减少查询时间。

数据整合:大模型和 GenAI 通常需要从多个数据源获取数据,并将其整合到统一的数据视图中。Rockset 能够整合不同来源的数据,并提供一致的数据视图,支持更全面的分析。

可扩展性:随着数据量的增长,Rockset 能够通过分布式计算架构进行扩展,处理更大规模的数据集和更复杂的查询。这对于处理大规模训练数据和实时推理非常重要。

高性能查询:Rockset 通过优化的存储结构和索引技术,能够提供高性能的查询响应时间。这对于需要快速响应的 AI 应用(如实时推荐系统和动态定价)尤为重要。

通过整合 Rockset 技术,OpenAI 可以进一步优化其生成型 AI 模型,尤其是在数据嵌入和向量搜索方面。这将提升 OpenAI 模型在各种任务(如推荐系统和个性化服务)中的表现。

不过遗憾的是,OpenAI 收购 Rockset 不是为了投资,而是要将 Rockset 的技术整合到现有技术体系中,强化自身各项产品的检索基础设施。为此,Rockset 原先的客户不得不寻找新平台来替换 Rockset。

 

在 Rockset 的所有替代产品中,Databend Cloud 是少数几个能够涵盖 Rockset 所有关键特点的产品之一。Databend 的实时数据分析、存算分离架构、友好的 SQL 接口以及智能索引等功能,完美契合了大模型对数据库的需求: 实时数据汇聚:Databend 支持实时数据摄取和即时查询响应,用户可以在数据变化的同时进行查询和分析,这对于需要实时洞察的应用场景非常有用,适合于 BI 分析、日志分析、实时报表等应用场景。 智能索引:Databend 内置智能索引能力,会为用户自动创建和管理索引,如 Min/Max 索引、Bloom 索引等。在 Databend 中,大部分列都已经建立了索引,再结合优化器的良好设计,生成的 SQL 可以在无需人工干预的情况下快速执行。

云原生架构:Databend 从研发的 DayOne 起就定义它一定是一个云原生的存储、计算分离架构,它的底层基于成本低廉的对象存储,在上面构建了列式存储引擎,提供了一个更高性能的查询。在此架构下,Databend 能够根据需求自动扩展和缩减资源。甚至当业务处于空闲状态时,计算节点会自动进入休眠,从而有效节省资源。这使得它在处理不同规模的数据分析任务时非常灵活。

SQL 统一接口:Databend 提供了用户友好的 SQL 接口,具备完善的 SQL 查询功能,兼容 MySQL 协议,用户可以使用熟悉的 SQL 语句进行数据查询和分析。

AI Functions :Databend 引入了强大的 AI 功能,实现了 Data 与 AI 的无缝融合,我们可以通过 SQL 来实现:自然语言生成、 SQL Embedding 、向量化并存储、相似度计算、文本生成。目前,我们使用 Data + AI 能力提供了一个开源的知识库构建方案,GitHub - datafuselabs/askbend: AskBend: SQL-based Knowledge Base Search and Completion using Databend ,完全建立在 Databend 的能力之上,支持对文档进行 Embedding 和智能问答。

此外,Databend 还支持多种用户定义函数支持,允许使用 Python 、JavaScript 等多种语言开发脚本嵌入或搭建 UDF Server ,允许用户进一步拓展数据处理的能力和场景,提供更具定制化和可维护性的解决方案。

我们正在实现一个探索功能,在 Databend 内置 CPU 的 AI embedding。如果你的计算过程中没有 GPU 资源的话,通过这个能力可以直接用 CPU 做 AI embedding,会帮你节省大量宝贵的计算成本。

目前,Databend 已在游戏、社交、金融、广告、电商等多个行业领域中成功替代 Snowflake、Redshift、BigQuery、GreenPlum、ClickHouse、CDH 等产品,为客户提供了降本增效的大数据解决方案。

如果你正在找一款 Rockset 的替代产品,欢迎来体验、试用 Databend Cloud,点击文末「阅读原文」,立即试用!

关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。 👨‍💻‍ Databend Cloud:https://databend.cn

📖 Databend 文档:Databend

💻 Wechat:Databend

✨ GitHub:GitHub - datafuselabs/databend: 𝗗𝗮𝘁𝗮, 𝗔𝗻𝗮𝗹𝘆𝘁𝗶𝗰𝘀 & 𝗔𝗜. Modern alternative to Snowflake. Cost-effective and simple for massive-scale analytics. https://databend.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1868668.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

我在高职教STM32——GPIO入门之按键输入(1)

大家好,我是老耿,高职青椒一枚,一直从事单片机、嵌入式、物联网等课程的教学。对于高职的学生层次,同行应该都懂的,老师在课堂上教学几乎是没什么成就感的。正因如此,才有了借助 CSDN 平台寻求认同感和成就…

android 通过gradle去除aar的重复资源图片

背景:项目中引入了aar包,结果导致资源出问题了,于是需要对下面aar包进行重复资源去除操作 操作具体如下: 目录:app/build.gradle 末尾配置 apply from: "${project.rootDir}/scripts/excludewidgetAar.gradle&qu…

【文件夹加密】文件夹怎么加密码,快来试试这4个方法

文件夹怎么加密?在日常工作中,为了保护我们的文件数据、隐私信息不被泄露,因此文件夹加密非常有必要。文件夹加密技术是通过特定的算法改变文件夹中文件的信息数据,使未授权的用户即使获得了已加密的文件或文件夹,也因…

已解决javax.security.auth.DestroyFailedException:在尝试销毁某个对象时失败的正确解决方法,亲测有效!!!

已解决javax.security.auth.DestroyFailedException:在尝试销毁某个对象时失败的正确解决方法,亲测有效!!! 目录 问题分析 报错原因 解决思路 解决方法 检查对象状态 确认权限设置 检查资源锁定情况 修正实现…

Windows环境下安装MySQL数据库的步骤

说明: 由于环境的不同,安装过程中可能会遇到各种各样的问题,不用慌,先根据错误提示搜索,多试一下。 安装前,请先认真看一下,有可能会遇到的几个问题: 1、证书链问题,一般…

【PyScript】PyScript 基础入门

【PyScript】PyScript 基础入门 PyScript 是一个为了支持 Python 运行在浏览器的开源平台。 1.PyScript 应用程序的创建 PyScript 程序需要以下三个内容 一个提供给浏览器的 index.html 文件。PyScript 的运行环境描述,通常是一个 pyscript.json 或 pyscript.to…

7km远距离WiFi实时图传模块,无人机海上无线传输方案,飞睿智能WiFi MESH自组网技术

在浩瀚无垠的海洋上,无人机正在开启一场前所未有的技术创新。它们不再只是天空的舞者,更是海洋的守望者,为我们带来前所未有的视野和数据。而这一切的背后,都离不开一项创新性的技术——飞睿智能远距离WiFi实时图传模块与无线Mesh…

热门开源Text2SQL框架

Chat2DB 项目地址:https://github.com/chat2db/Chat2DB简介:Chat2DB是一个通用的SQL客户端和数据分析工具,能够辅助生成SQL,同时支持对话式的数据分析功能,提供了网页、客户端2种使用方式,它支持几乎所有流…

[图解]SysML和EA建模住宅安全系统-01-包图

1 00:00:01,400 --> 00:00:04,870 得到这个之后,我们就来画我们的包图了 2 00:00:05,350 --> 00:00:07,940 我们来看包图的内容 3 00:00:09,750 --> 00:00:12,430 名字是这个,模型组织 4 00:00:13,820 --> 00:00:20,570 然后上面&#xf…

Xilinx FPGA:vivado用串口控制数码管

一、项目要求 要求输入从千位到个位数字给4位数码管,要求分别输入的数字都能显示 二、关键信号流向 三、程序设计 顶层: timescale 1ns / 1ps module TOP(input sys_clk ,input rst_n ,input rx_…

基于LangChain构建RAG应用

前言 Hello,大家好,我是GISer Liu😁,一名热爱AI技术的GIS开发者,上一篇文章中我们详细介绍了RAG的核心思想以及搭建向量数据库的完整过程;😲 本文将基于上一篇文章的结果进行开发,主…

@RequestParam注解的使用及源码解析

前言 RequestParam 注解是我们进行JavaEE开发,最常见的几个注解之一,这篇博文我们以案例和源码相结合,帮助大家更好的了解RequestParam 注解 使用案例 1.获取 URL 上的值 GetMapping("/simple") public String simple(RequestP…

MySQL自学教程:1. MySQL简介与安装

MySQL简介与安装 一、MySQL简介二、MySQL安装(一)Windows系统上的安装(二)Linux系统上的安装(以Ubuntu为例)(三)Mac OS系统上的安装三、安装后的基本配置四、总结一、MySQL简介 MySQL是一个流行的开源关系型数据库管理系统(RDBMS),广泛应用于各种业务场景,从小型个…

2024肥晨赠书活动第三期:《前端工程化:基于Vue.js 3.0的设计与实践》

文章目录 内容简介作者简介关于《前端工程化:基于Vue.js 3.0的设计与实践》文章目录文章简介《前端工程化:基于Vue.js 3.0的设计与实践》全书速览结束语 内容简介 本书以Vue.js的3.0版本为核心技术栈,围绕“前端工程化”和TypeScript的知识点…

保姆级本地部署Qwen2

重点:Qwen2提供了CPU与GPU两种运行方式 运行成功效果图: 前提说明:如果需要用GPU,那么请在物理机安装ubuntu系统,不然显卡驱动很难安装,不建议新手部署。训练微调模型需要用到GPU。本文仅以ubuntu系统演示…

vue3+ts <script setup lang=“ts“> element-plus的el-date-picker设置默认日期

效果图(单个日期): utils.ts: /*** 格式化时间戳* param {number} timestamp 时间戳* param {string} format 格式* returns {string}*/ export const formatTimeStamp (timestamp: number, format: string) > {if (!timesta…

Python魔法参数:深入解析*args和**kwargs的强大用途

目录 引言 基础概念解析 *args:处理位置参数 **kwargs:处理关键字参数 *args和**kwargs的实际应用场景 1. 函数装饰器中使用*args和**kwargs 2. 类构造函数中使用*args和**kwargs 3. API调用中使用**kwargs 与其他参数类型的结合使用 结合默认参数 位置参数与关键…

利用powershell开展网络钓鱼

要确保人们打开我们的恶意文件并执行它们,我们只需让微软努力工作多年来赢得人们的信任,然后将一些危险的宏插入到幻灯片中。 本博文将介绍如何通过屏幕顶部的一个友好的警告提示,在用户启用宏后立即运行您的宏。 首先,我们需要打…

pytest-yaml-sanmu(五):跳过执行和预期失败

除了手动注册标记之外,pytest 还内置了一些标记可直接使用,每种内置标记都会用例带来不同的特殊效果,本文先介绍 3 种。 1. skip skip 标记通常用于忽略暂时无法执行,或不需要执行的用例。 pytest 在执行用例时,如果…

手持小风扇哪个品牌好耐用?手持小风扇品牌排行榜揭晓分享

炎炎夏日,手持小风扇、USB小风扇,成为人手一台的“网红”。这些小风扇造型小巧,可以装进包里,夏日出街或者挤公交地铁都可以拿出来吹一吹。那么这些小风扇性价比高不高呢?真的好用吗?耐用吗?根据…