6月21日(上周五),OpenAI 官方宣布完成对实时分析数据库 Rockset 的收购,一时引起数据库圈和 AI 圈热议,很多朋友也来询问 Databend 如何看待这个事件。这次收购表明了市场对实时数据分析和数据处理解决方案的高度重视,数据是 AI 发展的核心要素,拥有强大的数据处理能力将帮助 OpenAI 能够更好地将数据与 AI 技术进行深度融合。作为新一代云原生数据仓库服务商,我们也很高兴看到分析型数据(OLAP)能够推动 AI 技术的进一步发展。我们相信,这将促进整个行业的快速发展,并激励我们不断创新,以应对未来更复杂的数据处理需求。
Rockset 实际上是国外比较早做实时数据仓库的一个厂商,提供实时数据索引和查询功能。该公司目前客户包括 JetBlue、Allianz Direct、 Seesaw,以及 Facebook 的母公司 Meta 等。双方虽然没有公布具体的收购金额,但 Rockset 融资总额约有 1 亿美元,所以收购价格肯定也在 1 亿美元之上。 OpenAI 官方发布的消息称收购 Rockset 主要是为了增强其数据处理和分析能力,以更好地支持其生成型人工智能(GenAI)和大模型的需求。
能够引起 OpenAI 兴趣的肯定有其独到之处,那为什么 OpenAI 要收购一家数据仓库公司?Rockset 有哪些技术可以弥补 OpenAI 的短板?我们首先来看看 Rockset 的产品具有哪些主要特性:
实时数据汇聚:Rockset 以其高效的实时数据索引和查询能力著称,能够快速处理和分析大量数据。Rockset 支持从 Kafka、MongoDB、DynamoDB、S3 和 OpenAI 等各种来源的持续数据摄取。数据库实现了低延迟的索引和查询,使其适用于实时分析和搜索应用。Rockset 提供混合搜索能力,可以在单个查询中集成向量搜索、关键词搜索、元数据过滤和地理空间数据,无需使用多个系统即可高效且全面地检索数据。
多维索引:Rockset 的多维索引(Converged Index)是其数据库技术的核心概念之一。它将行索引+列索引+搜索索引(倒排索引)多种索引方法结合在一起,以实现高效的查询和实时分析。Rockset 可以自动为所有输入数据创建多维索引无需人工干预,这极大减少了数据库管理的复杂性;多维索引支持快速的数据检索,能实现毫秒级的查询响应时间,这对实时分析和需要即时响应的应用至关重要。
云原生架构:作为云原生解决方案,Rockset 无需复杂的设置和维护,提供自动扩展等功能,根据工作负载需求动态调整资源。这确保了计算和存储资源的高效利用。
灵活且快速的 SQL 支持:Rockset 支持全功能的 SQL 用于查询、过滤、聚合、连接和向量搜索。这使得快速构建和迭代数据应用程序变得容易,节省了大量开发时间。
作为一款实时数仓产品,Rockset 的这些特性刚好解决了目前大模型向企业级市场发展的几个关键问题:
实时数据分析:大模型存在一个天然劣势就是实时数据感知弱,OpenAI 是基于历史数据做训练,在数据新鲜度上存在短板。想解决这个问题,大模型和 GenAI 就需要处理大量实时数据,以生成实时决策和分析。Rockset 能够快速查询和分析大量数据,从而支持实时分析需求。
高效的数据处理:Rockset 数据库能够高效地处理复杂的查询,包括聚合和多维分析,这对于训练和优化 AI 模型至关重要。它们可以通过预先计算和存储复杂查询的结果,显著减少查询时间。
数据整合:大模型和 GenAI 通常需要从多个数据源获取数据,并将其整合到统一的数据视图中。Rockset 能够整合不同来源的数据,并提供一致的数据视图,支持更全面的分析。
可扩展性:随着数据量的增长,Rockset 能够通过分布式计算架构进行扩展,处理更大规模的数据集和更复杂的查询。这对于处理大规模训练数据和实时推理非常重要。
高性能查询:Rockset 通过优化的存储结构和索引技术,能够提供高性能的查询响应时间。这对于需要快速响应的 AI 应用(如实时推荐系统和动态定价)尤为重要。
通过整合 Rockset 技术,OpenAI 可以进一步优化其生成型 AI 模型,尤其是在数据嵌入和向量搜索方面。这将提升 OpenAI 模型在各种任务(如推荐系统和个性化服务)中的表现。
不过遗憾的是,OpenAI 收购 Rockset 不是为了投资,而是要将 Rockset 的技术整合到现有技术体系中,强化自身各项产品的检索基础设施。为此,Rockset 原先的客户不得不寻找新平台来替换 Rockset。
在 Rockset 的所有替代产品中,Databend Cloud 是少数几个能够涵盖 Rockset 所有关键特点的产品之一。Databend 的实时数据分析、存算分离架构、友好的 SQL 接口以及智能索引等功能,完美契合了大模型对数据库的需求: 实时数据汇聚:Databend 支持实时数据摄取和即时查询响应,用户可以在数据变化的同时进行查询和分析,这对于需要实时洞察的应用场景非常有用,适合于 BI 分析、日志分析、实时报表等应用场景。 智能索引:Databend 内置智能索引能力,会为用户自动创建和管理索引,如 Min/Max 索引、Bloom 索引等。在 Databend 中,大部分列都已经建立了索引,再结合优化器的良好设计,生成的 SQL 可以在无需人工干预的情况下快速执行。
云原生架构:Databend 从研发的 DayOne 起就定义它一定是一个云原生的存储、计算分离架构,它的底层基于成本低廉的对象存储,在上面构建了列式存储引擎,提供了一个更高性能的查询。在此架构下,Databend 能够根据需求自动扩展和缩减资源。甚至当业务处于空闲状态时,计算节点会自动进入休眠,从而有效节省资源。这使得它在处理不同规模的数据分析任务时非常灵活。
SQL 统一接口:Databend 提供了用户友好的 SQL 接口,具备完善的 SQL 查询功能,兼容 MySQL 协议,用户可以使用熟悉的 SQL 语句进行数据查询和分析。
AI Functions :Databend 引入了强大的 AI 功能,实现了 Data 与 AI 的无缝融合,我们可以通过 SQL 来实现:自然语言生成、 SQL Embedding 、向量化并存储、相似度计算、文本生成。目前,我们使用 Data + AI 能力提供了一个开源的知识库构建方案,GitHub - datafuselabs/askbend: AskBend: SQL-based Knowledge Base Search and Completion using Databend ,完全建立在 Databend 的能力之上,支持对文档进行 Embedding 和智能问答。
此外,Databend 还支持多种用户定义函数支持,允许使用 Python 、JavaScript 等多种语言开发脚本嵌入或搭建 UDF Server ,允许用户进一步拓展数据处理的能力和场景,提供更具定制化和可维护性的解决方案。
我们正在实现一个探索功能,在 Databend 内置 CPU 的 AI embedding。如果你的计算过程中没有 GPU 资源的话,通过这个能力可以直接用 CPU 做 AI embedding,会帮你节省大量宝贵的计算成本。
目前,Databend 已在游戏、社交、金融、广告、电商等多个行业领域中成功替代 Snowflake、Redshift、BigQuery、GreenPlum、ClickHouse、CDH 等产品,为客户提供了降本增效的大数据解决方案。
如果你正在找一款 Rockset 的替代产品,欢迎来体验、试用 Databend Cloud,点击文末「阅读原文」,立即试用!
关于 Databend
Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式数仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。 👨💻 Databend Cloud:https://databend.cn
📖 Databend 文档:Databend
💻 Wechat:Databend
✨ GitHub:GitHub - datafuselabs/databend: 𝗗𝗮𝘁𝗮, 𝗔𝗻𝗮𝗹𝘆𝘁𝗶𝗰𝘀 & 𝗔𝗜. Modern alternative to Snowflake. Cost-effective and simple for massive-scale analytics. https://databend.com