超级独角兽 Databricks 的崛起之路

news2024/11/30 14:30:42

在数据扩张以及 AI 兴起的时代,数据存储和分析平台拥有巨大价值和能量。 

随着互联网数据的爆炸性增长,数据已经成为企业的新型资源,犹如石油般重要。越来越多的企业希望利用各种结构化和非结构化数据来发挥自己的优势。

然而,他们面临着复杂的遗留基础设施、数据孤岛的解决以及高延迟的管理等挑战。因此,数据湖的需求逐渐增长。数据湖是一种存储库,能够以本机格式摄取大量原始数据,使企业能够在需要时轻松地访问它们。

Databricks 是目前一级市场中的超级独角兽公司。其帮助企业准备用于分析的数据,支持采用机器学习和数据驱动的决策。它还使数据科学能够与数据工程和其他业务部门协作来构建数据产品。今天,它已经扩展成为一个更广泛的湖仓一体的 Databricks Marketplace。

01 旅程始于 Apache Spark

Databricks 团队由七位计算机科学博士组成,他们一直致力于开发用于数据处理的 Spark 引擎。该项目在 2014 年创造了数据排序速度的世界纪录。

为了让更多用户使用 Spark,他们选择将其开源,并在 2013 年创立了 Databricks 公司。同年,该公司完成了 A 轮融资,由 A16z 领投。2016 年 1 月,Databricks 更换了新的 CEO。一年后,该公司完成了第一笔百万美元的交易。

总体而言,Databricks 团队是 Apache Spark 的核心开发者,具有绝对的影响力和理解力,因此作为 Spark 的商业化公司,Databricks 名正言顺。

02 拓展产品线助力收入多元化

Databricks 最初专注于 Spark,用于查询存储在数据湖中的大型非结构化数据集。此后,为迎合市场,Databricks 升级为湖仓一体平台,其基于 Spark 构建,提供为数据湖提供 ACID 事务和数据版本控制的 Delta Lake;用于管理机器学习工作流程的开源平台 MLflow;以及基于 SQL 的数据分析协作工具 Redash。

总体来看,Databricks 湖仓一体平台结合了数据湖和数据仓库的元素。它具有数据湖的灵活性、成本效益和规模,同时还提供数据仓库的数据管理和 ACID 事务。用户可以在所有数据上启用商业智能和机器学习。

Databricks 产品在 AWS、Azure、GCP 等主要云服务上提供,其平台为数据、分析和机器学习工作提供了一个统一的环境。可视化可以成为这些不同活动的组成部分。

来源:Databricks

03 数据湖市场增长,用户横跨大中小

Databricks 相信企业正在摆脱孤立的系统来存储数据,而是选择集中式的数据存储。这种方法帮助企业通过商业智能和预测分析深入了解过去和未来的趋势。

数据湖技术正是基于此,其允许将所有数据类型和来源存储在一起。数据表明,数据湖市场将由 2019 年的 79 亿$增长到 2024 年的 201 亿$。

来源:marketsandmarkets

此外,Databricks 的客户横跨大中小企业,以及各个行业。截至 2023 年 03 月,其全球已有超过 9000 家企业用户。包括 AT&T、壳牌、巴宝莉、丰田、Adobe、康泰纳仕和再生元制药等。

如果我们用 Databricks 2022 年 Q2 末的 ARR 10亿$除以它 2022 年 Q2 末 7000+的客户数量,我们可以粗略估算 Databricks 的 ACV(平均合同价值)约为 14.3 万美元,相比 Snowflake 的 30.1 万$ (2023.Q3 估算),仍有提升空间。

04 三类对手的夹击

2012 年,前 Oracle 架构师创立的 Snowflake 是 Databricks 不可忽视的对手。最初,Snowflake 将自己定位为提供数仓和分析计算工作负载的云数据平台,主要面向业务分析师和数据工程师等用户。同期,Databricks 则一直受数据科学家和机器学习工程师的青睐。

但现在二者的界限在模糊,比如 Snowflak 发布了 Snowpark for Data Science、事务数据库以及 Python 支持功能,希望以此吸引数据科学家。而 Databricks 则推出了 Databricks SQL、Delta Lake 功能和 Unity 目录等产品,以满足数据存储和注重安全的客户。

从模式来看,Snowflake 是闭源生态,而 Databricks 是开源的。Databricks 的主要产品线都可以免费使用,当客户需要获得更高级的功能和支持时,可以选择 Databricks 的企业产品。Snowflake 提供现成的解决方案,使公司能够快速开展基本分析,而 Databricks 提供更好的定制和配置,让客户能够完全控制他们的设置。

2022 年底,Snowflake 的年收入 21 亿$,而 Databricks 预计年收入 14亿$。预计两家的竞争会愈发激烈。

第二类竞争对手是云厂商。Databricks 与云厂商的专有产品存在竞争。比如在大数据处理方面,AWS 有 Amazon EMR,Azure 有 Azure HDInsight,GCP 有 Dataproc。在业务分析解决方案层面, Amazon QuickSight、Azure的 Power BI Embedded 以及 GCP 的Looker 等,都与 Databricks 存在竞争。

最后,Databricks 与特定的数据管理和科学领域解决方案公司也存在竞争。比如 Databricks 的调度程序类似 Apache Airflow,MLflow 产品与 DataRobot 和 Alteryx 竞争。

05 收入持续增长,资本认可的超级独角兽

Databricks 本身是开源软件,其会通过提供附加功能收费。Databricks 会为企业提供其开源软件的完全托管版本,以及其他辅助工具,如用于编写查询的 SaaS 工具和用于连接数据源的连接器等。

付费模式方面,Databricks 根据客户每秒消耗的计算资源量收费。为此,其使用了一种自己独创的 DBU 作为其标准化单位,工作负载消耗的 DBU 数量取决于多个指标,包括使用的计算资源、处理的数据量、区域、所处的分级定价层以及正在使用的服务类型等。

此外,为了吸引用户,与其他开源公司类似,Databricks 也为用户提供了 14 天免费试用期。

来源:Databricks

财务方面,Databricks 也实现了跨越式的增长。2019.Q3 结束时其 ARR 为 2 亿$,2020 全年收入 4.25 亿$,2021 年 ARR 超 8 亿$。截至 2022 年 08 月,Databricks 的 ARR 已经超 10 亿$,并且年增长超过 70%。

截至 2021 年 08 月 Databricks 的估值 380 亿$,总共在资本市场筹集了 35 亿$,其投资者也星光璀璨,包括 A16z、Tiger Global、Amazon Web Services、Microsoft、Coatue 等。

当然也有消息透露,2022 年 10 月 Databricks 降低了内部股价,使其估值下调至 310 亿$,比 2021 年同期下降约 7%。但无论如何,Databricks 仍然是一级市场中的超级独角兽。

06 趋势、机遇与风险

随着云存储成本下降和网速提升,企业越来越多地选择将所有数据存储在中央存储库,而不是将不同的数据类型单独存储。这种集中化趋势帮助公司通过实时商业智能和预测分析更好地了解业务运营。同时,数据爆炸式增长也使公司维护多个大型数据存储变得不切实际,从而导致数据湖和数据仓库融合到一个平台中。

ChatGPT 一直是各行业的热点。Databricks 也迎接了这一浪潮,其湖仓一体平台允许数据团队存储和保护数据、生成分析和见解,并推动机器学习工具的开发。此外,Databricks 还提供与 TensorFlow、PyTorch 等流行人工智能框架的集成,使构建和部署机器学习模型变得容易。

Databricks 依靠 AWS、Azure 和 GCP 这类云基础设施供应商来提供服务。回望过去,与微软的合作是 Databricks 的里程碑,这帮助其收入从 2017 年初的不到 100 万$增长到 2018 年的超过 1 亿$。如果与主要云厂商关系发生变化,将影响 Databricks 的服务能力。

综上所述,我们有理由相信虽然面临挑战,但在这个数据扩张以及 AI 兴起的时代,Databricks 为企业提供的单一的数据存储和分析平台是有价值的,其很有机会和能力抓住这一浪潮。

作者简介

郑博,Aka Harbour 哈博。崔牛会非著名牛油,人到中年的 2B 基础架构创业老炮,CnosDB 云原生时序数据库开源社区发起人。

CnosDB简介

CnosDB是一款高性能、高易用性的开源分布式时序数据库,现已正式发布及全部开源。

欢迎关注我们的社区网站:https://www.cnosdb.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/523269.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python虚拟环境的安装和使用

在进行Python项目开发时可能会遇到各种各样的库和模块依赖问题。为了解决这些问题,我们可以使用虚拟环境来隔离项目的依赖。本次将介绍Python原生虚拟环境和Anaconda虚拟环境的安装与使用,并举例说明如何进行虚拟环境配置。 文章目录 Python原生虚拟环境…

华为OD机试真题 Java 实现【不爱施肥的小布】【2023Q2 100分】

一、题目描述 某农村主管理了一大片果园,fields[i]表示不同国林的面积,单位m2,现在要为所有的果林施肥且必须在n天之内完成,否则影响收成。小布是国林的工作人员,他每次选择一片果林进行施肥,且一片国林施…

Python机器学习:Scikit-learn和TensorFlow的应用和模型设计

一、引言 Python在机器学习领域中已经成为非常受欢迎的编程语言。Scikit-learn和TensorFlow是Python中应用最广泛的两个机器学习库,它们提供了丰富的机器学习算法和工具,帮助开发人员轻松地构建和训练机器学习模型。本文将详细介绍Scikit-learn和Tensor…

python+vue体育场馆场地预约系统 django体育器材管理系统3cprm

使用django框架搭建后台服务,使用python开发语言. 使用MySQL作为数据库对数据进行持久化 开发语言:Python 框架:django/flask Python版本:python3.7.7 数据库:mysql 数据库工具:Navicat 开发软件&#xf…

【K8s】常用的Pod控制器

文章目录 一、认识Pod控制器1、控制器介绍2、控制器种类 二、ReplicaSet(RS)1、RS的作用与资源清单2、创建RS3、pod扩缩容4、镜像升级5、删除RS 三、Deployment(Deploy)1、作用与资源清单2、创建deploy3、扩缩容4、镜像更新5、版本…

【运维知识进阶篇】集群架构-Nginx实现基础web架构(Linux+Nginx+PHP+Mysql)

本篇文章介绍LNMP架构部署项目,包括Nginx安装配置、PHP安装配置、数据库Mariadb安装配置、Nginx连通PHP、PHP连通MySQL、拆分数据库至独立服务器、拆分静态资源至服务器、扩展一个web服务器。 LNMP架构 Linux Nginx Mysql PHP Nginx不能处理动态请求,如…

Java如何判空

目录 前言 List的判空 String的判空 Optional 4.1 Optional对象的创建 4.2使用场景 前言 实际项目中我们会有很多地方需要判空校验,如果不做判空校验则可能产生NullPointerException异常。 针对异常的处理我们在上一篇有提及: 先来看一下实际项目…

OpenCV实战(23)——相机标定

OpenCV实战(23)——相机标定 0. 前言1. 数字图像成像原理2. 相机标定2.1 执行相机校准2.2 使用已知相机参数校准2.3 使用圆网格进行校准 3. 完整代码小结系列链接 0. 前言 我们已经了解了相机如何通过在 2D 传感器平面上投射光线来拍摄 3D 场景&#xf…

使用RobustPCA 进行时间序列的异常检测

鲁棒主成分分析(Robust Principal Component Analysis, RobustPCA)是一种将时间序列矩阵分解为低秩分量和稀疏分量的技术。这种分解能够识别潜在的趋势,以及检测异常和异常值。在本中我们将研究RobustPCA的数学基础,介绍它与传统的PCA之间的区别&#xf…

GcDataViewer for JavaScript 6.1.0 Crack

GcDataViewer是跨平台 JavaScript 数据查看器,使用我们的 JavaScript 数据查看器在 Web 上打开和查看数据文档。 Load Excel (XLSX)、CSV 和SPREADJS(SSJSON) 文件,全部在一个查看器中 支持使用排序、筛选器和切片器进…

单词拼写检查textblob模块spellcheck方法

【小白从小学Python、C、Java】 【计算机等考500强证书考研】 【Python-数据分析】 单词拼写检查 textblob模块 spellcheck方法 [太阳]选择题 关于python代码说法错误的一项是: from textblob import Word myWordsuccessfulee print("【显示】myWord …

【Spring事务】Spring事务事件控制,解决业务异步操作

使用背景 在业务中,经常会有这样的需求,在数据库事务提交之后,发送异步消息或者进行其他的事务操作。 例如当用户注册成功之后,发送激活码,如果用户注册后就执行发送激活码,但是在用户保存时出现提交事务…

【利用AI让知识体系化】入门Express框架

思维导图 文章目录 思维导图第一章:介绍Express什么是ExpressExpress优点Express应用场景 第二章:安装和基础用法安装Express搭建第一个Express应用中间件的使用 第三章:路由和控制器路由的原理路由的基本用法路由的进阶用法控制器的使用 第四…

BM 34 判断是否是二叉搜索树

判断是不是二叉搜索树_牛客题霸_牛客网 (nowcoder.com) 二叉搜索树满足每个节点的左子树上的所有节点均小于当前节点且右子树上的所有节点均大于当前节点。 递归去做 ,一段一段的去判断是否满足条件 /*** struct TreeNode {* int val;* struct TreeNode *left;* str…

c++ 11标准模板(STL) std::set(二)

定义于头文件 <set> template< class Key, class Compare std::less<Key>, class Allocator std::allocator<Key> > class set;(1)namespace pmr { template <class Key, class Compare std::less<Key>> using se…

超实用!50+个ChatGPT提示词助你成为高效Web开发者(上)

如果你已经感到编写代码的重复和繁琐让你疲惫不堪&#xff0c;想要提高自己的效率&#xff0c;那么你来对地方了。ChatGPT是一款能够帮助你优化工作流程、减少错误并获得提高代码的见解的强大工具。 在这篇博客文章中&#xff0c;我们将向你提供超过50个提示和策略&#xff0c;…

OpenCV教程——形态学操作。膨胀,腐蚀,开操作,闭操作,形态学梯度,顶帽,黑帽

1.形态学操作 图像形态学操作&#xff1a;基于形状的一系列图像处理操作的合集&#xff0c;主要是基于集合论基础上的形态学数学。 形态学有四个基本操作&#xff1a;膨胀、腐蚀、开、闭。 2.膨胀与腐蚀 2.1.膨胀 跟卷积操作类似&#xff0c;假设有图像A和结构元素B&#…

路径规划算法:基于灰狼优化的路径规划算法- 附代码

路径规划算法&#xff1a;基于灰狼优化的路径规划算法- 附代码 文章目录 路径规划算法&#xff1a;基于灰狼优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要&#xff1a;本文主要介绍利用智能优化算法灰狼…

自媒体的孔雀效应:插根鸡毛还是专业才华?

自媒体时代&#xff0c;让许多原本默默无闻的人找到了表达自己的平台。有人声称&#xff0c;现在这个时代&#xff0c;“随便什么人身上插根鸡毛就可以当孔雀了”。可是&#xff0c;事实真的如此吗&#xff1f; 首先&#xff0c;我们不能否认的是&#xff0c;自媒体确实为大众提…

【大数据】通过 docker-compose 快速部署 Presto(Trino)保姆级教程

文章目录 一、概述二、前期准备1&#xff09;部署 docker2&#xff09;部署 docker-compose 三、创建网络四、Trino 编排部署1&#xff09;下载 trino2&#xff09;配置1、coordinator 配置2、worker 配置 3&#xff09;启动脚本 bootstrap.sh4&#xff09;构建镜像 Dockerfile…