TiDB x Catalyst丨秒级洞悉数据价值,TiDB 帮助“客户成功 SaaS 厂商”提升用户体验

news2024/11/18 23:24:56

导读

Catalyst 是一家总部位于纽约的 SaaS 创业公司,它提供了一个直观且灵活的客户成功平台(Custom Success Platform),可帮助客户成功团队汇聚客户数据,洞悉客户健康状况,推动客户留存和业务增长。目前 Catalyst 已完成了 B 轮融资。

本文为“全球极限场景与创新场景使用 TiDB 的最佳实践”专题第三篇,分享 TiDB 如何为 Catalyst 降低了维护成本并提供更好的客户体验。

业务特点

Catalyst 整合了来自包括 Salesforce、Mixpanel、 PostgreSQL 等不同来源的海量数据,并将其纳入 Catalyst 生态系统中进行处理、分析并生成可参考执行的数据洞察。

Catalyst 主要处理三种类型的数据:事务型数据、只读数据和时序数据。

  • 事务型数据主要包括内部创建的笔记和任务,以及从 Salesforce、Zendesk 和其他平台收集的外部数据。
  • 只读型数据主要是指从 Jira 和 Zendesk 等平台收集的工单数据。
  • 时序型数据是 Catalyst 最重要和最棘手的数据类型之一。能处理这一类型的数据,也是 Catalyst 团队数据库选型的重要需求之一。

以前的数据架构及其瓶颈

Catalyst 最初使用 PostgreSQL 来处理从外部收集的所有数据。然而,随着其业务的增长和数据源的迅速扩大,PostgreSQL 无法跟上其需求。Catalyst 最初试图通过将数据存储为 JSON 文档来弥补这一缺陷,但查询性能受到了严重影响。

随后,该团队转向了 pre-caching 方案。他们采用 Elasticsearch 来存储结果,以便更快地响应客户的查询。然而,由于 Elasticsearch 不支持 SQL 风格的 JOIN, Catalyst 必须在将所有内容存储在 Elasticsearch 之前进行预计算。随着存储数据量增加,成本也急剧上升。

为了解决这些问题并拓展业务增长,Catalyst 团队决定重新设计整个数据处理和存储系统。他们也是这个时候发现了新一代分布式关系型数据库 TiDB。

数据层重构

Catalyst 的新架构分为五个数据层:数据摄取层、数据湖层、Spark 层、数据服务层和 Web 应用层。原始数据通过摄取层进入,并继续进入数据湖层。Spark 层组合数据对象,执行预计算,确保数据有意义。数据服务层存储所有预处理过数据以供客户查询。因为直接影响用户体验,数据服务层对 Catalyst 来是最重要的,也成为 Catalyst 对新数据栈迫切需求的地方。数据服务层以下的各层不需要是实时的。然而,在数据服务层,Catalyst 需要亚秒级的延迟,以便客户能够迅速获得结果。

新技术栈的必备能力

为了服务不断增长的客户,Catalyst 迫切需要一个具备以下特性的数据库:

支持混合事务型和分析型工作负载。Catalyst 必须处理事务型和只读数据,以及时序数据。他们需要的解决方案,无论是单一的数据库还是一个数据库组合,必须能够同时处理交易型和分析型工作负载。

快速响应。新的数据库解决方案必须比 Catalyst 以前的解决方案更灵活,特别是在查询速度和用户界面性能方面。它必须在几秒钟内对查询作出反应,并具有较低的更新延时。

处理复杂和高度定制的数据。Catalyst 的客户可以在 Catalyst 平台内部以及 Salesforce 和 Zendesk 等数据源平台上自定义许多设置,包括查询、数据转换和关系。与许多自定义字段集成的自定义对象的组合可能相当复杂。新的解决方案必须能够处理这种情况。

高可用。Catalyst 需要对他们的客户作出敏捷的反应。维持系统运行是 Catalyst 的首要任务。一旦 Catalyst 宕机,客户往往几十秒内就会投诉。因此,新的数据库解决方案必须是高度可用的,以帮助 Catalyst 轻松应对任何可能的系统事故。

水平扩展性。可扩展性是另一个必须具备的条件。Catalyst 处理的数据量非常大,而且数据量还会不断扩大。数据库解决方案必须易于扩展到巨大的规模。

数据强一致性。数据一致性是另一个要求。但考虑到有如此多的数据处理在流中进行,要在整个系统中保持数据强一致性是非常困难的。因此 Catalyst 可以接受最终一致性 (Eventual Consistency)。

TiDB 在性能测试中脱颖而出

Catalyst 在选择新的数据库时非常谨慎;他们调研了 TiDB 和另外两种选择: Aurora 与 AWS Timestream 结合,以及 YugaByte 与 AWS Timestream 结合的方案。这些选项是联机事务处理(OLTP)数据库和时序数据库的组合。

为了测试这三个候选解决方案,Catalyst 采用来自内部 Salesforce 和 Jira 实例的大型真实数据集作为负载,通过连续并行的方式运行分组查询。查询响应速度是最重要的评估标准之一。

TiDB 对典型查询和聚合查询的响应时间都在几秒钟之内,比其他候选解决方案快得多。同时,TiDB 对时序聚合查询的表现也足够灵活敏捷,7 秒内返回结果。下表总结了一些关键的测试结果。

查询的类型有:

  • 典型查询:客户最感兴趣的查询。
  • 聚合查询:主要是基于复杂 JOIN 的计算。
  • 时序聚合查询: Catalyst 没有在 Aurora 和 Yugabyte 解决方案上测试时序聚合查询,因为时间有限,而且 TiDB 的性能对他们来说已经足够印象深刻。

关键测试结果

为什么选择 TiDB?

查询响应快

根据查询类型的不同,TiDB 的响应时间比其竞争对手快 10 到 60 倍。这是 Catalyst 选择 TiDB 的最重要原因。

完美支持在线 DDL

TiDB 支持在线数据定义语言(DDL)操作,且不会影响在线业务。TiDB 提供无忧的模式变化,并允许 Catalyst 更快地添加或删除索引,特别是对于大表。当他们遇到慢查询并需要快速添加索引以提高性能时,这尤其有用。通过在线模式变更,Catalyst 无须停下在线业务或预留长时间的维护窗口。

HTAP 混合负载数据库

TiDB 是一个混合事务和分析处理的(HTAP)数据库。在 Catalyst 评估的三个候选项中,TiDB 是唯一一个技术栈可以同时处理对象数据和时序数据的数据库。这不仅非常高效,而且还为 Catalyst 节省了大量的时间、精力和金钱。

水平扩展性

TiDB 具有高度的水平扩展性。这完美地满足了 Catalyst 应对不断扩大的数据量的业务需求。TiDB 还支持计算和存储资源分离,这使得 Catalyst 可以单独扩展这两种资源,也有助于控制成本。

快速的容灾恢复

TiDB 使用 Raft 共识算法来确保数据的高度可用性和安全复制。TiKV 是 TiDB 的存储服务器,数据在 TiKV 节点之间进行冗余复制,并放置在不同的可用区域,以防止机器或数据中心故障。这确保了 Catalyst 的系统正常运行时间。此外,TiDB 提供了多种灾难恢复方案的选择,每一种方案都适用于不同的场景,成本灵活。

全面的托管服务

Catalyst 有一个小的 DevOps 团队,所以他们需要一个完全托管的数据库解决方案,以减轻团队的负担并控制成本。TiDB 的全托管服务 TiDB Cloud 满足了这一需求。

云中立

Catalyst 的服务采取跨云部署的方式以保证其业务的灵活性:一些工作负载在谷歌云平台(GCP)上运行,一些在亚马逊(AWS)上运行。因此,他们需要一个支持多云部署的云数据库解决方案。TiDB Cloud 正是这样的解决方案。

总结

Catalyst 之前主要使用 PostgreSQL 来处理客户数据,但系统很快遇到了瓶颈。他们重新设计了数据架构,并引入新的数据库来为客户提供数据。通过采用 TiDB, Catalyst 能够提供更好的客户体验,包括更快的查询响应、更有弹性的系统、更强大的数据存储、处理和分析能力。Catalyst 还降低了它们的整体维护成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/641561.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

「网络编程」第一讲:初识网络_网络基础1

「前言」文章是关于网络编程方面的,今天内容大致是网络基础,讲解下面开始! 「归属专栏」网络编程 「笔者」枫叶先生(fy) 「座右铭」前行路上修真我 「枫叶先生有点文青病」 「每篇一句」 青山不改,绿水长流 ——白居易 目录 一、…

chatgpt赋能python:Python怎么建服务器?

Python怎么建服务器? 作为一名具有10年Python编程经验的工程师,我深入研究了Python的一些高级特性,其中包括Python如何建立服务器的方法。Python是一个高级的编程语言,可以轻松创建服务器应用程序,并为您的网站提供高…

redis中的intset集合源码阅读探究;基于7.0+版本

1丶什么是intset Redis 中的 intset(整数集合)是一种高效的数据结构选择。Intset 具有紧凑的内存布局和快速的插入、删除和查找操作,适用于存储大量整数,并且能够节省内存空间。 2丶先说优点 内存布局:Intset 的内存…

vue-element-admin项目-Host key verification failed.-已解决

在网上下载的element-admin项目,install的时候一直报错Host key verification failed, 实测好用!!!已解决 报错问题:上面写到主机密钥验证失败,无法从远程仓库拉取。说明我们需要生成一个新的密…

基于JAVA SSM框架和jsp的学生宿舍管理系统

计算机信息技术和当前办公的信息化、自动化、网络化极大地改变了高校、企事业单位的信息管理方式,高效、快速、准确的信息管理已成为各行业现代管理的重要手段。目前宿舍管理人员普遍年龄偏大,使用笔录工作量大,管理难度大,利用学…

如何安装官网最新版Android Studio

1、进入android studio官网,点击下载。 2、下滑查看协议,勾选同意按钮,点击下载。 3、打开安装程序,点击Next。 4、选择虚拟机,点击Next。 5、选择安装路径,点击Next。 6、点击Install。 5、等待安装…

Kafka学习---2、kafka生产者、异步和同步发送API、分区、生产经验

1、kafka生产者 1.1 生产者消息发送流程 1.1.1 发送原理 在消息发生的过程中,设计到了两个线程——main线程和Sender线程。在main线程中创建了一个双端队列RecordAccumulator。main线程将消息发给RecordAccumulator,Sender线程不断从RecordAccumulato…

AST环境安装及使用

1.环境安装 AST在线解析网站:https://astexplorer.net/ 可以看出Parser用的是 babel/parser ,这是一个目前最流行的JS语法编译器Babel的Node.js包。 Babel是编译器。babel/parser是Babel中的解析器,用于解析JS语言,本质也是一个Node.js包 …

wenda+fess问答系统

1 安装conda 2 创建环境 conda activate --name wenda python3.8 3 安装依赖工具包 pip install -r requirements/requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple pip install torch BeautifulSoup4 torchvision torchaudio pdfminer.six -i https://pypi.t…

降维和特征选择的对比

降维? 降低数据集中特征的维数,同时保持尽可能多的信息的技术被称为降维。它是机器学习和数据挖掘中常用的技术,可以最大限度地降低数据复杂性并提高模型性能。 降维可以通过多种方式实现,包括: 主成分分析 (PCA):PCA 是一种统计方法,可识别一组不相关的变量,将原始变…

华为OD机试真题B卷 JavaScript实现【报文重排序】,附详细解题思路

一、题目描述 对报文进行重传和重排序是常用的可靠性机制&#xff0c;重传缓冲区内有一定数量的子报文&#xff0c;每个子报文在原始报文中的顺序已知&#xff0c;现在需要恢复出原始报文。 二、输入描述 输入第一行为N&#xff0c;表示子报文的个数&#xff0c;0 < N &l…

chatgpt赋能python:Python建模:从入门到精通

Python建模&#xff1a;从入门到精通 Python是一种高级编程语言&#xff0c;已经成为了机器学习和数据科学领域的事实标准。因为Python比其他语言更容易学习和上手&#xff0c;所以它是入门级开发人员和数据科学家的首选语言。 在本文中&#xff0c;我们将介绍Python建模的基…

深入解析IT专业分类、方向及就业前景:高考毕业生如何选择适合自己的IT专业?重点探索近年来人工智能专业发展及人才需求

目录 一、IT专业的就业前景和发展趋势二、了解IT专业的分类和方向三、你对本专业的看法和感想四、本专业对人能力素养的要求五、建议和思考其它资料下载 当今社会&#xff0c;信息技术行业以其迅猛的发展和无限的潜力成为了吸引无数年轻人的热门选择。特别是对于高考毕业生来说…

10.面向对象编程(高级部分)|Java学习笔记

文章目录 类变量和类方法类变量类变量使用注意事项和细节 类方法类方法使用注意事项和细节 理解 main 方法语法代码块代码块使用注意事项和细节讨论 单例设计模式单例模式应用实例饿汉式 VS 懒汉式 final 关键字final 使用注意事项和细节 抽象类抽象类的介绍抽象类使用的注意事…

Vue中如何进行文件压缩与解压缩?

Vue中如何进行文件压缩与解压缩&#xff1f; 在前端开发中&#xff0c;文件的压缩和解压缩是经常需要用到的功能。尤其是在需要上传和下载文件的场景下&#xff0c;文件压缩可以减小文件大小&#xff0c;加快文件传输速度&#xff0c;提高用户体验。本文将介绍在Vue项目中如何…

纷享销客王亚辉:聚焦终端,打造医疗健康行业管理新高度

1.医疗健康行业持续增长的关键 是数字化经营客户价值 随着生活水平和生活质量的不断提高&#xff0c;人们的医疗健康意识日渐增强&#xff0c;对医疗健康的需求越来越强烈&#xff1b;同时&#xff0c;国家政策的扶持再加上人口老龄化进程加快&#xff0c;进一步推动着医疗健…

【spring源码系列-05】refresh中prepareRefresh方法的执行流程

Spring源码系列整体栏目 内容链接地址【一】spring源码整体概述https://blog.csdn.net/zhenghuishengq/article/details/130940885【二】通过refresh方法剖析IOC的整体流程https://blog.csdn.net/zhenghuishengq/article/details/131003428【三】xml配置文件启动spring时refres…

003、体系结构之TiKV持久化

TiKV架构和作用 数据持久化分布式一致性MVCC分布式事务Coprocessor coprocessor : 协同处理器。 可以将一些SQL计算交给TiKV处理。不需要将TiKV所有数据通过网络发送给TiDB Server RocksDB 任何持久化的存储引擎&#xff0c;数据终归要保存在磁盘上&#xff0c;TiKV 也不例外…

NeRF in the wild 论文解读与公式推导

NeRF in the Wild: Neural Radiance Fields for Unconstrained Photo Collections 论文&#xff1a;https://openaccess.thecvf.com/content/CVPR2021/papers/Martin-Brualla_NeRF_in_the_Wild_Neural_Radiance_Fields_for_Unconstrained_Photo_CVPR_2021_paper.pdfhttps://op…

不同等级的Pads工程师,薪资差距有多大?

作为一种广泛应用在PCB设计的EDA工具&#xff0c;Pads软件在中国的电子设计行业中有着重要地位&#xff0c;尤其是不同等级的Pads工程师&#xff0c;在薪资、工作范围等有很大的差异&#xff0c;本文将从中国出发&#xff0c;多方面分析对比不同等级的Pads工程师&#xff0c;希…