智简云携手云器Lakehouse打造一体化大数据平台,释放数据价值

news2025/2/22 18:18:51

导读

本篇分享的是智简云使用云器Lakehouse升级数据平台的实践总结。

智简云,是一家拥有十余年历史的科技公司,专注于企业服务领域,开发了两款核心产品:基于PASS平台的客户关系管理(CRM)系统和为中小型用户量身定制的软件即服务(SaaS)平台。近年来,智简云的SaaS平台业务发展迅猛,尤其是在2021年获得GGV资本的战略性投资后,公司在市场推广和产品研发方面投入了大量资源,实现了跨越式增长。

作为一家服务数百家客户、积累亿级会员数据的SaaS企业,智简云利用云器Lakehouse实现了数据平台的架构简化、性能提升和成本优化。同时,云器独特的“数据钱包”功能,为智简云打造了一种安全、高效、灵活的数据共享新方式。以可控的数据管理机制,让企业在SaaS平台上的自有数据可以安全回流使用,发挥数据的价值。

图片

智简云使用云器Lakehouse的实践

亿级会员数据带来的机遇与挑战

智简云SaaS平台积累的亿级会员数据,蕴藏着巨大的商业价值。通过对这些数据的分析,智简云可以深入了解用户行为、偏好和需求,从而:

  • 精准营销: 根据用户画像和行为数据,进行精准的营销推广,提高转化率和ROI。

  • 提升用户体验: 通过数据分析,了解用户痛点和需求,优化产品功能和服务,提升用户满意度。

  • 优化产品服务: 根据用户反馈和数据分析,不断改进产品和服务,提升市场竞争力。

然而,海量数据的处理也带来了巨大的挑战:

  • 数据存储和管理: 亿级数据需要巨大的存储空间和高效的管理工具。

  • 数据处理效率: 传统的数据库和数据处理工具无法满足海量数据的处理需求,导致分析效率低下。

  • 数据分析能力: 需要强大的数据分析工具和算法,才能从海量数据中挖掘出有价值的信息。

  • 数据应用服务能力:智简云的用户在平台上积累了大量的数据,有分析和应用的需求,智简云作为SaaS平台工具需要更好支持客户发挥数据价值。

图片

具体的,智简云还面临着一些特定的数据处理难题,包括:

架构复杂

起初采用了传统的Lambda架构来处理大数据问题,但该架构的复杂性要求我们整合多种开源工具,如Spark、Kafka、HDFS等。这些技术虽然应用广泛,但要将它们整合在一起,却是一项庞大的工程。Lambda架构通常包含实时处理层、批量处理层和服务层等多个层次,每一层都需要独立设计、开发和维护,这无疑增加了系统的复杂性和技术多样性。

开发运维复杂

架构的复杂性直接导致了开发和运维的复杂性。由于涉及多种技术和系统,运维和管理成本相对较高。一旦系统出现故障或需要性能优化,都会带来一系列复杂问题。尽管Lambda架构支持线性扩展,但实时层和批量层的独立扩展可能会在系统规模扩大时遇到瓶颈。

在这种情况下,需要专门的人才进行精细的管理和优化。然而,我们的核心关注点在于应用开发,如果过多地投入精力处理这些问题,将导致资源成本大幅增加。此外,数据接入和ETL(Extract, Transform, Load)处理架构的复杂性也带来了额外的挑战。

客户数据复杂

CRM系统处理的数据非常复杂,包括会员数据、消费数据以及与商城相关的行为数据,这些数据大多来源于客户的ERP系统。尽管我们提供了接口,但某些数据的实时性和大量数据的处理需求要求我们直接从客户的数据库中抓取数据。客户的数据库类型多样,常见的有Oracle、PostgreSQL、MySQL等,这增加了研发成本。此外,每个客户的业务系统各不相同,数据抽取和转换过程也较为复杂。需要将每家客户独特的原始数据结构抽象化,以便于分析,这就需要成熟的数据抽取转换程序。

成本高

  • 开发维护成本高,服务器成本高(至少五台高配主机)。

  • 资源浪费: 数据处理任务存在高峰和低谷,导致资源浪费。

  • 数据研发成本: CRM数据复杂,来自不同ERP系统,数据库多样性增加研发成本。

图片

解决方案的选型思考

面对日益增长的数据量和日趋复杂的业务需求,智简云意识到,选择一个合适的大数据平台至关重要。为了解决现有痛点并满足未来发展需求,智简云经过深思熟虑,制定了以下几个关键的选型指标:

  • 一体化架构:告别繁琐的Lambda架构,寻求一个一体化的大数据平台,简化数据处理流程,降低系统复杂性和技术多样性。

  • 性能达标:平台必须具备强大的数据处理能力,能够高效地进行查询分析和跑批任务,满足海量数据的处理需求。

  • 弹性伸缩:平台需要具备弹性伸缩能力,能够根据数据量和计算需求动态调整资源,应对业务高峰期和大促活动。

  • 云原生服务:优先选择云原生服务,避免私有部署带来的运维难题,降低运维成本,提高资源利用率。

  • 数据安全: 平台必须具备完善的数据安全保障机制,确保会员数据的安全性和隐私性,满足合规要求。

所选的大数据平台必须具备一体化架构,能够满足大数据处理的性能要求,具备弹性伸缩能力,并且是云原生服务。此外,数据安全也是我们的重要考量因素,因为我们处理的会员数据涉及隐私和商业机密,必须确保数据安全。在市场上寻找满足这些条件的产品发现云器 Lakehouse 完全符合我们的指标。

图片

云器@智简云架构

云器Lakehouse的一体化架构能够替代之前使用的多个复杂开源工具,提供界面化的配置,简化了底层管理,支持弹性伸缩,并确保了数据安全。

公司与云器合作设计了基于云器的数据架构,其中包括:

智简业务系统

使用MongoDB和PostgreSQL数据库,并通过Flink CDC技术实现数据的实时接入和异步批量导入。

云器产品模块

在云器Studio中进行数据加工分析,生成可应用的数据模型,支撑整个业务流程。

多数据源适配&可配置抽取任务

我们深入使用了云器的多数据源适配功能,并配置了每日运行的抽取任务。

图片

数据进仓

数据集成&数据ETL加工

数据进入仓库后,对其进行加工,利用云器的ETL调度和数据质量监控工具,大大降低了数据管理和开发的复杂性。这使得我们的开发资源得以释放,可以更专注于业务应用开发,实现了降本增效。云器的增量计算和实时数据处理能力也满足了我们业务上的准实时需求。

调度运维&数据质量监控

云器的调度运维工具能够监控异常任务并发出警报,确保我们能够在客户察觉问题之前及时处理。

图片

数据应用

数据应用方面的典型的应用场景:

  • 会员洞察

  • 会员标签

  • 智能营销

  • 数据分享

图片

会员洞察

会员洞察涉及对会员数据的全生命周期分析,要求数据库具有高数据新鲜度和实时查询分析能力。我们利用 Lakehouse 实现了这些需求,并通过图形化界面灵活定义属性,对后台性能提出了较高要求。

图片

会员标签

会员标签包括自动标签、手动标签、圈选标签和二维标签等,主要利用 Lakehouse 实现多租户场景下的标签计算,特别是自动标签,根据客户设定的规则定时计算,对数据库性能和计算能力要求较高。

图片

智能营销

智能营销使用专业的营销画布,通过 Lakehouse 实现超长时间分区和深度数据需求,支持近百种查询逻辑的自定义,构建精准化的客户营销策略。

数据钱包

赋能SaaS企业,释放数据价值。

图片

对于像智简云这样的SaaS企业来说,有客户的数据产生在智简云的平台之上,这些数据的所有权是客户的,如何安全高效地让客户使用这部分数据,与客户自身的数据有机结合,一直是一个难题。传统的解决方案往往需要复杂的权限管理和数据传输过程,不仅效率低下,而且容易出现安全风险。云器Lakehouse的数据无复制分享技术,为SaaS企业实现安全可控的数据交换提供了全新的解决方案,犹如为数据世界打造了一个便捷安全的“数据钱包”。

数据钱包是什么?

想象一下,银行的电子钱包让用户无需接触实体货币,即可轻松完成支付、转账等操作。同样,云器Lakehouse的“数据钱包”功能也赋予了SaaS企业客户强大的数据使用能力,客户无需直接复制底层数据,就能实现数据的代码级ETL和分析,从而实现数据价值的最大化释放。

数据钱包如何赋能SaaS企业?

简化数据钱包流程:数据钱包消除了传统数据共享方式的复杂性,SaaS企业可以轻松地将数据授权给客户,无需进行繁琐的数据复制和传输,极大地提高了数据共享的效率。

增强数据安全性:数据钱包采用细粒度的权限控制,确保只有授权用户才能访问数据,同时避免了数据泄露的风险。SaaS企业可以放心地将数据共享给客户,无需担心数据安全问题。

提升数据实时性:数据钱包消除了传统数据共享方式带来的数据延迟,数据更新及时到达客户,数据价值不打折扣。

提升客户体验:数据钱包让SaaS企业客户能够更直接、更完整、更灵活地使用数据,从而更好地洞察业务,做出更明智的决策。客户可以根据自身需求,对数据进行分析和处理,获得更大的价值。

数据钱包应用场景

数据分析服务:SaaS企业可以将数据分析服务打包成产品,通过数据钱包技术将数据授权给客户,让客户自助进行数据分析,提升客户体验。

数据合作:SaaS企业可以与合作伙伴共享数据,共同开发新的产品和服务,拓展业务范围。

数据资产入表:SaaS企业可以将数据钱包打包成为数据资产,经过数据资产认证后,即可计入企业资产,实现资产增长。

云器Lakehouse的数据钱包,为SaaS企业的数据共享带来了革命性的变化。它不仅简化了数据共享流程,增强了数据安全性,更重要的是,它赋能SaaS企业客户,释放数据价值,为SaaS企业的发展开辟了新的道路。

总结与思考

云器为智简云带来了多方面的价值,包括解决了多数据源问题、支持多云适配、提高了数据处理速度、保证了服务的稳定性,并实现了省钱、省时、省力。

图片

多:解决多数据源问题,支持多云适配。

快:分布式计算引擎提高数据处理速度。

好:提供高质量的数据处理和分析结果。

省:节省成本,简化数据集成处理过程,减少运维负担。

关于云器        

云器Lakehouse作为面向企业的全托管一体化数据平台,只需注册账户即可管理和分析数据,无需关心复杂的平台维护和管理问题。新一代增量计算引擎实现了批处理、流计算和交互式分析的统一,适用于多种云计算环境,帮助企业简化数据架构,消除数据冗余。

点击文末“阅读原文”,前往云器官网申请试用,了解更多产品细节!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1689786.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

加密与解密(第四版)】第二十三章笔记

第二十三章 代码的二次开发 23.1 数据对齐 23.2 增加空间 利用区块空隙(注意区块属性) 增加区块(增加一个块头、增加块头指向的数据段、调整文件映像的尺寸(SizeOfImage)) 23.3 获得函数的调用信息 修…

用Python的PyAutoGUI库控制鼠标滚轮

哈喽,大家好,我是木头左! 轻松上手:安装与导入 要开始使用pyautogui库,你需要做的第一件事就是确保它已经被安装在你的Python环境中。你可以通过运行以下命令来安装: pip install pyautogui安装完成后&am…

【Web】CISCN 2024初赛 题解(全)

目录 Simple_php easycms easycms_revenge ezjava mossfern sanic Simple_php 用php -r进行php代码执行 因为ban了引号,考虑hex2bin,将数字转为字符串 php -r eval(hex2bin(16进制)); 注意下面这段报错,因为加不了引号,开…

稳定性大升级!EMCS全球服务网络携手NineData实现数据实时同步

易客满(ECMS Express)专注于提供全球化的国际物流解决方案和经济快递服务,服务网络覆盖全球主要贸易市场的国际物流公司。ECMS拥有国际快递、国际货代、仓储供应链全球覆盖服务能力。 1. 易客满(ECMS)数据复制的技术挑…

初始Java篇(JavaSE基础语法)—— 内部类

找往期文章包括但不限于本期文章中不懂的知识点: 个人主页:我要学编程(ಥ_ಥ)-CSDN博客 所属专栏:JavaSE 目录 内部类的概念 内部类的种类 使用举例: 1. 静态内部类: 2. 实例内部类 3. 局部内部类 4. 匿名内部…

跨境电商赛道,云手机到底能不能化繁为简?

当下国内电商背景: 从零售额的数据来看:随着互联网的普及和消费者购物习惯的改变,国内电商市场规模持续扩大。据相关数据显示,网络消费亮点纷呈,一季度全国网上零售额达到了3.3万亿元,同比增长12.4%。这表…

linux 上除了shell、python脚本以外,还有什么脚本语言用得比较多?

在开始前我有一些资料,是我根据网友给的问题精心整理了一份「 Linux的资料从专业入门到高级教程」, 点个关注在评论区回复“888”之后私信回复“888”,全部无偿共享给大家!!!说到在 Linux下的编程&#xf…

TECHNIUM INTERNATIONAL: 利用 AI 和 TECHNIUM 矩阵协议引领区块链创新

在充满活力的加密货币和区块链技术领域,Technium International 以领军者的姿态迅速崛起,跻身科技巨头的顶尖行列。Technium International 成立于 2018 年,总部设于塞席尔,透过人工智慧(AI)和区块链技术的…

云计算-基础设施和管理机制(Infrastructure and Management Mechanisms)

逻辑网络边界(Logical Network Perimeter) 逻辑网络边界是软件控制的虚拟网络,它是物理网络的一部分。其主要思想是隔离逻辑网络,防止不希望的访问,同时仍然为合法用户提供访问权限。下图显示了云系统中一个简单的逻辑…

Windws MySQL 8.4 LTS的安装(保姆级教程)

Windws MySQL 8.4 LTS的安装(保姆级教程) 一、Mysql版本二、Mysql下载三、Mysql安装3.1 Mysql安装3.2 Mysql配置 四、Mysql环境变量配置五、验证Mysql 一、Mysql版本 美国时间 2024 年 4 月 30 日,Oracle正式发布了MySQL数据库8.0.37版本的更…

初步学习pygame,使用pygame搭建简单的窗口效果

在VSCode上使用pygame 第一步:创建 Python 虚拟环境 打开 VSCode 中的 Terminal(在菜单栏中选择 View > Terminal)使用 cd 命令切换到你的项目文件夹输入以下命令来创建一个新的虚拟环境: python3 -m venv env这将在你的项目…

机械臂与Realsense D435 相机的手眼标定ROS包

本教程主要介绍机械臂与 Realsense D435 相机手眼标定的配置及方法。 系统:Ubuntu 20.0.4 ◼ ROS:Noetic ◼ OpenCV 库:OpenCV 4.2.0 ◼ Realsense D435:librealsense sdk(2.50.0)、realsense-ros 功能包&…

electron调试自动更新,不触发下载进度解决方案

调试时候删除掉后缀是.blockmap的文件。如果你的代码在改动不大的情况下发布一个新版本。那个安装器可能会根据这个数据自动合成一个包,而不走网络路径。从而不触发下载进度。

初阶数据结构之双向链表详解

目录 一:双向链表的概念 1.什么是双向链表? 2.双向链表的优点 3.双向链表的结构 二:双向链表的实现 1.定义链表结点 2.初始化双向链表 3.添加结点 4.尾插 5.头插 6.打印双向链表 7.查找链表结点 8.在指定结点后插入新结点 9.删…

KMP算法【C++】

KMP算法测试 KMP 算法详解 根据解释写出对应的C代码进行测试&#xff0c;也可以再整理成一个函数 #include <iostream> #include <vector>class KMP { private:std::string m_pat;//被匹配的字符串std::vector<std::vector<int>> m_dp;//状态二维数组…

【iceberg】数据湖与iceberg调研与实战

文章目录 一. 为什么现在要强调数据湖1. 大数据架构发展历史2. Lambda架构与kappa架构3. 数据湖所具备的能力 二. iceberg是数据湖吗1. iceberg的诞生2. iceberg设计之table format从如上iceberg的数据结构可以知道&#xff0c;iceberg在数据查询时&#xff0c;1.查找文件的时间…

三、自定义信号和槽函数(无参和有参)

需求&#xff1a; 下班后&#xff0c;小明说请小红吃好吃的&#xff0c;随便吃&#xff0c;吃啥买啥 无参&#xff1a;小红没有提出吃啥 有参&#xff1a;小红提出自己想吃的东西&#xff0c;吃啥取决于一时兴起&#xff08;emit触发&#xff09; 思路&#xff1a; 1&#xff…

【数据结构】排序详解(希尔排序,快速排序,堆排序,插入排序,选择排序,冒泡排序)

目录 0. 前情提醒&#xff1a; 1. 插入排序 1.1 基本思想&#xff1a; 1.2 直接插入排序 实现步骤&#xff1a; 动图演示&#xff1a; 特性总结&#xff1a; 代码实现&#xff1a; 1.3 希尔排序&#xff08;缩小增量排序&#xff09; 基本思想&#xff1a; 步骤演示&…

谷歌上架,个人号比企业号好上?“14+20”封测如何解决,你知道了吗

在Google Play上架应用&#xff0c;对开发者而言&#xff0c;既是挑战也是机遇。随着谷歌政策的不断更新&#xff0c;特别是要求2023年11月13日后注册的个人开发者账号在发布正式版应用前&#xff0c;必须经过20人连续14天的封闭测试。 这一政策的改变使得许多开发者开始考虑使…

适合小白入门的AI扩图(创成式填充)工具

近期&#xff0c;发现许多人对AI扩图工具的需求比较大&#xff0c;为了满足大家的需求&#xff0c;本期天祺为大家整理了一些好用的AI扩图工具&#xff0c;各个设配的扩图工具都有介绍哦&#xff0c;电脑&#xff0c;手机端都能用&#xff0c;大家可以根据自己的喜好和需求进行…