亚马逊云科技Serverless数据分析,助力猎豹移动构建更高性价比数据仓库

news2024/11/24 5:23:11

也许你也听过这样一句话:“21世纪什么最贵?人才!”当数字经济全面席卷而来,这个问题的答案不可置否地变为了“数据”。通过数据分析获取近乎实时的洞察,以驱动业务的全流程,是企业数字化转型的必经之路。借助亚马逊云科技Serverless数据分析服务构建的端到端实时数仓解决方案,猎豹移动旗下的App用户埋点分析负载上的成本节省相较于之前减少30%,成功构建实时数仓。

e568dccc257f4677abf51a5deaa9a778.png

 

机会:从数据中攫取机会

各类企业所管理的数据正在经历爆炸式增长。IDC研究表明,2022年到2024年三年间创建的数据量将超过过去30年创建的所有数据量,随着生成式AI技术的出现,更将进一步促进数据分析领域的高速发展。拥有数据对于企业来说是“双刃剑”,在积累大量数据的同时,通过聚合数据进行深入挖掘分析,用数据来驱动业务,用数据来支撑决策、用数据来推动业务和商业模式创新、推动业务流程优化,进而实现降本增效,才是重中之重。而猎豹移动就是这条路上的先行者。

猎豹移动(NYSE:CMCM)成立于2010年11月,公司致力于“在人机共存的世界里,用科技让生活更美好”。当前,猎豹移动正在从移动互联网向以AI驱动的产业互联网进行战略升级,以安全工具+AI机器人场景为核心,构建覆盖工具应用、移动娱乐、人工智能、机器人等行业企业在内的猎豹生态。

猎豹移动与亚马逊云科技的合作由来已久,早在2012年,猎豹移动就将海外推出的移动应用App Clean Master运行在亚马逊云科技上。2023年初,猎豹移动在海外发布了全新应用程序,并将其相关数据发送到猎豹移动的分析系统中,该系统基于一家云服务提供商的自有数据库产品和分析工具搭建,猎豹移动的运营团队可通过直接查询原有数据库进行业务分析。

但随着用户数据量的不断增加、数据复杂度的不断上升,原有云供应商的数据分析架构暴露出了以下问题:

● 第一,原数据库的计价模式是基于猎豹移动的运营团队和BI人员直接对数仓进行操作,而由于原有数据库的计价模式,该数据库产品是基于实际计算量和扫描量进行计费,而客户团队本身撰写查询语句的水平参差不齐,难以避免会出现浪费计算量和扫描量的查询语句,因此会造成成本不可控的风险。

● 第二,原数据库不能保证所有日志在一天内都会被摄取到数据库中,也无法保证实时摄入,当数据规模较大时,仅可以保证T+3,也就是说当天的数据内容,只有在摄入3天之后才能保证当天数据都可以在数据库中查询到,无法实现T+0或近实时工作负载。此外,原数据库行数每日超过2亿行时,还可能会出现丢失日志的问题,这为猎豹移动应用的推进带来了很大的压力。

因此,基于与亚马逊云科技建立的长久友好合作关系,猎豹移动将用户行为数据分析工作负载的迁移任务交到了亚马逊云科技手中。

 

解决方案:利用Amazon Redshift流式摄取构建实时数仓

亚马逊云科技根据客户特点和需求,迅速构建了基于Amazon Redshift的无服务器数据分析解决方案,客户采用此解决方案进行PoC验证测试,测试结果显示,该解决方案可以解决猎豹移动的所有问题。自此,客户决定将他们的整个用户行为分析工作负载迁移到亚马逊云科技上。

3734fdb6e1144abeb4d555b6453fbc2d.png

 

保障数据完整性,实现海量数据量级的近实时分析能力

该解决方案通过将Nginx日志推送到Vector然后发送至Amazon Kinesis Data Streams中,并通过Amazon Lambda函数从Amazon Kinesis Data Streams中消化流式数据,运行ETL进程,并将处理后的数据存储在Amazon S3中,并通过Amazon S3再次触发第二个Amazon Lambda函数将数据复制到Amazon Redshift云数据仓库中。流式摄取可以帮助用户以极低延迟,在几秒钟内将数百MB数据摄取到Amazon Redshift云数据仓库集群,丢失数据的可能性大大降低。此外,该解决方案提供了新的近实时数据分析能力,这种流式数据使用方式,查询速度从原有的“T+3”级别的按天计算的数据查询,到现在的分钟级别,实现了指数级的性能提升。

从容应对动态负载且成本可控,尽在Serverless

Amazon Redshift Serverless是Amazon Redshift Serverless的无服务器版,作为一种快速、可扩展、安全且完全托管的云数据仓库,可从容应对动态工作负载。Amazon Redshift可以帮助用户通过标准SQL语言简单、经济地分析各类数据,实现高达3倍的性能价格比,它不仅可以基于自身内部表进行数据分析,还可以查询Amazon S3中的数据,Amazon Redshift与Amazon S3可以无缝结合,实现部分智能湖仓架构。针对于客户担心的成本问题,Amazon Redshift Serverless版只需为数据仓库在活动时消耗的计算容量付费,并且客户可以根据RPU(Redshift处理单元)设置Base和Max指标,去控制数据仓库的性能和成本,从而实现高度成本可控。

数据分析师和数据工程师友好的查询编辑器

Amazon Redshift Query Editor v2.0是一款基于Web的SQL客户端应用程序,可以使用它在Amazon Redshift数据仓库上创作和运行查询。客户可以选择使用图表直观显示查询结果,并通过与团队成员共享查询来进行协作。该编辑器支持一次运行多条SQL语句,并允许在结果窗格的单独选项卡中查看每条语句的结果。不管是数据分析师或数据工程师,猎豹移动的团队成员都可以在查询中使用会话变量和临时表,此外,Amazon Redshift Query Editor v2.0支持运行长时间运行的查询,而不必让浏览器窗口保持打开状态,稍后在24小时内检索结果。

 

成果:迁移后的全栈无服务器数据分析实现30%成本降低

更灵活、更易用的数据分析

通过亚马逊云科技Serverless无服务器数据分析解决方案,猎豹移动将批处理分析能力进一步拓展为近实时分析能力,并以低延迟高吞吐量的方式访问自己存储在数据仓库中的流式数据。

成本可控下的极致性价比

无服务器架构下的数据分析工作负载真正做到了极致性价比,Amazon Redshift无服务器自动扩展功能便于我们利用Amazon Redshift的速度从容应对甚至是最为动态的工作负载,并且仅需按实际使用量付费。在客户预期未来将处理的每天20TB新日志时,数据摄取部分的成本比原有云供应商的解决方案更成本友好。“迁移到基于亚马逊云科技Serverless产品构建的实时数仓后,该App团队在用户分析负载上的成本节省相较于之前减少30%。”猎豹移动技术总监韩峰说。

坚持客户拥有和控制数据的理念,提供数据全生命周期加密保护

亚马逊云科技严格遵循客户拥有和控制数据的理念,因而,猎豹移动对自己的数据拥有完整控制权,可以用任何想用的方式管理私有数据。亚马逊云科技提供了复杂的技术和物理措施来防止未经授权的访问,并以超高的数据隐私和安全标准构建数据相关服务。此外,亚马逊云科技还提供数据全生命周期的加密服务,涵盖了数据的存储、传输以及使用各个环节。

 

此次Serverless数据库迁移只是猎豹移动和亚马逊云科技在该领域的初次尝试。未来,猎豹移动将对之前的应用做逐步迁移,并计划将更多新的应用负载直接原生构建在亚马逊云科技上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/630721.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【文末送书】微服务拆分规范

目录 一. 🦁 什么是微服务?二. 🦁 拆分模型Ⅰ. 压力模型拆分1. 垂直拆分(Vertical Decomposition)2. 水平拆分(Horizontal Decomposition)3. 动态拆分(Dynamic Decomposition&#x…

初识网络之http协议

目录 一、http协议含义 二、 认识URL 三、urlencode与urldecode 1. urlencode 2. urldecode 四、http协议响应与请求格式 1. http协议请求格式 2.http协议响应格式 3. http请求实际形式 3.1 程序准备 3.2 浏览器发起请求 3.3 请求行内容 3.4 请求报头内容 4. htt…

2022年国赛高教杯数学建模E题小批量物料的生产安排解题全过程文档及程序

2022年国赛高教杯数学建模 E题 小批量物料的生产安排 原题再现 某电子产品制造企业面临以下问题:在多品种小批量的物料生产中,事先无法知道物料的实际需求量。企业希望运用数学方法,分析已有的历史数据,建立数学模型&#xff0c…

mysql联合索引详解

比较简单的是单列索引(btree)。遇到多条件查询时,不可避免会使用到多列索引。联合索引又叫复合索引。 btree结构如下: 每一个磁盘块在mysql中是一个页,页大小是固定的,mysql innodb的默认的页大小是16k&a…

【工作中遇到的性能优化问题】

项目场景: 页面左侧有一列表数据,点击列表项会查对应的表格数据和表单信息(表单是根据数据配置生成的),并在右侧展示。如果数据量大,则非常卡。 需要对此页面进行优化。 问题描述 问题一、加载左侧数据时…

systemV的工作原理+原理代码

概念 我们知道进程间的通信有管道的方式进程通信管道制作_云的小站的博客-CSDN博客 但是我们的管道通信其实属于一种取巧的方式,利用了打开的文件可读写的特性上,两个进程对此分别进行读写操作就会产生所谓的通信现象,但是外面的管道依旧得…

【社区图书】快速入门go程序开发——《Go程序开发实战宝典》书评

《Go程序开发实战宝典》书评 一、介绍二、简要概述三、内容分析3.1、第一部分:Go语言基础知识3.2、第二部分:介绍服务端开发经常需要处理的问题3.3、第三部分:Go语言开发实践实战案例 四、我的看法和评价4.1、对本书整体评价4.2、我对这本书的…

Office Visio 2021安装

哈喽,大家好。今天一起学习的是Visio 2021的安装,这是一个绘制流程图的软件,用有效的绘图表达信息,比任何文字都更加形象和直观。Office Visio 是office软件系列中负责绘制流程图和示意图的软件,便于IT和商务人员就复杂…

Vue.js 中的插槽和动态组件

Vue.js 中的插槽和动态组件 Vue.js 是一款流行的 JavaScript 框架,它提供了一种简单而灵活的方式来构建交互式 Web 应用程序。在 Vue.js 中,插槽和动态组件是两个常用的概念。它们可以帮助开发者更方便地组织和管理组件的结构和行为。但是这两个概念有什…

(opencv)图像几何变换——平移

图像的平移操作是将图像的所有像素坐标进行水平或垂直方向移动,也就是将所有像素点按照给定的偏移量在水平方向沿x轴、垂直方向上沿y轴移动。平移变换分为两种类型:图像大小变化与图像大小不变。第一种类型保证图像平移的完整信息,第二种图像…

Vue.js 中的 $refs 和 $emit 有什么关系?

Vue.js 中的 $refs 和 $emit 有什么关系? 在 Vue.js 中,$refs 和 $emit 都是非常常用的 API。$refs 用于访问组件、元素和子组件等,而 $emit 则用于在组件之间进行通信。本文将会从语法、使用方式、适用场景等方面进行介绍,并探讨…

接招吧! selenium环境+元素定位大法

selenium 与 webdriver Selenium 是一个用于 Web 测试的工具,测试运行在浏览器中,就像真正的用户在手工操作一样。支持所有主流浏览器 WebDriver 就是对浏览器提供的原生API进行封装,使其成为一套更加面向对象的Selenium WebDriver API。 …

【数据结构与算法分析】使用C语言实现队列的两种(带头结点与不带头结点)链式存储,并且给出一种循环队列的设计思想

文章目录 前言队列实现带头结点单向队列不带头结点单向队列循环队列 总结 前言 当我们编写程序时,经常需要处理各种数据结构。队列是一种常见的数据结构,它有着广泛的应用场景。队列的基本操作包括入队和出队,应用于模拟等待队列、消息队列、…

LVS-DR集群

LVS-DR集群 一.LVS-DR工作原理 1.数据包流向 数据包流向分析: (1)客户端发送请求到 Director Server(负载均衡器),请求的数据报文(源 IP 是 CIP,目标 IP 是 VIP)到达内核空间。 &…

Flowable工作流入门完整SpringBoot案例

文章目录 一 、Flowable 的出现是为了什么二、Flowable 的优势三、常见的Java类/实例3.1 ProcessEngine3.2 RepositoryService3.3 ProcessDefinition3.4 Deployment3.5 RuntimeService3.6 ProcessInstance3.7 TaskService3.8 JavaDelegate3.9 其他 四、核心数据库表4.1 数据库4…

CET4写译学习

学习记录笔记: 05.四级写译技巧(上)_哔哩哔哩_bilibili 不会的东西不要往上写。寻找可以替换的词。 保证写的所有内容都是正确的。 切题,论证清楚。 要有自己的观点,然后去论证。 词汇,语法,句子结构都整好。 文…

【软件测试】接口测试工具APIpost

说实话,了解APIpost是因为,我的所有接口相关的文章下,都有该APIpost水军的评论,无非就是APIpost是中文版的postman,有多么多么好用,虽然咱也还不是什么啥网红,但是不知会一声就乱在评论区打广告…

Linux日志

rsyslog系统日志管理 哪类程序产生的什么日志放到什么地方 处理日志的进程 第一类: rsyslogd:系统专职日志程序,处理绝大部分日志记录,系统操作相关的信息,如登录信息,程序启动关闭相关信息&#xff0c…

C#语言实现4K图片放大缩小和平移显示性能的速度测试

在介绍“熊猫视图.Net图形控件”系列文章中, 【“熊猫视图.Net图形控件”介绍链接】https://blog.csdn.net/mosangbike/article/details/126026801有对显示图像文件的测试结果,当时测试的不太严谨。今天抽时间详细测试了一下。 从网上找了一张Jpg图像作…

亲宝宝 实习 面经

目录 1.char varchar 长度是字符数还是字节数 编码格式2.整型数据类型3.decimal及其实现4.慢查询5.索引失效6.explain7.for foreach性能差异8.数据库事务隔离级别9.binlog redolog 二阶段提交10.redis数据类型11.redis实现消息队列12.mybatis传参方法13.insert返回主键 1.char …