亚马逊云科技赋能敦煌网集团上云,云上新架构带来价值

news2024/12/23 23:36:11

 

敦煌网成立于2004年,是领先的B2B跨境电子商务交易平台,敦煌网在品牌优势、技术优势、运营优势、用户优势四大维度上,已建立起竞争优势。随着跨境电商的日趋成熟,经营范围持续扩大、品类和渠道的增加,以及AIGC等行业新技术在运营提效场景下的广泛应用,对沉淀近20年的大数据进行深度挖掘、洞察和使用,给亚马逊云科技带来成本、算力、效率、安全的新挑战。

之前传统IDC大数据集群,维护成本高、无法实现弹性伸缩、计算存储耦合、算力瓶颈扩容周期长等问题越发严重,无法响应业务快速发展。

 

预期上云实现目标

● 智能湖仓架构

建设智能湖仓架构,将数据的采集、传输、存储、分析、应用全流程各环节无缝衔接,实现数据的集中存储和管理,提高数据的流转效率、数据质量、可靠性和安全性。对数据进行深度挖掘、智能分层和热力分析,提高数据的价值和利用率。

● 精细化运营成本管控

建立云资源的精细化运营和成本管控制度,提高资源利用率并降低成本。实现资源随业务灵活扩缩,提高业务的灵活性和响应速度。利用云原生的智能分层、自动化管理和运维能力,提高运维效率和质量。

● 一站式数据平台底座

打造集数据集成、数据开发、数据资产管理、数据服务等一站式大数据平台,实现“快、准、全、稳”的数仓体系,达到数据驱动决策,算法增长业务的目标。平台提供数据可视化和报表分析工具,帮助业务人员更好地理解和利用数据,提高业务决策的准确性和效率。

 

数据架构及技术方案

敦煌大数据的技术组件及架构(IDC)

1c9da7311f134bd38605f6ecf417d7f7.png

 

IDC大数据环境基于CDH、大数据开源生态组件、商业及自研工具构建。

数据源:包含上百个MySQL、Oracle以及NoSQL数据库实例,数万张源表(分库分表),数十TB数据。

数据缓冲区:每天数十亿条数据库增量数据,用户行为日志数据实时发送到Kafka集群,保证了数据高可用的同时,满足了离线和实时大规模数据分析处理的需求。

离线计算和实时计算集群:使用CDH6.x搭建大数据集群,借助于Cloudera Manager可方便地管理和部署Hadoop集群,并进行可视化监控和故障诊断。提供稳定可靠的离线、实时的计算引擎服务。

OLAP引擎:按不同应用场景需求配置了ElasticSearch、ClickHouse、StarRocks查询引擎提供买卖家、业务运营的在线查询服务。

业务应用:常用的报表及可视化工具:Hue、Tableau、BO,自研的EOS系统和对接服务化接口等业务应用。

数据安全:集成了Kerberos+Sentry+Ldap提供统一用户认证与鉴权,保障了数据安全。其中,Kerberos提供了身份验证协议的基础,Sentry提供了细粒度的授权控制,LDAP则提供了用户和组信息的管理功能。这些技术的结合极大提高大数据集群的安全性和管理效率。

数据开发平台:亚马逊云科技的数据开发平台采用了开源和自研技术相结合的方案。其中,任务调度部分采用DolphinScheduler实现,数据集成部分在DataX基础上进行二次开发,实现了可视化配置。此外,亚马逊云科技还注重数据血缘、元数据以及生命周期管理等方面,专门进行了针对性的研发。

 

云上新架构能够带来的价值

● 弹性伸缩:基于亚马逊云科技的EMR存算分离架构,在计算层可以根据数据分析任务去灵活调度不同的算力,支持分钟级别的计算实例弹缩,解决了IDC资源从采购到部署上线需要的漫长时间和提前预制算力可能产生的资源浪费。

● 性能提升:Amazon EMR上Spark Runtime性能相比开源Spark提升1.7~2倍左右,相同的资源使用下,可以更快的完成作业的执行。Presto也做了Runtime的优化,性能相比OSS快2.7倍左右,接入OLAP的引擎做交互式查询分析,也会从中受益。

● 成本节省:Amazon EMR可以根据计算需求变化灵活扩缩集群调整集群,在工作负载高峰时增加实例,在工作负载高峰过后移除实例。Amazon EMR还提供了运行多个实例组的选项,可以在一个组中使用按需实例来保障处理能力,同时在另一个组中使用竞价型实例来加快任务完成速度并降低成本,可以利用混合多种实例类型以充分利用某种竞价型实例类型的定价优势。应用S3的智能分层去自动化管理数据生命周期,在不影响数据读写性能的同时相比IDC大幅降低存储成本。

● 开发效率:Amazon EMR是全托管的云端数据平台,支持常驻、瞬态集群模式去分别适配每天的常规离线任务、临时数据分析和Ad-Hoc的任务,支持通过控制台界面或者API快速构建集群的能力,可以很方便和现有的大数据平台做集成,避免了传统自建集群日常维护的工作量,让大数据团队可以把更多的时间投入到技术探索中。

● 平台化数据底座:应用亚马逊云科技的智能湖仓架构,提供一个统一的、可共享的数据底座,避免传统的数据湖、数据仓库之间的数据移动,将原始数据、加工清洗数据、模型化数据,共同存储于一体化的“湖仓”中,既能面向业务实现高并发、精准化、高性能的历史数据、实时数据的查询服务,又能承载分析报表、批处理、数据挖掘等分析型业务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/597087.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java程序猿搬砖笔记(十三)

文章目录 MySQL数据库生成自动增长序号MySQL修改密码SpringBoot定时任务解决Mybatis出现的各种Parameter not found. Available parameters are [ , ]Mybatis的foreach标签遍历mapSpringBoot项目打包SpringBoot Async使用注意事项Spring Cloud Config bootstrap文件&#xff…

内蒙古自治区出台加快充换电基础设施建设实施方案

摘要:为深入贯彻落实《国务院办公厅关于印发新能源汽车产业发展规划(2021—2035年)的通知》(国办发 ﹝2020﹞39号)、《国家发展改革委等部门关于进一步提升电动汽车充电基础设施服务保障能力的实施意见》(发…

杭州久斗贸易有限公司官网上线 | LTD酒水行业案例分享

​一、公司介绍 杭州久斗贸易有限公司是集现代化电子商务与传统销售网络于一体的新兴企业。成立于2022年12月,是杭州地区一家专业的酒类销售贸易公司。 公司股东及经营者拥有二十年以上国内名酒销售经验,目前主营茅台.五粮液等高端白酒批发业务&am…

halcon matlab 中pose matrix之间的转换

pose_to_hom_mat3d (TransPose, HomMat3D) 原理: matlab 验证: function [a,b]getMatrix(pose) syms x y z; xdeg2rad(pose(4)); ydeg2rad(pose(5)); zdeg2rad(pose(6)); mat_x[1 0 0 0;0 cos(x) -sin(x) 0;0 sin(x) cos(x) 0; 0 0 0 1]; mat_…

Object.defineProperty到底有啥用

Object.defineProperty Object.defineproperty 的作用就是直接在一个对象上定义一个新属性,或者修改一个已经存在的属性 使用Object.defineProperty之前 number和person之间并无关联 使用Object.defineProperty之后 person和number之间有了关联;修…

1164 Good in C(38行代码+超详细注释)

分数 20 全屏浏览题目 切换布局 作者 陈越 单位 浙江大学 When your interviewer asks you to write "Hello World" using C, can you do as the following figure shows? Input Specification: Each input file contains one test case. For each case, the …

Ceph 分布式存储

Ceph概述 存储基础 单机存储设备 ●DAS(直接附加存储,是直接接到计算机的主板总线上去的存储) IDE、SATA、SCSI、SAS、USB 接口的磁盘 所谓接口就是一种存储设备驱动下的磁盘设备,提供块级别的存储 ●NAS(网络附加存…

jwt----介绍,原理

token:服务的生成的加密字符串,如果存在客户端浏览器上,就叫cookie -三部分:头,荷载,签名 -签发:登录成功,签发 -认证:认证类中认证 # jwt&…

火伞云全球节点分布国家及城市列表

火伞云融合CDN划分为中国境内和中国境外两个服务区域。 中国境内区域为中国大陆全地区统一计费(不含港澳台),全球用户访问均会调度至中国内地加速节点进行服务。 中国境外区域,按CDN 节点服务器所在地区,划分为北美地…

uni-app使用echarts绘制数据可视化图

先打开项目 然后选择 使用命令行窗口打开所在目录(U) 在弹出的终端中输入指令来引入依赖 npm install echarts然后 我们 打开echarts的官网 点击这里这个 示例 找一个自己喜欢的案例点进去 我这里就用一个最简单的吧 代码看着不会乱 将他这个 option中的内容复制出来 然后…

重塑未来:科技创新驱动社会变革

科技创新驱动社会变革 前言正文一、人工智能(AI):智能技术的崛起二、区块链技术:去中心化的数字经济三、量子计算:开启未来的大门四、生物技术:拓展医学与农业的边界 总结 前言 近年来,科技领域…

Python开发工具PyCharm入门指南 - 如何创建密码短语生成器(下)

PyCharm是一种Python IDE,其带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具。此外,该IDE提供了一些高级功能,以用于Django框架下的专业Web开发。 PyCharm 最新版下载 在上篇文章中,我们学习了密码短语、密码短语…

统信UOS系统开发笔记(二):国产统信UOS系统搭建Qt开发环境安装Qt5.12

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/130984263 红胖子(红模仿)的博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软…

得物人事系统时间轴设计的演化历程

1 什么是时间轴 ~(以上图片出自电影《星际穿越》)~ 如果你看过《星际穿越》,应该对这一幕印象深刻,女儿墨菲所处的房间,按照时间分为了无数个三维空间实体。三维空间加时间组合成四维空间,即时空。 时间轴…

奇怪,能ping通怎么还是上不了网?

我的网工朋友大家好啊 一般如果遇到没法上网的问题,你会怎么办。 可能会尝试去使用ping命令来测试一下网络是不是正常,对吧? 但是有时候会出现,ip能ping通,但是就是无法上网,应该大部分网工都遇到过这种…

虚实连接:惯性动作捕捉系统系列产品多领域广泛应用

近年来,将人体数字化融入虚拟世界已经成为一股浪潮,特别聚焦于姿态动作捕捉和人体运动学分析。此时建立准确的虚拟与现实数字模型,并研究运动参数和力学参数的关联至关重要。同时可推动虚拟现实和人机交互的发展,拓展医疗康复、体…

【Atlas200】继承MxBase类自制插件(C++),以官方例程为例

目录 MindX SDK简介插件的Buffer与Metadata自定义插件Init初始化接口DeInit资源释放接口Process插件入口DefineProperties接口DefineInputPorts接口MindX SDK简介 MindX是一款针对昇腾系列AI芯片的软件开发工具包(SDK),它提供了一系列的API和工具,帮助开发者对昇腾系列AI芯…

1、 快速入门

0、回顾jdbc操作数据库 在MySQL数据库创建一数据库实例mybatis,在其创建一张表 CREATE TABLE employee(id INT(11) PRIMARY KEY AUTO_INCREMENT,last_name VARCHAR(255),gender CHAR(1),email VARCHAR(255) ); -- 再插进一条随意数据,用于测试 INSERT …

day5 -- 函数

学习内容 MySQL支持何种函数,以及如何使用这些函数 brief 大多数SQL实现支持以下类型的函数: 用于处理文本串(如删除或填充值,转换值为大写或小写)的文本函数用于在数值数据上进行算术操作(如返回绝对值…