把手伸向大数据平台的云原生,是如何将大数据平台迁移至K8s上的?

news2024/11/24 12:37:53

我们正身处数据大爆炸的时代,据IDC数据显示,仅在2022年,人类就将创造超过97ZB的数据;要知道截至2012年,人类生产的所有印刷材料的数据量为200PB,仅为2022年一年所创造数据量的50万分之一。据预测,中国数据量规模将从2022的23.88ZB增长至2027年的76.6ZB,年均增长速度CAGR达到26.3%,为全球第一。

数据量激增,数据驱动型企业面临更大挑战

8fcc785b43470e59179ef345637a0864.png

数据大爆炸对企业的发展机遇与挑战并存。数据量激增使得企业必须对这些数据创造更多的价值,在推动这一过程中,自然转变出数据驱动型企业。

那么,数据驱动型企业正面临着六大挑战:大多数企业缺乏一个明确的数据平台战略;高速的数据增长带来的存储、分析以及数据创新的成本太高;难以找到发挥数据价值的场景;不清楚应该使用什么样的新技术或者产品来支持业务创新;企业内部人员技能不足难以支撑一些创新型的数据项目;企业缺乏数据的治理和安全保护的能力。

如何将挑战化为机遇?第一,打破数据孤岛,实现数据一体化融合的分析。第二,数据驱动智能创新,利用创新产品重塑创新引擎;第三,采用云原生架构,助力企业数据驱动业务创新。

  破局传统大数据技术架构的局限,云原生与K8s搭把手

5b53bcffd28cc4c775c1abd68fa29c17.png

以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:系统组件安装配置复杂、集群资源利用效率低、运维工作量大、数据应用开发迭代效率低、新的开发工具集成非常复杂。这些问题已经成为了困扰企业数字化转型加速迭代和升级的重要障碍。

既然不能够依靠Hadoop生态技术本身的发展来解决传统大数据平台带来的难题,那么我们就应该把注意力放到当前最新的技术发展趋势之上,也就是以容器和K8s为代表的云原生技术。

云原生技术在2013年容器项目以及2014年K8s项目正式发布以后,发展非常迅猛。现在,各大公有云厂商都支持K8s,还有上百家技术公司在持续投入K8s的迭代和更新工作。目前,CNCF的生态全景图包含了1000多个云原生技术产品,覆盖了数据库、消息级流处理、调度和任务编排、存储系统等10多个技术领域。 

2021年应该是云原生大数据技术发展的里程碑,2021年3月,Apache 宣布 Spark 3.1 正式支持了 K8s,另外在2021年5月,Apache Kafka 背后的商业公司 Confluent 也发布了Confluent on K8s,一个能私有发布的在K8s之上运行的Kafka生产集群系统。这两个重要事件表明,大数据平台的云原生化已是大势所趋。按照这个趋势,Hadoop正逐渐迁移到K8s上。

  云原生进阶之路,将大数据平台迁移至K8s上

9f1ea014f18f0417218974a9f7c92cc7.png

顺应趋势,越来越多的企业将业务系统负载逐渐进行云原生改造,迁移到基于Kubernetes的私有或公有云平台上之后,在云原生体系之外独立运行一套传统大数据平台,在架构上和运营上又增加了不少不必要的复杂度和资源浪费。

那么,智领云自主研发的基于云原生架构的Kubernetes大数据平台(简称KDP),就是解决以上问题的关键平台。将大数据平台迁移至K8s上,以解决国内企业在使用K8s时,大多是在做云计算方面的相关调度,而针对大数据领域,企业还在管理另一套纷繁复杂的系统即传统大数据平台。

8edd2592fa803a56bc9369706757627c.png

KDP系统架构图

KDP采用Kubernetes作为资源调度平台,统一调度和管理大数据组件以及数据应用。在对开源的大数据计算及存储引擎的改造和集成基础之上,通过智领云自研的大数据集成基座,该平台实现了以标准的方式来部署、发布、管理和运维主流大数据组件。

打个比方,大家一定用过Windows的资源管理器,KDP就像是大数据组件的资源管理器,将所有大数据组件管理起来,让用户能够更加方便地使用,从而大大提升系统运行效率,降低运维成本。 

6148ed4421064777923388801a539373.png

KDP管理界面图

KDP将为企业带来什么?

实际上,KDP给用户带来的高效是实打实的。比如拿某大型运营商来说,数据中心的服务器数量大约有3万台,这些服务器的利用率严重不足,平均使用效率只有20%-30%左右。但在KDP平台的统一资源调配下,只需要大约6000台设备就能达到原有效果,大大节省了设备、电力、空间等投资,并提升了客户的竞争力。

具体而言,KDP能够标准化配置管理,即采用统一的Kubernetes文件配置方式,对大数据组件进行标准化的配置管理,简化大数据组件与Kubernetes集群的集成;实现资源高效利用,集群资源作为一个可共享的资源池,实现实时、离线作业的混部,集群资源利用率相较于传统大数据平台的30%提升到60%;弹性扩展,利用Kubernetes的弹性扩容技术,从容应对计算作业的性能瓶颈,实现计算资源及集群资源的动态扩容;简化运维,基于Kubernetes标准的Operator操作方式,统一运维界面完成大数据组件的部署、升级、扩容、备份等操作,提升运维效率。

那么,在大数据技术落地实施的具体场景中,该平台能很好取代传统大数据平台,帮助企业在数字化转型过程中实现降本增效的目标。

高效的集群部署和运维:有的企业作为技术提供方要为多个内部或外部的机构进行大数据集群的部署和实施,但传统大数据平台的软件部署、组件互相适配、计算引擎调优等方案相对复杂,手工部署的步骤多,导致集群部署周期长,项目实施成本很高,运维流程复杂,运维人员能力要求高。在这种场景下,采用KDP,可以大幅度提升实施项目的部署效率,降低项目实施运维人力和时间成本。

提升IT架构资源效率:有的企业在生产环境中运行多种类型的数据应用、不同类型的存储引擎、实时和批处理的计算作业。在传统大数据平台环境下,一般都是采用独立的虚机集群来部署这样的生产环境,导致资源使用率很低。采用了KDP以后,企业可以利用作业混排、存算分离和精细化调度等平台特性来提升整体资源使用效率,降低IT架构的投入成本。

传统技术的升级改造:传统大数据平台因为技术扩展迭代流程比较慢,不能及时解决运维中碰到的性能瓶颈,同时大数据组件之间软件包依赖很复杂,导致组件升级困难,新的组件集成耗时费力。使用传统大数据平台的技术团队面对运维压力疲于奔命,没有精力专注于业务开发和数据价值的发现。传统大数据平台逐步迁移到云原生大数据平台后,可以显著提升运维效率,降低运维成本,解放技术团队的生产力。

自助式的数字创新:有的企业需要有多个大数据集群服务不同的业务部门,业务部门的数据科学家希望能自助式地尝试新的云原生人工智能机器学习工具。很显然,传统大数据平台满足不了这种自助式需要,企业可以通过KDP部署提升多平台管理效率,提供数据分析和人工智能开发工具的自助式发布,降低整体资源消耗的成本,加速数据价值的创造过程。

  优势不可替代,所有大数据组件实现统一标准化管理

50cdd25e39f1240ec05ef8c7f94041c0.png

首先,KDP开箱即用,简单到几个命令和操作就可以轻松上手;其次,可视化管理,及可观测性的能力;第三,在调度方面的创新,将大数据平台迁移到K8s上。

当然,智领云KDP最大的优势,也是区别其他产品的地方是所有标准化的大数据组件在KDP的支持下,都能无缝地运行在Kubernetes之上。而且KDP几乎与业内所有主流的Kubernetes发行版都能完美适配,具备良好的兼容性。

在Kubernetes上运行大数据平台有以下四个好处:第一,统一管理,复用Kubernetes基础架构,复杂度大大降低;第二,资源混排,高效利用共享资源池,各个组件及整个集群都很容易弹性伸缩;第三,整个系统能够快速支持新应用的集成,快速迭代;第四,系统稳定性得到极大提高,运维效率高。KDP聚焦于各个大数据组件的安装,以及统一的资源管理。打比方说,类比Windows资源管理器,KDP就像大数据平台的资源管理器。

目前,智领云KDP适合以下几类用户:

  1. 需要在Kubernetes上部署和运行大数据组件和应用的用户,例如云原生开发者,数据工程师,数据分析师等;

  2. 需要对现有的大数据系统进行云原生改造和迁移的用户,例如传统Hadoop平台的用户,需要提高系统效率和降低运维成本的用户等;

  3. 需要快速打造一套企业级云原生大数据底座平台的用户,例如数字化创新和转型的用户,需要支持多种数据场景和应用的用户等。

如果想要使用智领云KDP部署和运行大数据组件和应用,可以参考以下步骤:

首先,你需要在Kubernetes集群上安装智领云KDP平台,这是一个容器化云原生大数据平台,可以在Kubernetes上管理大数据组件和应用。

然后,你可以在智领云KDP平台上选择你需要的大数据组件和应用,例如Hive,Spark,Flink等,并配置相关的参数。

最后,你可以在智领云KDP平台上启动和停止你的大数据组件和应用,并查看相关的状态和日志。你也可以通过智领云KDP平台访问你的数据源和存储,并进行数据分析和处理。

Kubernetes让业务应用的发布和管理趋于标准化。而智领云的终极目标则是让数据应用的发布和使用也变得标准化。从容器化云原生大数据平台开始做起,智领云正一步一个脚印前行。

关于LinkTimeCloud 智领云 

智领云是国内云原生大数据技术的创新领导者,为企业级客户提供以云原生大数据平台为底座的云原生DataOps产品系列,包括云原生数据集成开发平台和云原生数据资产运营平台。智领云通过产品及服务帮助企业搭建数据和AI中台,轻松打造业务数据能力闭环,建立数字化运营体系,并最终完成数据驱动的数字化转型。

智领云已经服务了能源、教育、医疗健康、物联网、金融等行业国内外多家知名企业,与多个合作伙伴在云原生生态领域中展开紧密的合作,充分利用各自的优势,共同为企业客户提供更有价值的云计算、大数据产品和技术服务。

- FIN -

8032e81da0100b8eb6bd5af5834583bc.png

fe1403adca4cc93a9b376f4b4325aaaa.gif点击“阅读原文”了解KDP

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/644629.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

目标检测数据集---工业铝片表面缺陷数据集

✨✨✨✨✨✨目标检测数据集✨✨✨✨✨✨ 本专栏提供各种场景的数据集,主要聚焦:工业缺陷检测数据集、小目标数据集、遥感数据集、红外小目标数据集,该专栏的数据集会在多个专栏进行验证,在多个数据集进行验证mAP涨点明显,尤其是小目标、遮挡物精度提升明显的数据集会在该…

Echarts—根据地理坐标被标注的中国地图(标记可以自定义为图片)

中国地图 实现效果图创建echartChina.vue组件使用echartChina.vue组件修改标记图标为图片 实现效果图 这是一个有阴影的,并且根据坐标点被标记的地图展示,下面我们就把实现的代码贴出来,老样子,还是开袋即食! 创建echartChina.vu…

matlab求解方程和多元函数方程组

核心函数solve 一般形式 Ssolve(eqns,vars,Name,Value) ,其中: eqns是需要求解的方程组; vars是需要求解的变量; Name-Value对用于指定求解的属性(一般用不到); S是结果,对应于v…

【MySQL高级篇笔记-主从复制(下) 】

此笔记为尚硅谷MySQL高级篇部分内容 目录 一、主从复制概述 1、如何提升数据库并发能力 2、主从复制的作用 二、主从复制的原理 1、原理剖析 2、复制的基本原则 三、一主一从架构搭建 1、准备工作 2、主机配置文件 3、从机配置文件 4、主机:建立账户并…

如何通过CRM系统进行群发邮件?

CRM客户管理软件不仅可以记录客户的信息,还可以集成电子邮箱,实现在CRM中即可管理客户邮件的功能。那么,CRM系统可以群发邮件吗?当然可以!使用Zoho CRM即可轻松实现邮件群发。 1、通过Zoho CRM群发邮件的好处 1&…

对话钉钉音视频专家冯津伟:大模型不是万能的

策划:LiveVideoStack 在音视频技术领域,ICASSP 大会是行业的风向标会议,也是语音学界从业者研究下一代技术发展的盛宴。近期,国内外各大企业陆陆续续放出论文入顶会的消息,钉钉蜂鸣鸟音频实验室 2 篇论文也登上了 ICAS…

「2024」预备研究生mem-从不同备选池选元素从相同备选池选元素-仅分推

一、从不同备选池选元素 至少错误的解体: 其他方法: 二、从相同备选池选元素-仅分推 三、练习题 至少问题

【工具篇】Maven加密Nexus用户密码

背景说明 按照DevOps三级要求,Maven工具发布Nexus帐号不能使用明文密码,需要对settings.xml文件中的password密码进行加密存储。下面就说一下具体的加密过程及配置方法。 环境说明 Maven:Apache Maven 3.6.3 Nexus:OSS 3.29.2-…

设计用户模块的schema

schema 在计算机科学中,schema通常指的是 数据结构的定义和约束。 关系型数据库 在关系型数据库中,schema指的是数据库中所有表格的定义和表格之间的关系约束,包括每个表格的列名、数据类型、主键、外键等等。 如果要对一个关系型数据库进行…

在没有实验数据的情况下,如何高效快速发表论文

文献计量学是指用数学和统计学的方法,定量地分析一切知识载体的交叉科学。它是集数学、统计学、文献学为一体,注重量化的综合性知识体系。特别是,信息可视化技术手段和方法的运用,可直观的展示主题的研究发展历程、研究现状、研究…

互联网一线大厂Java面试题大全带答案 1110道(持续更新)

前言 春招,秋招,社招,我们 Java 程序员的面试之路,是挺难的,过了 HR,还得被技术面,小刀在去各个厂面试的时候,经常是通宵睡不着觉,头发都脱了一大把,还好最终…

平台稳定性里程碑 | Android 14 Beta 3 发布

作者 / Dave Burke, VP of Engineering 随着今天 Android 14 Beta 3 的发布,我们随之进入到 Android 开发周期的下一个阶段。Beta 3 依旧围绕着我们的核心主题打造,即隐私、安全、性能、开发者生产力和用户定制,同时继续完善平板电脑、可折叠…

基础知识学习---排序算法

1、本栏用来记录社招找工作过程中的内容,包括基础知识学习以及面试问题的记录等,以便于后续个人回顾学习; 暂时只有2023年3月份,第一次社招找工作的过程; 2、个人经历: 研究生期间课题是SLAM在无人机上的应…

Rsync工具的详细介绍以及定时备份案例

RSYNC 什么是RSYNC rsync是类unix下的一款数据镜像备份工具——remote sync。 Rsync 的基本特点如下: 可以镜像保存整个目录树和文件系统;可以很容易做到保持原来文件的权限、时间、软硬链接等;无须特殊权限即可安装;优化的流…

Java中的Lambda表达式详解

文章目录 什么是LambdaLambda表达式的语法Lambda表达式的应用场景GUI应用Lambda表达式的优缺点总结 什么是Lambda java中的Lambda表达式是一种函数式编程的风格,它允许我们将代码作为数据传递,并在需要时执行。Lambda表达式能够极大地简化代码&#xff0…

WPF开发txt阅读器9:语音播放及其进度监控

文章目录 播放进度光标跟踪进度条 txt阅读器系列: 需求分析和文件读写目录提取类💎列表控件与目录字体控件绑定💎前景/背景颜色书籍管理系统💎用树形图管理书籍语音播放 播放进度 SpeechSynthesizer对象可以注册Speech_SpeakPr…

安洵杯SYCCTF2023 writeup

一、MISC 1.sudoku_easy 简单的数独交互,几个小注意点,每次发送level之后sleep5秒才会返回题目 将形如 --------------------- 800103720 023840650 410006008 300001062 000052407 072060090 160000375 205019846 000030000 --------------------- 转换…

django中url和视图函数path re_path views.py

目录 url的定义url的格式django中的urldjango中的创建自己的urldjango访问测试django中的path动态django中的path动态案例django中的path动态类型django中的path动态案例-计算器django的正则路由re_path() url的定义 url 统一资源定位符 url 用来表示互联网上某个资源的地址 …

邀请媒体参加活动的邀请函应该怎么写

传媒如春雨,润物细无声,大家好,我是51媒体网胡老师。 经常有小伙伴问媒体邀请函怎么写,今天胡老师就把媒体邀请函的一个大概格式分享出来,不论是 做成什么形式的邀请函,这几点都不可少。 主题:…

数据库的基本概念

数据库的基本概念 数据(Data) 描述事物的符号记录 包括数字、文字、图形、声音、档案记录等 以“记录”形式按统一的格式进行存储 表 将不同的记录组织在一起 用来存储具体数据 数据库 表的集合,是存储和管理数据的仓库 数据库管理…