Cloudera的新变化:混合数据平台、端到端AI、实时数据处理

news2024/12/24 0:38:05

作者 | 宋慧

出品 | CSDN云计算

数据的价值和技术应用,获得了全行业的关注、认可和重视。

不过,数据赛道百家争鸣,数据系统的技术与行业方案众多,对于开发团队和用户来说,其实仍然需要耗费大量调研和分析的时间。

近日,Gartner 云数据库魔力象限的领导者、混合数据系统厂商 Cloudera 举办了 2023 年客户大会,会上 IDC 分析师分享了对于数据系统市场与行业方案的最新趋势分析,Cloudera 则带来了最新的技术与应用方案,以及金融等行业应用案例。

在开发者群体的印象里,Cloudera 最知名的,是大数据 Hadoop 背后的商业技术公司,不过现在 Cloudera 已经进一步将自身定位为混合数据公司。据介绍,Cloudera 全球有超 10 亿美元营收,年增长率超过 100%,在全球 90 多个国家,管理总数据容量超过 25 艾字节,节点数量超过 50 万。并在 2022 年被 Gartner 评为魔力象限云数据库管理系统领域被评为领导者。

采访中,Cloudera 大中华区区域副总裁王刚也分享了 Cloudera 在中国市场的成绩,短短两年时间里,有 83%中国客户已经完成了(或部分完成,含逐步实施)CDP 升级。(2019 年,Cloudera 与 Hortonworks 合并后,对 CDH 和 HDP 两条产品线高度重合的部分删减和融合,推出新一代的数据平台 Cloudera Data Platform,简称 CDP。)

Cloudera 这些成绩,从侧面显示了数据系统市场的快速发展。对于数据系统发展趋势,IDC 中国研究总监卢言霞在接受 CSDN 采访时表示,云的普及以及对于数据的安全合规性要求,让数据系统在多云部署成为必然趋势。不过卢言霞也指出,不同行业、不同企业,数据规模与技术能力千差万别,除少数大型企业之外,“大部分企业仅处在数据平台和数仓建设阶段”。对于数据孤岛,烟囱式的数据系统现状与问题,卢言霞表示接下来或将有逻辑数据湖类的技术去解决。

 

会上,卢言霞详细分享了不同行业大数据建设的差异

现在的 Cloudera,则正是提供数据编织、湖仓一体、数据网格和未来数据生态系统架构要求的混合数据平台的混合数据平台。

 

Cloudera 混合数据平台

从图中我们能清晰看出,Cloudera 的混合数据平台可基于混合云与多云部署,提供数据编制编排后,统一提供 AI、BI、机器学习等数据分析与应用产品。

本次大会 Cloudera 也重点强调了 Cloudera 混合数据平台 CDP 对数据科学与 AI、机器学习的支持。例如 Cloudera Machine Learning(CML)可以为机器学习生命周期提供端到端的工作流程支持,以及覆盖从数据专家到数据分析师等各类用户的协作式、一体化商业智能与增强功能。

大会发布的另一个重要的技术点,是 Cloudera 在数仓和数据湖的基础上,新增了对实时数据的支持 DATA-IN-MOTION。其中包含三大块组件,分别是:

1、DATAFLOW:是通过 Apache NiFi,让开发人员可以连接各类节点、来源、结构类型的数据,处理加工并交付到各处,并通过低代码去实现。

2、STREAM PROCESSING:是通过 Apache Flink and Kafka,提供完整的企业级数据流管理,提供例如 SQL 等标准界面,让开发人员、数据分析师和数据科学家搭建各类实时的混合云应用。

3、CLOUDERA SDX:通过 Apache Ranger & Apache Atlas 工具,保证数据流安全可控,监控与有效治理。

另外在采访中,Cloudera 大中华区技术总监刘隶放特别分享了 Cloudera 在重点研发的三个技术领域与方向,值得重点提一下:

1、PVC DS - Data Service 私有云数据服务

适合新应用

• 内置工作负载隔离

• 价值实现时间加快 10 倍

• 数据中心基础设施减少约 50%

• 按应用自主升级

• 重新设计的管理和用户体验

适应现有应用

• 存储和 SDX 位于同一位置,统一的安全策略管理

• 查询性能最高可提高 5 倍

2、引入 Iceberg

Cloudera 实现开放的湖仓一体架构,在单一平台支持 AI、BI、ML 和数据工程。

对开源社区支持:

• 务实的方法与我们的 OSS 根源保持一致 开放的生态系统:

• 提供一个开放的生态系统来选择跨数据生命周期的最佳分析引擎

• 开放的生态系统 = 选择和减少锁定

对多元化社区:

• Apache Iceberg 提供多样化的社区支持

3、分布式、可扩展和高性能的对象存储 Ozone

扩展到数十亿个对象

• 解决小文件问题

• 通过支持 10B 对象移除 HDFS 规模限制

• 更轻松的操作,更快的重启和维护

提高存储密度

• 每个节点支持 400-600TB

• 纠删码将存储需求从 3 倍减少到 1.7 倍

• 每个集群最多支持 1 EB

AWS S3 API 兼容性

• 开放仓湖一体集成

• 混合数据管理基础

• 具有快速恢复功能的云原生双活架构

具体到行业场景的数据应用的需求各不相同,不过Cloudera的技术研发方向值得数据行业的技术开发者重点关注和参考。CSDN也将持续报道Cloudera与数据系统技术的最新发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/456110.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

notepad++自动缩进功能

支持java等格式化 代码编辑器Notepad是程序员必备的文本编辑器,该软件软件功能非常强大,界面简洁明晰、操作方便快捷,设计得很人性化。Notepad官方下载支持27种编程语言,通吃C,C ,Java ,C#, XML, HTML, PHP,JS 等。NotePad是一个…

虹科分享 | NetFlow数据能够为网络故障排除提供什么? | 网络流量监控

NetFlow是网络设备中标准化的功能,用于收集流量测量值并将其导出到另一个系统进行分析。对该流数据的分析通知网络管理器网络是如何执行的以及其他使用细节。例如,流量分析可以通过跟踪IP和突出显示异常(如过度使用流量)来帮助解决…

python django4.2版本

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 前言 提示:这里可以添加本文要记录的大概内容: 例如:django4.2版本 提示:以下是本篇文章正文内容,下面案例可供参…

《中学科技》期刊简介及投稿邮箱

《中学科技》期刊简介及投稿邮箱 《中学科技》以传播科技知识、启迪智慧、培养才能为宗旨,提供电子技术、计算机、陆海空模型、数学、物理、化学、生物、天文等方面的科技活动资料,特别注意通过科学观察,实验和制作实践的途径,培…

【中标通知】塔望咨询中标新疆农发集团 品牌规划建设项目

【新疆农发集团供应链有限公司-品牌建设项目】于2022年5月正式启动。 本次项目2022年4月6日招标结果正式公示。【塔望咨询】凭借3W消费战略方法体系和专注食品行业丰富的品牌项目经验,中标新疆农发集团供应链有限公司兵团红品牌规划建设项目。 中标结果公告 新疆农…

[算法前沿]--014- AIGC和LLM下的Prompt Tuning微调范式

文章目录 1. Prompt Tuning含义1.1 解决问题1.2 语言模型分类1.3 Prompt-Tuning的研究进展1.4 如何挑选合适的Pattern?1.5 Prompt-Tuning的本质1.5.1 Prompt的本质是一种对任务的指令1.5.2 Prompt的本质是一种对预训练任务的复用;1.5.3 Prompt的本质是一种参数有效…

Python科研数据可视化

在过去的20 年中,随着社会产生数据的大量增加,对数据的理解、解释与决策的需求也随之增加。而固定不变是人类本身,所以我们的大脑必须学会理解这些日益增加的数据信息。所谓“一图胜千言”,对于数量、规模与复杂性不断增加的数据&…

如何获取苹果设备的UDID(iPhone/iPad UDID查询方法)

方法一、通过电脑连接苹果手机后查询 1、在电脑上下载并安装爱思助手,安装完成后将电脑和苹果手机使用苹果数据线连接起来; ​ 编辑切换为居中 添加图片注释,不超过 140 字(可选) 然后启动爱思助手这个软件&#xf…

重置电脑时提示“缺少所需的驱动器分区”怎么办?

当您启动Windows 10电脑并收到“您的电脑/设备需修复”这个消息提示时,您会马上尝试修复电脑,如果您这样做了,您可能会收到一个“安装Windows的驱动器已被锁定”的信息。如果您尝试重置您的电脑,您可能会收到一条提示,…

【测试面试】offer收割机再现,软件测试实战场景面试题(附答案)...

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 软件测试面试题&am…

No.045<软考>《(高项)备考大全》【专项1】《案例分析 - 简介、方法、技巧、理论》

《案例分析》 1 专项介绍1.1 考试分析1.2 试卷参考1.3 题型分析 2 案例分析答题技巧2.1 考试6要2.2 三不要—可以2.3 其他技巧 3 案例中的万金油4 各领域中的重要工具与输出5 案例分析答题技巧6 案例分析理论题历年考点分析6.1 一般知识和科研立项6.2 整体、范围、需求6.3 进度…

数据库之约束、索引和事务

一、约束 约束,顾名思义就是数据库对数据库中的数据所给出的一组检验规则.负责判断元素是否符合数据库要求.其目的就是为了提高效率以及准确性. 1.not null - > 数据元素非空 表示如果插入数据,则当前数据不能为空. //创建一张学生表,其班级id和年级id不为空 create …

深度学习 - 42.特征交叉与 SENET、Bilinear Interaction 与 FiBiNet

目录 一.引言 二.摘要 - ABSTRACT 三.介绍 - INTRODUCTION 四.相关工作 - RELATED WORK 1.因式分解机及其变体 - Factorization Machine and Its relevant variants 2. 基于深度学习的点击率模型 - Deep Learning based CTR Models 3.SENET Module 五.FiBiNet Model 1…

4核8G云服务器腾讯云CVM S5和轻量应用服务器性能差异?

腾讯云4核8G云服务器可以选择轻量应用服务器或CVM云服务器标准型S5实例,轻量4核8G12M服务器446元一年,CVM S5云服务器935元一年,相对于云服务器CVM,轻量应用服务器性价比更高,轻量服务器CPU和CVM有区别吗?性…

PXE 网络安装Linux ——Kickstart无人值守安装Linux

PXE(预启动执行环境) PXE(预启动执行环境) 由Intel公司开发的网络引导技术,工作在Client/Server模式,允许客户机通过网络从远程服务器下载引导镜像,并加载安装文件或者整个操作系统。 PXE具备以…

【Leetcode -234.回文链表 -160.相交链表】

Leetcode Leetcode -234.回文链表Leetcode -160.相交链表 Leetcode -234.回文链表 题目:给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。 示例 1: 输…

上新了丨高性价比5G智能模组,美格智能SRM700正式发布

伴随着5G、AI、云计算等技术与物联网技术的融合发展,一个万物智联的智能世界正在到来。5G已经成为数字经济重要的基础设施,千行百业的用户都需要依靠高速率、大带宽、低延时的5G技术来构建数字化转型能力。 作为全球领先的无线通信模组及解决方案提供商…

跳槽必备,全面总结Android面试知识点

在最近的 Android 开发(社招)面试中总结的 Android 基础知识点,已经拿到心仪的offer,回馈同学们,感谢其他大佬的分享。 Android中大厂面试都很重视基础知识的考察,面试前不仅要熟悉这些知识点,…

射频封装技术:层压基板和无源器件集成

射频和无线产品领域可以使用非常广泛的封装载体技术,它们包括引线框架、层压基板、低温共烧陶瓷(LTCC)和硅底板载体(Si Backplane)。由于不断增加的功能对集成度有了更高要求,市场对系统级封装方法&#xf…

精进云原生 - Dubbo 3.2 正式发布

作者:Dubbo 社区 我们非常高兴地宣布,Dubbo 3.2 已经正式发布了!这个版本带来了许多新功能和改进,这也是 Dubbo 在面对云原生化的当下的一次重要的尝试。 背景介绍 Apache Dubbo 是一款 RPC 服务开发框架,用于解决微…