数据库信息速递 数据库基础设施已经不在青睐 ETL (译)

news2024/11/23 3:53:42

开头还是介绍一下群,如果感兴趣polardb ,mongodb ,mysql ,postgresql ,redis 等有问题,有需求都可以加群群内有各大数据库行业大咖,CTO,可以解决你的问题。加群请联系 liuaustin3 ,在新加的朋友会分到2群(共820人左右 1 + 2 + 3)新人会进入3群,进瑞典马工群的单独说。

企业是7天24小时运营的。这包括从网站、后勤办公、供应链到其他所有方面。曾经,一切都是分批次进行的。就在几年前,操作系统会暂停,以便将数据加载到数据仓库并运行报告。现在的报告关注的是事情当前的状况。已没有时间进行ETL。

许多IT架构仍然基于中心轮辐式系统。操作系统向数据仓库提供数据,然后数据仓库再向其他系统提供数据。专用的可视化软件根据“仓库”生成报告和仪表板。然而,这种情况正在发生变化,商业上的这些变化要求数据库和系统架构进行适应。

过去十年中,大量的云迁移和可扩展性努力的一部分导致了许多专用数据库的使用。在许多公司,网站由NoSQL数据库支持,而涉及资金的关键系统则位于大型机或关系数据库上。这仅仅是问题的表面。对于许多问题,还会使用更专业化的数据库。通常情况下,这种架构需要使用传统的批处理过程来转移大量数据。操作复杂性不仅导致延迟,还可能出现故障。这种架构并非为了实现可扩展性而设计的,而是为了阻止问题的恶化而拼凑在一起的。

数据库正在发生变化。关系数据库现在能够处理非结构化、文档和JSON数据。NoSQL数据库现在至少具备一些事务支持。同时,分布式SQL数据库在保持与现有SQL数据库和工具的兼容性的同时,实现了数据完整性、关系数据和极端可扩展性。

然而,仅凭这些还不够。事务性或操作性系统与分析系统之间的界限不能成为边界。数据库需要同时处理大量用户和长时间运行的查询,至少在大部分时间里如此。为此,事务性/操作性数据库正在以列式索引或MPP(大规模并行处理)能力的形式增加分析功能。现在可以在一些分布式操作数据库上运行分析查询,例如MariaDB Xpand(分布式SQL)或Couchbase(分布式NoSQL)。

这并不是说现在的技术已经发展到不再需要专用数据库的地步。目前还没有操作数据库能够进行PB级别的分析。在某些边缘案例中,除了时间序列或其他特殊的数据库外,没有其他解决方案。保持事物简单化或实现实时分析的诀窍是避免提取。

在许多情况下,问题的答案在于首次捕获数据的方式。与其将数据发送到一个数据库然后从另一个数据库中提取数据,不如将事务同时应用于两者。像Apache Kafka或Amazon Kinesis这样的现代工具可以实现这种数据流式传输。虽然这种方法确保数据无延迟地到达两个地方,但它需要更复杂的开发来确保数据完整性。通过避免数据的推拉,事务型和分析型数据库可以同时更新,当需要专用数据库时,可以实现实时分析。

有些分析型数据库无法承受这种方式。在这种情况下,可以作为权宜之计使用更为定期的批量加载。然而,要高效地实现这一点,源操作数据库需要处理更多长时间运行的查询,可能会在高峰时段进行。这就需要内置列式索引或MPP。

在它们所处的时代,客户端-服务器数据库表现得非常出色。它们不断发展以充分利用众多CPU和控制器,为各种应用程序提供性能。然而,客户端-服务器数据库是为员工、工作组和内部系统设计的,而不是互联网。在当今网络规模系统和数据无处不在的现代时代,它们已变得完全难以维持。

许多应用程序使用许多不同的隔离数据库。优点是如果其中一个出现故障,受影响范围较小。缺点是总有一些东西始终处于损坏状态。将较少的数据库整合到一个分布式数据结构中,使IT部门能够建立一个更可靠的数据基础设施,在不同数量的数据和流量下,减少停机时间。这也意味着在分析数据时,减少了数据传输的次数。

主要依赖于通用的分布式数据库,既能处理事务,也能进行分析,并在大型分析案例中使用流式传输,您可以支持现代企业所需的实时运营分析。这些数据库和工具在云端和本地都容易获得,并已广泛应用于生产环境。

改变是困难的,需要时间。这不仅仅是一个技术问题,还涉及人员和后勤问题。许多应用程序采用了隔离式架构进行部署,并独立于其他数据基础设施的开发周期。然而,经济压力、日益激烈的竞争和新的商业模式正在推动即使是最保守、最坚定的公司进行变革。

d6d3ba3c83cd1ac362e3ad52fd59d1b9.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/600261.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RabbitMq的高级特性--RabbitMQ高级特性_消息存活时间

RabbitMQ高级特性_消费端限流 , [解耦, 限流,降低压力,发送消息] 通过消费端限流的 方式限制消息的拉取速度,达到保护消费端的目的。 下面我们新建springboot项目进行测试: 新建项目myproducer 依赖&am…

chatgpt赋能python:Python关联算法:从数据挖掘到推荐系统

Python关联算法:从数据挖掘到推荐系统 Python编程语言已经成为各行各业中数据科学家和工程师的首选语言,其中包括处理数据集合的关联算法。 什么是关联算法? 数学上,关联算法是指在大型和复杂数据集合中, 寻找数据之…

干货 | 携程10个有效降低客户端超时的方法

作者简介 Wen,携程资深后端开发工程师,专注系统性能、稳定性、交易系统等领域。 一、背景 在现今的信息时代,微服务技术已成为一种重要的解决方案,微服务技术可以使系统的规模和功能变的更加灵活,从而获得更高的可扩展…

docker基本命令学习 | Docker网络、Docker镜像发布

💗wei_shuo的个人主页 💫wei_shuo的学习社区 🌐Hello World ! docker安装、卸载 docker安装使用 卸载旧版本docker或者环境 [rootiZf8zdcobr3fw7vn0p3538Z /]# yum remove docker \ > docker-client \ >…

打破逢节降价桎梏!海尔智家:满足用户,全网第一

又是一年618,每到这个上半年最重要的消费节点,许多品牌卖家纷纷掀起价格战。 他们使出满减、满赠、满返等五花八门的策略,为了压制对手进行冲量,这也一度让“逢节降价”成为主流。 在市场天平偏向卖家的时代,这些策略…

SVN服务端visualsvn5.1.4下载安装(windows环境)(实操)

Apache Subversion 通常被缩写成 SVN,是一个开放源代码的版本控制系统,Subversion 在 2000 年由 CollabNet Inc 开发,现在发展成为 Apache 软件基金会的一个项目,同样是一个丰富的开发者和用户社区的一部分。 SVN相对于的RCS、CVS…

做自己喜欢的事

这两天沸沸扬扬的消息说稚辉君公司拿到了百度投资 稚晖君刚拿了百度投资,估值被曝已超独角兽 然后昨晚上小孩发烧,我陪床不敢死睡,跟大佬聊了下拿到投资的感受。 然后说到搞技术好玩这个事情,我就跟他分享了我前天到经历 我前天到…

Jenkins概念及安装配置教程(二)

如何安装Jenkins? Jenkins 安装程序也可以作为通用 Java 包 (.war) 使用。如果您将 Jenkins 与 Selenium 一起用于执行跨浏览器测试,我们建议使用 .war 文件,因为您可以通过在非无头模式下在浏览器上执行的自动化测试来见证测试场景的执行。…

【C# 10 和 .NET 6】使用MVC模式构建网站(笔记1)

Building Websites Using the Model-View-Controller Pattern 使用模型-视图-控制器模式构建网站 本章介绍使用 Microsoft ASP.NET Core MVC 在服务器端构建具有现代 HTTP 架构的网站,包括构成 ASP.NET Core MVC 项目的启动配置、身份验证、授权、路由、请求和响应管…

如何设计和使用文档模板 | 技术写作什么鬼

今天看到叶伟民老师的一篇文章,瞬间泪目:叶老师,您是懂人性的啊。在我整天鞭策自己“不能再拖了”的关键时刻,及时分享经验: 是的,这篇文章实在是拖了太久,了太久,太久,久…

web前端 --- javascript(03) -- 函数、内置对象

函数(function) 具有名称的,为了实现特定功能的代码集合体 (1)javascript如何定义函数:function关键字定义 function 函数名称 ([ 参数列表 ]){ // 函数体 // [return 返回值]…

【Springboot】发送QQ邮件

系列文章目录 文章目录 系列文章目录前言添加Maven依赖QQ邮箱开启POP服务配置application.properties文件Controller层编写 vue前端(也可以直接省略) 前言 这篇博客用于简单实现SpringBoot中使用Controller发送邮件请求,用户可以收到邮件。 …

Python读写access数据库的实战代码

大家好,我是爱编程的喵喵。双985硕士毕业,现担任全栈工程师一职,热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的…

chatgpt赋能python:使用Python关闭端口的方法

使用Python关闭端口的方法 在网络安全中,关闭端口是非常重要的一项任务。一旦一个端口被打开并暴露给互联网,恶意用户就可能通过它们的攻击进入您的服务器或计算机系统。Python是一种流行的编程语言,也可以用来关闭端口。下面介绍一些常用的…

JSONSQL:使用SQL过滤JSON类型数据(支持多种数据库常用查询、统计、平均值、最大值、最小值、求和语法)...

1. 简介 在开发中,经常需要根据条件过滤大批量的JSON类型数据。如果仅需要过滤这一种类型,将JSON转为List后过滤即可;如果相同的条件既想过滤数据库表中的数据、也想过滤内存中JSON数据,甚至想过滤Elasticsearch中的数据&#xff…

chatgpt赋能python:Python内置变量:掌握这些变量,让你的编程更高效

Python内置变量:掌握这些变量,让你的编程更高效 Python作为一门优秀的编程语言,自然不会缺少重要的内置变量。这些内置变量可以帮助程序员轻松地实现各种编程功能,提高编程效率。在本文中,我们将介绍Python内置变量的…

chatgpt赋能python:Python内置函数使用指南

Python内置函数使用指南 Python是一种高级编程语言,得益于其简单易学的语法、强大的标准库和丰富的第三方模块,现已成为全球最受欢迎的编程语言之一。其中,Python内置函数是Python编程的重要组成部分,本文将为您介绍这些内置函数…

四种主要的IO模型

基本概念 基本概念阻塞IO指的是需要内核IO操作彻底完成后,才返回到用户空间执行用户的操作。阻塞指的是用户空间程序的执行状态。传统的IO模型都是同步阻塞IO。在Java中,默认创建的socket都是阻塞的。简单来说:阻塞是指用户空间&#xff08…

尚硅谷-云尚办公-项目复盘

尚硅谷-云尚办公-项目复盘 资料地址本文介绍问题汇总问题1.knife4j无法下载 视频4问题2.dev等含义 视频5问题3.wrapper继承/实现图 视频8问题4.修改统一返回结果 视频11问题5.修改后新增也变修改 视频29问题6.redis中key值乱码 视频55-60问题7.RangeError: Maximum call stack …

高完整性系统工程(六):INTRODUCING ADA

目录 1. ADA的历史 2. ADA的特点 2.1 Strong, Static Typing 强语言、强静态类型语言 2.1.1 ADA is Strong, Static Typing 2.1.2 C is Weak, Static Typing 2.2 Module System 2.3 Portable 2.3.1 ADA 2.3.2 C 2.3.3 Cost of Runtime Checking 2.4 Readability …