《阿里大数据之路》读书笔记:第一章 总述

news2024/11/26 21:46:51

阿里巴巴大数据系统体系架构图

阿里数据体系主要分为数据采集数据计算数据服务数据应用四大层次。

一、数据采集层

阿里巴巴建立了一套标准的数据采集体系方案,致力全面、高性能、规范地完成海量数据的采集,并将其传输到大数据平台。

数据来源主要有两部分:

  • 业务数据:主要存在数据库中

  • 日志数据:主要来自于日志文件

日志采集技术:

  • Aplus.JS:Web端日志采集技术方案

  • UserTrack:APP 端日志采集技术方案

消息中间件(离线/实时):

  • TimeTunnel (TT ):既包括数据库的增量数据传输,也包括日志数据的传输

数据库同步工具(离线):直连异构数据库(备库)来抽取各种时间窗口的数据。

  • DataX/同步中心:同步中心是基于DataX易用性封装的

二、数据计算层

数据被整合和计算后,才能被挖掘潜在信息,从而实现大数据价值,达到赋能于商业和创造价值的目的。

两大体系:

  • 数据存储及计算云平台(离线计算平台(MaxCompute)、实时计算平台(Strea Compute))

  • 数据整合及管理体系:阿里内部称之为“OneData ”,数据整合及管理的方法体系和工具

数据仓库:

  • 离线数仓:传统数仓。主要以天(包含小时、周和月)为单位,如T-1,则每天凌晨处理上一天的数据。

  • 实时数仓:流式数据

数仓的建设遵循业界的分层理念,传统的数据加工链路包括以下几层:

  • 数据层:Operational Data Store,ODS

  • 明细数据层:Data Warehouse Detail,DWD

  • 汇总数据层:Data Warehouse Summary,DWS

  • 应用数据层:Application Data Store,ADS

数仓不同层次之间的加工实现了数据资产向信息资产的转化,整个过程还进行了有效的元数据管理数据质量处理

元数据模型整合及应用:主要包含数据源元数据、数据仓库元数据 、数据链路元数据、工具类元数据、数据质量类元数据等。元数据应用主要面向数据发现、数据管理等 ,如用于存储、计算和成本管理等。

三、数据服务层

目的:数据被整合和计算好之后,可以提供给产品和应用进行消费。

数据服务层以数据仓库整合计算好的数据作为数据源,可以架构在多种数据库之上,如MySQL和HBase等。

数据服务层主要通过统一的数据服务平台对外提供数据服务通过接口服务化方式对外提供数据服务。通过接口堆外提供的数据服务主要包括:

  • 简单数据查询服务

  • 复杂数据查询服务

  • 实时数据推送服务

数据服务可以使应用对底层数据存储透明,将海量数据方便高效地开放给各应用使用。

四、数据应用层

数据准备好了,可以提供给其他部门使用,比如索、推荐、广告等应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/647268.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】 STL(下)算法、迭代器、容器适配器 和 仿函数

文章目录 算法迭代器容器适配器栈(stack)队列(queue) 仿函数 算法 STL中的算法头文件位于和文件中(以为主) for_each(InputIterator First,InputIterator Last,Function _Func); 遍历,具体做什…

电影《天空之城》观后感

上周看了电影《天空之城》这部电影,这部电影是六一儿童节时上映的,本周也算是补票吧,童年时,看的都是免费的,早已经忘记是在哪里看到的,但当时对自己触动很大,算是启蒙电影,所以今天…

【RabbitMQ教程】第二章 —— RabbitMQ - 简单案例

💧 【 R a b b i t M Q 教程】第二章—— R a b b i t M Q − 简单案例 \color{#FF1493}{【RabbitMQ教程】第二章 —— RabbitMQ - 简单案例} 【RabbitMQ教程】第二章——RabbitMQ−简单案例💧 🌷 仰望天空,妳我亦是行人…

汽车电子Autosar之以太网SOMEIP

前言 首先,请问大家几个小小问题,你清楚: 你知道什么是SOME/IP吗?你知道为什么会产生SOME/IP即相关背景吗?你知道SOME/IP与SOA又有着哪些千丝万缕的联系呢?SOME/IP在实践中到底应该如何使用呢&#xff1f…

QuickList

基本概述 ZipList虽节省内存但是申请内存必须是连续的,如果内存占用很大,申请内存效率就会很低,可以限制ZipList长度和entry大小; 实在要存储大量数据,超出ZipList最佳上限了,此时可以创建多个ZipList来分片…

Autosar诊断实战系列04-基于CAPL语言的通信类诊断测试脚本开发

本文框架 前言1.CAPL编程简单介绍2. CAPL脚本开发实战2.1 添加CAPL Test Module2.2 CAPL脚本实战编写前言 在本系列笔者将结合工作中对诊断实战部分的应用经验进一步介绍常用UDS服务的进一步探讨及开发中注意事项, Dem/Dcm/CanTp/Fim模块配置开发及注意事项,诊断与BswM/NvM关…

OpenAI官方提示词课(五)如何进行文本翻译校正修改

在本篇文章中,我们将探讨如何使用大语言模型进行文本转换任务,例如语言翻译、拼写和语法检查、语气调整和格式转换。 翻译 ChatGPT接受多种语言的训练,使得模型具备翻译能力。以下是如何使用这种能力的一些示例。 prompt f""&q…

利用lambda优化反射功能实现方法调用

最近在思考lambda相关的问题,简单记录下做的相关反射替代和函数映射的尝试。 原理分析 lambda是jdk8才提供的,原理其实就是动态生成内部类来执行函数映射的方法。也就是说一段lambda表达式会对应特定的类方法,之后调用。底层是通过LambdaMe…

《离散数学》:逻辑

〇、前言 离散数学是数学的一个分支,研究离散对象和离散结构的数学理论和方法。这学期学校开了离散数学的课程,我受益颇丰,感觉到了离散数学真正的魅力,也被开创离散数学各个分支的人的聪明与才智深深折服。与连续数学不同&#…

Stopwatch工具类计时器探究

搬砖的我们 特别是Java开发的童鞋们, 经常需要通过记录开始时间和结束时间,然后通过计算差值,得到时间差,如下面的代码: long start System.currentTimeMillis(); long end System.currentTimeMillis(); System.out.println(…

【数字调制】数字调制技术FSK与PSK分析与研究(Matlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

栈的数据结构完成表达式(5*10+2-7+5)/10+5的计算

栈(Stack)是一种线性数据结构,具有后进先出(LIFO)的特性。它可以理解为一种类似于抽屉的容器,只能在顶部进行插入和删除操作,其他位置不可访问。栈的基本操作包括入栈(push&#xff…

[数字图像处理]第五章 图像复原与重建

文章目录 第五章 图像复原与重建5.1图像退化复原过程的模型图像退化图像复原图像复原与图像增强图像退化的数学模型为什么采用线性位移不变系统模型来描述图像退化过程 5.2 噪声模型x5.2.1 噪声的空间和频率特性5.2.2 一些重要的噪声概率密度函数高斯噪声实验:采用高…

【微服务架构设计和实现】4.1 微服务架构概述和设计原则

往期回顾: 第一章:【云原生概念和技术】 第二章:【容器化应用程序设计和开发】 第三章:【基于容器的部署、管理和扩展】 4.1 微服务架构概述和设计原则 4.1 微服务架构概述和设计原则4.1.1 微服务架构的优点4.1.2 微服务架构遵…

在 ArcGIS Pro 中使用 H3 创建蜂窝六边形

在 ArcGIS Pro 中使用 H3 创建蜂窝六边形https://mp.weixin.qq.com/s/tGk7AT2jAcvsmNyp2bRvig 之前看了个有意思的ArcGIS博客:H3六边形,当然了这也不是个新鲜东西了。原文: https://www.esri.com/arcgis-blog/products/arcgis-pro/analytic…

为什么要学GIS开发

什么是地理信息系统技术? GIS技术使用专门的计算机系统来获取地理数据并将其集成到智能“超级”地图中。然后,这些数据可用于创建无穷无尽的“假设”场景,为以下应用程序提供强大的工具: 制图(地图制作)应…

【阅读随笔】Rewrite-Based Decomposition of Signal Temporal Logic Specifications

文章目录 Overview1 IntroLTL任务分解STL任务分解本文工作 Background and Problem DefinitionSTLAgent假设与问题方法 An STL Rewriting SystemRewriting SystemFormula Rewrite DAG Decomposing STL智能体编队任务分解最优分解 Exploring the Formula Rewrite DAGExperiments…

soci在windows下vs2010编译

需要下载 的资源 mysql connector c 因为其使用的的是mysql connector c的api,需要下载https://downloads.mysql.com/archives/c-c/ 分别对应32位和64位的 soci 4.0 从github上下载4.03分支 https://github.com/SOCI/soci/tree/v4.0.3 cmake 需要下载3.25版…

Java多线程快速入门

文章目录 Java多线程快速入门1、认识多线程2、多线程的实现2.1 继承Thread类2.2 实现Runnable接口2.3 利用Callable和Futrue接口2.4 三种方式的比较 3、Thread类常用API3.1 守护线程3.2 礼让线程3.3 插入线程3.4 线程的生命周期 5、线程安全问题5.1 synchronized5.2 Lock 6、等…

wsl安装ubuntu并设置gnome图形界面详细步骤(win11+ubuntu18)

0.前言 wsl确实是个好东西,不过之前配了好几次都没有成功,因为wsl本身确实是有bug。当时配的时候查到GitHub上的一个issue还没被修好。现在重新配一下。 我的环境是Windows11家庭版。区别于win10,win11安装完默认就是wsl2。 1.下载 首先打…