【常读常悟】《大数据之路-阿里巴巴大数据实践》一书读书摘要

news2024/12/22 10:29:10

【常读常悟】《大数据之路-阿里巴巴大数据实践》一书读书摘要

  • 1、背景
  • 2、目录结构
  • 3、数据加工链路
  • 4、章节摘要
    • 4.1 第2章 日志采集
      • 4.1.1 日志采集方案
      • 4.1.2 采集指标
    • 4.2 第3章 数据同步
      • 4.2.1 数据的特点
      • 4.2.2 数据同步的三种方式
      • 4.2.3 数据同步的最佳实践
    • 4.3 第4章 离线数据开发
      • 4.3.1 工具
    • 4.4 第5章 实时技术
      • 4.4.1 概念
      • 4.4.2 流式数据处理
    • 4.5 第6章 数据服务
    • 4.6 第7章 数据挖掘
      • 4.6.1 基于MaxCompute MPI的机器学习算法
      • 4.6.2 数据挖掘流程
      • 4.6.3 挖掘数据中台体系
        • 4.6.3.1 数据中台
          • 4.6.3.1.1 演进路线
          • 4.6.3.1.2 分层
        • 4.6.3.2 算法中台
    • 4.7 第8章 大数据领域建模综述
      • 4.7.1 数据仓库建模方法
    • 4.8 第9章 阿里巴巴数据整合及管理体系
      • 4.8.1 阿里集团大数据建设方法论
      • 4.8.2 维度模型建设
        • 4.8.2.1 维度模型层次
        • 4.8.2.1 维度模型规范定义
      • 4.8.3 模型实施
        • 4.8.3.1 Kimball模型实施
      • 4.8.4 OneData实时工作流
    • 4.9 第10章 维度设计

1、背景

该书是阿里巴巴数据技术及产品部开山之作,该部门在阿里集团中定位为数据中台角色。多年来,该部门已经构建了从底层的数据采集、数据处理,到挖掘算法、数据应用服务以及数据产品的全链路、标准化的大数据体系。

在这里插入图片描述

2、目录结构

全书分为4个篇幅,共计16个章节。从数据技术讲到数据模型,从数据管理讲到数据应用,阅读起来,循序渐进。

数据技术篇(第2-7章节)共计6个章节
数据模型篇(第8-11章节)共计4个章节
数据管理篇(第12-15章节)共计4个章节
数据应用篇(第16章节)共计1个章节

数据是一个平台企业最直接的沉淀,也是最基本的生产资料。

3、数据加工链路

分层理念:操作数据层、明细数据层、汇总数据层、应用数据层。

  1. 操作数据层 (Operational Data Store, ODS)
    这是数据的原始状态,直接来源于业务系统,如销售记录、客户信息等。这一层的数据通常是实时或近实时更新的,主要用于快速查询和简单的数据分析。
  2. 明细数据层 (Data Warehouse Detail, DWD)
    这一层的数据已经过了一定程度的清洗和转换,保留了所有细节,适合于详细的分析和报告。它作为数据仓库的基础,提供了对历史数据的深入洞察。
  3. 汇总数据层 (Data Warehouse Summary, DWS)
    在这个层次,数据已经被进一步聚合,形成了各种维度的汇总视图。这一层的数据量相对较小,便于快速查询和分析,常用于业务监控和趋势分析。
  4. 应用数据层 (Application Data Service, ADS)
    描述:这是数据处理的最上层,数据经过建模和封装,形成易于消费的服务或产品,可以直接被应用程序或用户界面使用。这一层的数据通常是为了特定的应用场景而定制的。

通过数据仓库不同层次之间的加工过程实现从数据资产向信息资产的转化,并且对整个过程进行有效的元数据管理及数据质量处理。

在这里插入图片描述

4、章节摘要

4.1 第2章 日志采集

4.1.1 日志采集方案

  • Web端 Aplus.js
  • APP端 UserTrack

4.1.2 采集指标

  • 页面浏览量 PV
  • 访客数 UV

4.2 第3章 数据同步

4.2.1 数据的特点

  • 数据来源的多样性
  • 数据量大

4.2.2 数据同步的三种方式

  • 直连同步:适合操作型业务系统,批量执行拉低系统性能
  • 数据文件同步:使用FTP传输文件,对文件进行校验
  • 数据库日志解析:实现了实时和准实时同步能力,延迟能够控制在毫秒级别

4.2.3 数据同步的最佳实践

  • 批量同步:DataX
    在这里插入图片描述
  • 实时同步:
    MySQL数据库中的数据实时同步采用解析binlog日志文件的方式,通过TimeTunnel平台进行消息的分发。

4.3 第4章 离线数据开发

4.3.1 工具

统一计算平台MaxCompute

同类的竞品还有HadoopSpark

4.4 第5章 实时技术

4.4.1 概念

  • 离线:在今天(T)处理N天前(T-N,N≥1)的数据,延迟时间粒度为
  • 准实时:在当前小时(H)处理N天前(H-N,N>0,如0.5小时、1小时)的数据,延迟时间粒度为小时
  • 实时:在当前时刻处理当前数据,延迟时间粒度为

4.4.2 流式数据处理

  • 时效性高
  • 常驻任务
  • 性能要求高
  • 应用局限性

4.5 第6章 数据服务

  • SmartDQ
  • Lego

4.6 第7章 数据挖掘

4.6.1 基于MaxCompute MPI的机器学习算法

分类具体算法
分类算法LogisticRegression、KNN、GBDT、DTC5.0、RandomForest、linearSVM、nonlinearSVM、NativeBayes、Bayes、Fisher判别、马氏距离判别、标签传播分裂等
回归算法LogisticRegression、GBDT、LASSO、RidgeRegression、Factorization Machines、XGBoost等
聚类算法K-Means、Canopy、PSC谱聚类、标签传播聚类、EM聚类等
推荐算法etrec协同过滤(阿里商品协同过滤算法)、SVD协同过滤、ALS协同过滤等
深度学习Word2Vec、Doc2Vec、CNN、DBN、DeepMatchModel等
其他PageRank、LDA、lLSA、关联规则、NMF、CRF、SVD、RankSVM、PCA、kcore、sssp、Modularity计算等

4.6.2 数据挖掘流程

数据挖掘流程包括商业理解、数据准备、特征工程、模型训练、模型测试、模型部署、线上应用及效果反馈这8个环节。

商业理解
数据准备
特征工程
模型训练
模型测试
模型部署
线上应用
效果反馈

4.6.3 挖掘数据中台体系

4.6.3.1 数据中台
4.6.3.1.1 演进路线

数据中台演进的4个阶段。
在这里插入图片描述

4.6.3.1.2 分层

数据中台分为三层。特征层、中间层、应用层。
在这里插入图片描述

4.6.3.2 算法中台
  1. 个体挖掘应用
  2. 关系挖掘应用

4.7 第8章 大数据领域建模综述

4.7.1 数据仓库建模方法

  1. ER模型:高层建模、中层建模、物理建模
  2. 维度模型:选择分析决策业务过程、选择粒度、识别维表、选择事实
  3. Data Vault模型:ER模型的衍生,更容易设计和产出
  4. Anchor模型:Data Vault模型的规范处理,只增加不修改,规范到6NF

4.8 第9章 阿里巴巴数据整合及管理体系

4.8.1 阿里集团大数据建设方法论

从业务架构设计到模型设计,从数据研发到数据服务,做到数据可管理、可追溯、可规避重复建设。

4.8.2 维度模型建设

4.8.2.1 维度模型层次

维度模型层次关系图如下图所示。
在这里插入图片描述

4.8.2.1 维度模型规范定义

在这里插入图片描述

4.8.3 模型实施

4.8.3.1 Kimball模型实施
  1. 高层模型
  2. 详细模型
  3. 模型审查、再设计和验证
  4. 提交ETL设计和开发

4.8.4 OneData实时工作流

图来源于阿里巴巴OneData大数据建设方法论(精华)博客。
在这里插入图片描述

4.9 第10章 维度设计

维度是维度建模的基础和灵魂。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2185035.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LabVIEW自动生成NI-DAQmx代码

在现代数据采集和控制系统中,LabVIEW被广泛应用于各种工业和科研领域。其中,NI-DAQmx是一个强大的驱动程序,可以帮助用户高效地管理和配置数据采集任务。本文将介绍如何在LabVIEW中通过DAQ Assistant Express VI和任务常量自动生成NI-DAQmx代…

VBA字典与数组第十九讲:VBA中动态数组的定义及创建

《VBA数组与字典方案》教程(10144533)是我推出的第三套教程,目前已经是第二版修订了。这套教程定位于中级,字典是VBA的精华,我要求学员必学。7.1.3.9教程和手册掌握后,可以解决大多数工作中遇到的实际问题。…

【论文笔记】Visual Instruction Tuning

🍎个人主页:小嗷犬的个人主页 🍊个人网站:小嗷犬的技术小站 🥭个人信条:为天地立心,为生民立命,为往圣继绝学,为万世开太平。 基本信息 标题: Visual Instruction Tunin…

Linux线程(二)线程ID及创建线程详解

1.线程ID 就像每个进程都有一个进程 ID 一样,每个线程也有其对应的标识,称为线程 ID。进程 ID 在整个系统中是唯一的,但线程 ID 不同,线程 ID 只有在它所属的进程上下文中才有意义。 进程 ID 使用 pid_t 数据类型来表示&#xf…

【Linux进程间通信】Linux匿名管道详解:构建进程间通信的隐形桥梁

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:Linux “ 登神长阶 ” 🌹🌹期待您的关注 🌹🌹 ❀Linux进程间通信 📒1. 进程间通信介绍📚2. 什么是管道📜3…

22.1 k8s不同role级别的服务发现

本节重点介绍 : 服务发现的应用3种采集的k8s服务发现role 容器基础资源指标 role :nodek8s服务组件指标 role :endpoint部署在pod中业务埋点指标 role :pod 服务发现的应用 所有组件将自身指标暴露在各自的服务端口上,prometheus通过pull过来拉取指标但是promet…

期权卖方如何选择铁矿石行权价?期权策略盈亏分析计算方式详解

截止9月30日收盘,铁矿石2411合约收盘价825元/吨。日线级别处于上涨趋势中 假设以825元为最新价,假设后市铁矿石期货价格会下跌,期权卖方应该如何选择行权? 卖出行权价800的看涨期权,期权报价37.9,一手权利…

【环境配置】科研小白Windows下安装Git

2024年小白使用Win10安装Git 2.46.2教程: 1 下载安装包 访问下载地址 Git - Downloading Package (git-scm.com) 下载之后打开文件 2 安装过程 点击Next 2.1 选择安装路径 2.2 选择勾选必要组件 2.3 一路Next 这一步直接Next即可 继续点击Next 继续点击Ne…

Linux学习之路 -- 线程 -- 线程池

前面介绍了条件变量的生产消费模型,下面介绍一下条件变量的另一个用法,那就是线程池。线程池的用法其实就是先创建一批线程,然后让这些线程从任务队列中取数据。具体就是生产消费者模型,(我的代码中生产线程只有一个并且生产的任务…

自动微分-梯度!

前言背景知识: 梯度下降(Gradient descent,GD) 正文: 自动微分为机器学习、深度学习神经网络的核心知识之一,若想更深一步使用神经网络进行具体问题研究,那么自动微分不得不了解。 “工欲善其事,必先利其器”&…

数据结构 ——— 单链表oj题:合并两个升序链表

目录 题目要求 手搓两个简易链表 代码实现 题目要求 将两个升序链表合并为一个新的升序链表并返回,新链表是通过拼接给定的两个链表的所有节点组成的 手搓两个简易链表 代码演示: struct ListNode* n1 (struct ListNode*)malloc(sizeof(struct …

【Linux】第一个小程序——进度条实现

🔥 个人主页:大耳朵土土垚 🔥 所属专栏:Linux系统编程 这里将会不定期更新有关Linux的内容,欢迎大家点赞,收藏,评论🥳🥳🎉🎉🎉 文章目…

【Python报错已解决】TypeError: ‘NoneType‘ object is not iterable

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 专栏介绍 在软件开发和日常使用中,BUG是不可避免的。本专栏致力于为广大开发者和技术爱好者提供一个关于BUG解决的经…

Android KMP 快速入门1 - 项目打包

这里写目录标题 KMP 运行与打包运行程序程序打包 KMP 运行与打包 运行程序 运行Android客户端,你首先需要把USB连接到物理机上,或者使用模拟器模拟一个手机; 然后选择运行配置的 composeApp ,运行它即可 运行windows客户端&…

Qt/C++开源控件 自定义雷达控件

使用Qt框架创建一个简单的雷达图&#xff0c;包含动态扫描、目标点生成、刻度和方向标识。代码实现使用C编写&#xff0c;适合用作学习和扩展的基础。 1. 头文件与基本设置 #include "RadarWidget.h" #include <QPainter> #include <QPen> #include &…

解决银河麒麟操作系统V10软件包架构不符问题

TOC &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在银河麒麟桌面操作系统V10中安装软件包时&#xff0c;如果遇到“软件架构与本机架构不符”的提示&#xff0c;可以尝试以下步骤来解决问题&#xff1a; 1. 确认架构一致性 查看本机架构…

基于STM32的智能门禁系统

目录 引言项目背景环境准备 硬件准备软件安装与配置系统设计 系统架构关键技术代码示例 密码验证模块电机控制实现门禁状态监控应用场景结论 1. 引言 智能门禁系统能够通过密码或其他验证方式&#xff08;如指纹、刷卡等&#xff09;控制门的开关&#xff0c;结合电机控制与…

2024年7月大众点评武汉餐饮美食店铺基础信息

在做一些城市分析、学术研究分析、商业选址、商业布局分析等数据分析挖掘时&#xff0c;大众点评的数据参考价值非常大&#xff0c;截至2024年7月&#xff0c;大众点评美食店铺剔除了暂停营业、停止营业后的最新数据情况分析如下。 武汉餐饮美食店铺约9.6万家&#xff0c;有均…

MySQL高阶2051-商店中每个成员的级别

目录 题目 准备数据 分析数据 实现 总结 题目 一个商店想对其成员进行分类。有三个层次: "钻石": 如果转换率 大于或等于 80."黄金": 如果转换率 大于或等于 50 且小于 80."白银": 如果转化率 小于 50."青铜": 如果该成员从未访…