【为数据之道学习笔记】5-7五类数据主题联接的应用场景

news2024/11/13 1:36:59
      在数字化转型的背景下,华为的数据消费已经不再局限于传统的报表分析,还要支持用户的自助分析、实时分析,通过数据的关联,支持业务的关联影响分析以及对目标对象做特征识别,进行特定业务范围圈定、差异化管理与决策等。这些分析需求也不再是对单一数据的分析,往往需要对跨领域的数据进行联接后再进行综合分析。
        目前,数据湖汇聚了大量的原始数据,用户不再需要到各个源系统调用数据,而是统一从数据湖调用。由于数据湖中的数据零散且数据结构都与源系统一致,严格遵从三范式,即使每个数据都有详细的定义和解释,用户也很难知道数据之间的关联关系。例如,消费者BG做设备收入预测需要的数据有产品、订单、计划等超过150个物理表信息,这些表没有进行联接,没有形成有用信息,是很难支撑用户进行分析的。
        华为在数据湖的基础上通过建立数据联接层,基于不同的分析场景,通过5类联接方式将跨域的数据联接起来,将数据由“原材料”加工成“半成品”和“成品”,支撑不同场景的数据消费需求 。
        多维模型是面向业务的多视角、多维度的分析,通过明确的业务 关系,建立基于事实表、维度表以及相互间联接关系,实现多维数据查询和分析。例如,对订货数据从时间、区域、产品、客户等维度进行多视角、不同粒度的查询和分析。
        图模型面向数据间的关联影响分析,通过建立数据对象以及数据实例之间的关系,帮助业务快速定位关联影响。例如,查看某国家原产地的项目的数据具体关联到哪个客户以及合同、订单、产品的详细信息时,可以通过图模型快速分析关联影响,支撑业务决策。
        标签是对特定业务范围的圈定。在业务场景的上下文背景中,运用抽象、归纳、推理等算法计算并生成目标对象特征的表示符号,是用户主观观察、认识和描述对象的一个角度。例如,对用户进行画像,识别不同的用户群,为产品设计和营销提供策略支持。
        指标是对业务结果、效率和质量的度量。依据明确的业务规则,通过数据计算得到衡量目标总体特征的统计数值,能客观表征企业某一业务活动中业务状况。例如,促销员门店覆盖率指标就是衡量一线销售门店促销员的覆盖程度。
        算法模型是面向智能分析的场景,通过数学建模对现实世界进行抽象、模拟和仿真,提供支撑业务判断和决策的高级分析方法。例如,预测未来18个月的销售量,需要数据科学家根据数据湖中的历史订单、发货等数据通过决策树和基因算法进行数据建模,支持业务决策。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1323915.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

(保姆级教程)一篇文章,搞定所有Linux命令,以及tar解压缩命令,wget、rpm等下载安装命令,Linux的目录结构,以及用户和用户组

文章目录 Linux命令1. Linux目录结构2. 基本命令(了解)3. 目录(文件夹)命令列出目录切换目录创建目录删除目录复制目录移动和重命名目录 4. 文件命令创建文件编辑文件编辑文件时的其他操作 查看文件移动/重命名文件复制文件删除文…

hive 用户自定义函数udf,udaf,udtf

udf:一对一的关系 udtf:一对多的关系 udaf:多对一的关系 使用Java实现步骤 自定义编写UDF函数注意: 1.需要继承org.apache.hadoop.hive.ql.exec.UDF 2.需要实现evaluete函数 编写UDTF函数注意: 1.需要继承org.apache…

word 文档表格使用问题记录

word 文档表格使用问题记录 表格断页表格属性设置段落属性设置 表格断页 有时在Wps Word表格增加内容时,如超过表格时,自动跳到下一页,导致上一页空白,出现不连续的现象 表格属性设置 选中表格进行属性设置 段落属性设置

hive企业级调优策略之分组聚合优化

测试用表准备 hive企业级调优策略测试数据 (阿里网盘下载链接):https://www.alipan.com/s/xsqK6971Mrs 订单表(2000w条数据) 表结构 建表语句 drop table if exists order_detail; create table order_detail(id string comment 订单id,user_id …

电脑自动录屏软件怎么录制视频

电脑自动录屏软件是一种非常实用的工具,可以帮助我们轻松地录制屏幕上的视频内容,它会自动录制和停止,不需要人在电脑前一直盯着。那么,大家可能会有一个疑问,如何使用这样的软件进行视频录制呢? 首先&…

java中基本类型之间的转换

基本类型容量 java中的 8 种基本数据类型,以及它们的占内存的容量大小和表示的范围 byte:字节型,占内存容量为 1 个字节(8 位),表示范围为 -128(-2^7)到 127(2^7-1&…

带大家做一个,易上手的家常芹菜炒土豆

家里有芹菜土豆需要处理的看过来了呀 先土豆去皮 芹菜如果上面叶子发黑了 就切掉然后清洗干净 将芹菜切成条 土豆也切条 最好大小按芹菜的来 准备两瓣蒜 切小块 起锅烧油 倒入土豆翻炒一小会儿 倒水煮一会儿 土豆真的不太好熟 可以多放一点点水 但也别过了 等水少了一…

五、W5100S/W5500+RP2040之MicroPython开发<TCP Server示例>

文章目录 1 前言2 相关网络信息2 .1 简介2.2 TCP Server工作步骤2.3 TCP Server的优点2.4 应用场景 3 WIZnet以太网芯片4 TCP Server网络设置示例概述以及使用4.1 流程图4.2 准备工作核心4.3 连接方式4.4 主要代码概述4.5 烧录验证 5 注意事项6 相关链接 1 前言 在这个智能硬件…

人工智能可以战胜人类智慧大脑么?

引言 在当今快速发展的科技时代,人工智能的进步日新月异,引发了一场深刻的讨论:能否有一天,人工智能能够超越甚至战胜人类智慧?这个问题涉及到人类认知的广泛领域,牵涉到人类思维的深层次特质以及AI技术在…

Leetcode 45 跳跃游戏 II

题意理解: 给定一个长度为 n 的 0 索引整数数组 nums。初始位置为 nums[0]。 每个元素 nums[i] 表示从索引 i 向前跳转的最大长度。 还是从初始坐标i0的位置到达最后一个元素,但是问题不是能不能跳到,而是最少几步能跳到最后一个元素。 目标&…

2024Web自动化测试的技术框架和工具有哪些?

Web 自动化测试是一种自动化测试方式,旨在模拟人工操作对 Web 应用程序进行测试。这种测试方式可以提高测试效率和测试精度,减少人工测试的工作量和测试成本。在 Web 自动化测试中,技术框架和工具起着至关重要的作用。本文将介绍几种常见的 W…

Ubuntu 常用命令之 tar 命令用法介绍

tar 命令在 Ubuntu 系统中是用来打包和解包文件的工具。tar 命令可以将多个文件或目录打包成一个 tar 文件,也可以将 tar 文件解包成原来的文件或目录。 tar 命令的常用参数如下 c:创建一个新的 tar 文件。x:从 tar 文件中提取文件。v&…

【源码】基于SpringBoot+thymeleaf实现的快递之家管理系统

系统介绍 基于SpringBootthymeleaf实现的快递之家管理系统是为学校打造的高效的快递管理系统,系统分为管理员、注册用户两类角色,一共是分为三大菜单项,分别是我的物流、个人管理、后台管理,管理员拥有全部菜单,注册用…

科研院校和研究所都在用功率放大器做哪些实验

科研院校和研究所在科研工作中常常使用功率放大器进行实验。功率放大器是一种电子设备,其主要功能是将输入信号的功率增加到预定的输出功率水平,并保持信号的波形不失真。它在各个学科领域都有广泛的应用,包括通信、无线电、雷达、生物医学等…

外汇天眼:Cboe宣布与纽约州Secaucus的NY6数据中心建立连接

NY6数据中心将集成到Cboe的延迟均衡Secaucus基础架构中,目前该基础架构使用NY4和NY5数据中心。 NY6将仅作为BYX Equities、BZX Equities、EDGA Equities、EDGX Equities、BZX Options、EDGX Options和C2 Options交易所的延迟均衡出入口(PoP)…

算法--数据结构基础

文章目录 数据结构单链表栈表达式求值前缀表达式中缀表达式后缀表达式 队列单调栈单调队列KMPTrie并查集堆哈希表字符串哈希 数据结构 单链表 用数组模拟(静态链表)效率比定义Node类(动态链表)效率高些 使用数组模拟单链表&am…

DBNet文本检测网络 (FPN、batch normalization、Transpose conv)

DB Net文本检测网络概述 DBNet论文地址:https://arxiv.org/pdf/1911.08947.pdf DBNet是一种基于分割的文本检测网络,使用分割网络提供自适应的thresh用于二值化。 原始二值化方法和DBNet中的动态阈值 传统的基于分割的检测方法,对于分割后的…

C++第一讲之初入C++

注:本文是对于学完C语言再学C同学的讲解,主要补充C与C语言不同之处,如果你没学过C语言,不建议观看本文。 一.C简介 我们都知道C语言是过程性语言(强调的是实现过程),即对计算机语言要处理的两…

【持续更新】汇总了一份前端领域必看面试题

文章目录 1. 写在前面2. 前端面试汇总2.0.1. 如何提⾼webpack的打包速度2.0.2. 数组去重2.0.3. 前端有几种缓存方式?2.0.4. nextTick描述一下?2.0.5. Webpack层面的优化?2.0.6. 代码层面的优化?2.0.7. Web 技术的优化?…

ESP32 - Thonny+MicroPython+ESP32 继电器的使用

ESP32 - ThonnyMicroPythonESP32 继电器的使用 认真理解,能看懂 继电器默认为断开 from machine import Pin p13 Pin(13, Pin.OUT) p13.value(1) # 吸合 #p13.value(0) # 断开