Hive SQL 中 map, reduce 的数据血缘分析

news2024/11/15 19:32:30

Hive SQL 中的有些 SQL 语句和传统关系型数据库中使用的 SQL 语句在语法和功能上都有非常大的差异。在数据血缘分析中对这些 Hive SQL 特有的 SQL 语法的支持,是马哈鱼数据血缘关系分析工具和一般数据血缘分析工具的一个重要区别,对这些特殊 SQL 语法的支持,为企业的数据治理提供了完整的数据血缘,可以更好的提高数据质量,让企业的海量数据的在数据挖掘和智能分析中发挥更大的作用。

这里是一个典型的 Hive SQL,使用了 map, reduce。

FROM (
    FROM pv_users
    MAP ( pv_users.userid, pv_users.date )
    USING 'map_script'
    AS c1, c2, c3
    DISTRIBUTE BY c2
    SORT BY c2, c1) map_output
  INSERT OVERWRITE TABLE pv_users_reduced
    REDUCE ( map_output.c1, map_output.c2, map_output.c3 )
    USING 'reduce_script'
    AS date, count;

该 Hive SQL语句把 pv_users.userid, pv_users.date 字段通过 map_script 脚本映射为 map_output c1, c2, c3 字段, 然后通过 reduce_script 脚本 reduce为 date, count 字段,插入到 pv_users_reduced 表。

我们可以梳理出如下的数据流:

pv_users.userid --> map_output c1
pv_users.userid --> map_output c2
pv_users.userid --> map_output c3
pv_users.date --> map_output c1
pv_users.date --> map_output c2
pv_users.date--> map_output c3

map_output c1 --> pv_users_reduced.date
map_output c1 --> pv_users_reduced.count
map_output c2 --> pv_users_reduced.date
map_output c2 --> pv_users_reduced.count
map_output c3 --> pv_users_reduced.date
map_output c3 --> pv_users_reduced.count

使用马哈鱼数据血缘分析器,可以自动的分析出如下的数据血缘关系:
在这里插入图片描述

如果你正在使用 Hive SQL 来处理企业数据仓库中的大数据,进行数据的清洗、转换、计算等工作,那么,马哈鱼数据血缘分析器可以为你自动梳理这些数据的血缘关系,告诉你数据的来龙去脉,极大的提高你的工作效率和数据治理水平。

参考

马哈鱼数据血缘关系分析工具中文网站: https://www.sqlflow.cn

马哈鱼数据血缘关系分析工具英文网站: https://docs.gudusoft.com

马哈鱼数据血缘关系分析工具在线使用: https://sqlflow.gudusoft.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/506121.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python代码大全

Python是一种高级编程语言,属于通用编程语言。它是由荷兰人Guido van Rossum在1989年创造的,其语法简单、易读易写,是一种解释型、面向对象、动态数据类型的编程语言,支持多种编程范式,如面向对象、函数式、过程化等。…

FreeRTOS内核:详解Queue队列 FIFO(GPT4帮写)

FreeRTOS内核:详解队列管理FIFO 1. 背景2. Queue相关API2.1 xQueueCreate():创建2.2 xQueueSend():发送2.3 xQueueReceive():接收2.4 vQueueDelete():删除2.5 xQueuePeek() :不删除的方式从FIFO读数据&…

小程序技术给统一门户的建设带来新思路

统一门户的发展可以追溯到20世纪90年代初期,当时的企业和组织开始意识到信息技术可以用于整合和管理各种分散的应用程序和服务。随着互联网的普及和Web 2.0技术的兴起,统一门户的发展迅速加速。 在早期,统一门户主要采用定制化开发的方式实现…

Qt音视频开发45-音视频类结构体参数的设计

一、前言 视频监控内核组件重构和完善花了一年多时间,整个组件个人认为设计的最好的部分就是各种结构体参数的设计,而且分门别类,有枚举值,也有窗体相关的结构体参数,解码相关的结构体参数,同时将部分常用…

动态规划的学习

文章目录 动态规划的学习一、什么是动态规划?二、如何思考状态转移方程?三、动态规划的基本原理1.[509. 斐波那契数](https://leetcode.cn/problems/fibonacci-number/)1.1 暴力递归解法:1.1.1 递归算法的时间复杂度那为什么时间复杂度会这么…

vcruntime140.dll丢失的解决方法分享,多种修复方式

随着最新版本的Windows 10操作系统推出,个人电脑的性能和功能得到了巨大提升。然而,尽管Microsoft已经不断更新固件和驱动程序,但仍然存在一些常见问题,例如“ vcruntime140.dll丢失 ”错误。这个错误可能会导致某些应用程序无法正…

三流面试聊技术,二流面试聊框架,一流面试…

前言 本文是为了帮大家快速回顾了软件测试中知识点,这套面试手册涵盖了诸多软件测试技术栈的面试题和答案,相信可以帮助大家在最短的时间内用作面试复习,能达到事半功倍效果。 本来想将文件上传到github上,但由于文件太大有的都…

模板学堂|BI大屏制作十大高频问题的解决技巧

DataEase开源数据可视化分析平台于2022年6月正式发布模板市场(https://dataease.io/templates/)。模板市场旨在为DataEase用户提供专业、美观、拿来即用的仪表板模板,方便用户根据自身的业务需求和使用场景选择对应的仪表板模板,并…

4.3 线性表之链表

目录 链表的存储结构 链表的结构 链表的相关运算 链表的存储结构 将线性表L(a0,a1,……,an-1)中各元素分布在存储器的不同存储块,称为结点,通过地址或指针建立元素之间的联系 结点的data域存放数据元素ai,而next域是一个指针&#xff…

Android Framework开发的前景如何?

Android Framework是Android操作系统中的重要组成部分,它提供了一系列的API(应用程序接口)和服务,方便开发人员创建Android应用程序。随着Android设备的普及和移动互联网市场的快速发展,Android Framework开发有着广泛…

我怎样一步一步引导ChatGPT写完一篇本科毕业论文

先了解毕业论文相关专家 给ChatGPT指定一个角色 我给ChatGPT指定一个学术导师角色,好家伙,给我谦虚起来了 好,换个方式,他开始听话了 了解论文格式 计算机科学与技术专业论文一般有哪些部分组成 选题 了解方向 请先告诉我计算…

(一)空间数据的转换与处理——投影变换

空间数据的转换与处理——投影变换 原始数据往往由于在数据结构、数据组织、数据表达等方面与用户需求不一致而要进行转换与处理。本节主要介绍 ArGIS 中数据的投影变换内容。 目录 空间数据的转换与处理——投影变换 1.概述2.定义投影3.投影变换3.1栅格数据的投影变换3.2矢量…

私人图床 - 本地快速搭建简单的EasyImage图床并实现公网远程访问

文章目录 1.前言2. EasyImage网站搭建2.1. EasyImage下载和安装2.2. EasyImage网页测试2.3.cpolar的安装和注册 3.本地网页发布3.1.Cpolar云端设置3.2 Cpolar内网穿透本地设置 4. 公网访问测试5. 结语 1.前言 一个好的图床,是网站或者文章图片能稳定显示的关键&…

pytest分布式执行(pytest-xdist)

前言 平常我们手工测试用例非常多时,比如有1千条用例,假设每个用例执行需要1分钟。如果一个测试人员执行需要1000分钟才能执行完,当项目非常紧急的时候, 我们会用测试人力成本换取时间成本,这个时候多找个小伙伴把任务…

加密与解密

加密与解密 加密方式分类 加密方式主要分为两种 一种是对称加密一种是非对称加密 对称加密 对称和非对称两种方式主要说的是加密和解密两个过程。 如果对数据用一个钥匙进行了加密,那么, 你想成功读取到这个加密了的数据的话,就必须对这…

任务提醒工具:Gestimer for Mac

Gestimer for Mac是一款运行在mac平台上的任务提醒工具,可以帮助用户快速地创建提醒事项,提醒用户完成重要的任务。它采用了简单的手势操作,让用户可以更加快速地创建和管理提醒事项,提高了工作效率。 Gestimer是一款美丽的菜单栏…

Win10下Docker Desktop+k8s安装

一、安装docker 安装好了docker环境,必须是desktop 版本,本例子就是以docker decktop版本为基本讲解的 具体docker的安装方法如下 进入 https://www.docker.com/get-started 点击下载就是 双击“Docker Desktop Installer.exe”安装docker desktop&a…

什么是UN38.3/UN38.3/MSDS+货物运输鉴定报告是什么?怎么做?

一:什么是UN38.3? UN38.3是指在联合国针对危险品运输专门制定的《联合国危险物品运输试验和标准手册》的第3部分38.3款,简称UN38.3。 据国际航协《危险物品规则》的相关规定,对适用于包括但不限于单独或与设备一起运输的属可充电型锂电池的手…

JS逆向 -- 某房登录加密分析

一、输入账号密码,点击登录 账号:15836353612 密码:123456 二、F12打开开发者工具,抓包分析,j_password被加密了 三、全局搜索j_password,发现就一个JS文件 四、进入JS文件,局部搜索&#xff0…

励志长篇小说《周兴和》书连载之一地窖出生的孩子

第一章 苦 难 岁 月 人,离开母体一来到这个陌生的世界,或许由于胆怯,或许由于惶恐,或许由于焦虑,面对即将走过的人生,无一例外地都是嗷嗷大哭。人生美好,但人生无常。无论帝王或是庶民&#x…