【hive】HiveSQL中两个json解析函数的使用json路径定位小工具

news2024/11/15 6:44:47

文章目录

  • 1.HiveSQL中两个json解析函数
    • 1)get_json_object
    • 2)json_tuple
  • 2.json中key所在层级路径定位小工具

关于json: https://blog.csdn.net/atwdy/article/details/124668815

1.HiveSQL中两个json解析函数

1)get_json_object

文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-get_json_object,该函数可以按照层级关系解析出任意层级的key,指定的key不存在时返回null,开发中注意对null值的处理。既可以处理json对象也可以解析json数组。 参数中相关符号的含义如下:
$:代表json的根对象,即传入的json本身。(对象{ },或对象数组[{ }, { }, …])
.:父子层级关系
[]:用于指定对象数组中要解析对象的下标,起始0
*:通配符,用在[]中,表示取[]中所有对象。(通配符个人认为适用的场景为取同一层级所有对象的某个属性时,如果是取所有对象本身,那么直接不加[]也是一样的效果)

demo

-- 测试json
create temporary view test as
select 
'[
    {
		"name": "张三",
		"age": 20,
		"sport": ["篮球", "乒乓球"]
	},
	{
		"name": "李四",
		"age": 20,
		"sport": ["足球", "羽毛球"]
	}
]' as json_str;

-- 取根对象,也就是传入的json本身
-- [{"name":"张三","age":20,"sport":["篮球","乒乓球"]},{"name":"李四","age":20,"sport":["足球","羽毛球"]}]
select get_json_object(json_str, '$') from test;

-- 取根对象数组中的第一个对象:张三
-- {"name":"张三","age":20,"sport":["篮球","乒乓球"]}
select get_json_object(json_str, '$[0]') from test;

-- 取根数组中所有对象的年龄,返回值为数组形式的字符串,不去重,忽略null值
-- [20,20]
select get_json_object(json_str, '$[*].age') from test;

2)json_tuple

文档:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-json_tuple,该函数适用于对传入的json对象一次性解析多个key的场景,如果用get_json_object需要解析多次,该函数只需要解析一次。传入的key不存在时同样返回null。只能提取json根对象的属性key,不能用于提取嵌套json对象的属性或跨多个层级的属性。且只能解析json对象不能解析json数组。

和get_json_object不同的是,get_json_object是一个普通的UDF函数,返回的是一个值。而json_tuple是一个UDTF函数,返回的是一个表,所以开发中为了关联原表相关信息该函数一般需要和lateral view侧视图
https://blog.csdn.net/atwdy/article/details/137614216连用。

demo

-- 测试json
create temporary view test as
select '1' as id, '{"name": "张三", "age": 20, "sport": ["篮球", "乒乓球"]}' as info
union all
select '2' as id, '{"name": "李四", "age": 20, "sport": ["足球", "羽毛球"]}' as info;

select * from test;

在这里插入图片描述

select json_tuple(info, 'name', 'age', 'sport') from test;

在这里插入图片描述

lateral view 关联原表信息:

select 
    t1.id,
    t2.*
from test t1 
lateral view json_tuple(info, 'name', 'age', 'sport') t2 as name, age, sport;

在这里插入图片描述

官网中只说了需要通过lateral view关联原表信息,但实际测试中发现select id, json_tuple(info, 'name', 'age', 'sport') as (name, age, sport) from test;这种语法格式也能输出上图结果。虽然逻辑上理解并不矛盾,尽管该UDTF返回的是个表,但一行输入只会对应一行输出,只是输出的字段可能是多个,并不像explode那样返回的是多行。所以不会出现一行输入对应多行输出的情况。但官方文档中没有提到这种语法,为了准确还是按照侧视图实现比较稳妥。

2.json中key所在层级路径定位小工具

对于一个复杂的json串,解析某个key时人工查找该key所在路径效率低也容易出错,下面代码可以快速找到指定key第一次出现时所在的层级路径:

#!/usr/bin/env python3
# -*-coding:utf-8 -*-
"""
@desc: 查找json中key第一次出现时的所在层级路径,key不存在返回None
@time: 2024/8/4 01:52
"""

import json


def find_path(json_obj, key, path=None):
    if path is None:
        path = []

    if isinstance(json_obj, dict):
        if key in json_obj:
            return path + [key]
        for k, v in json_obj.items():
            p = find_path(v, key, path + [k])
            if p is not None:
                return p
    elif isinstance(json_obj, list):
        for i, v in enumerate(json_obj):
            p = find_path(v, key, path + [str(i)])
            if p is not None:
                return p
    return None


if __name__ == '__main__':
    json_file = r'./data.json'
    with open(json_file, 'r', encoding='utf8') as fin:
        json_obj = json.load(fin)
        path = find_path(json_obj, key='broadcast_desc')
        print(path)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1977181.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

使用 Squid 搭建 Http 代理服务器隐藏 IP

在一些情况下,需要变更自己的访问 IP,可以通过 Squid 搭建代理服务器实现。 本文使用的是 CentOS 7.6 系统。 一、部署 Squid 安装 Squid。 yum install squid -y启动服 systemctl start squid二、访问控制 总有刁民想害郑,疯狂访问朕的…

C++ 最小生成树 洛谷

介绍: 最小生成树是个啥?其实就像杨志一行人押送生辰纲。抛开最后生辰纲被抢的结局不谈,杨志他们需要到好几个地方,每个地方都需要花点过路费给梁山好汉们打点。比如下面就是一张城市地图: 其中每两个图之间的路径长就…

【保姆级系列:锐捷模拟器的下载安装使用全套教程】

保姆级系列:锐捷模拟器的下载安装使用全套教程 1.介绍2.下载3.安装4.实践教程5.验证 1.介绍 锐捷目前可以通过EVE-NG来模拟自己家的路由器,交换机,防火墙。实现方式是把自己家的镜像导入到EVE-ng里面来运行。下面主要就是介绍如何下载镜像和…

【Unity】3D功能开发入门系列(三)

Unity3D功能开发入门系列(三) 一、运动脚本(一)物体的运动(二)相对运动(三)运动的方向 二、旋转脚本(一)物体的旋转(二)相对旋转&…

图像相关的基础知识【RGB和RGBA】—附python代码实现

文章目录 1、图像基础知识2、像素和通道的理解3、RGB和RGBARGB (Red, Green, Blue)RGBA (Red, Green, Blue, Alpha)应用场景 4、H,W,C5、小结 🍃作者介绍:双非本科大三网络工程专业在读,阿里云专家博主,专注于Java领域学习&#x…

aurora8b10b ip的使用(framing接口下的数据回环测试)

文章目录 一、Aurora8B/10B协议二、时钟、复位与状态指示1、时钟2、复位3、状态指示 三、数据发送、接受接口(1)AXI4-Stream位排序(2)Streaming接口(3)Framing接口(帧传输接口) 四、…

C++ | Leetcode C++题解之第319题灯泡开关

题目: 题解: class Solution { public:int bulbSwitch(int n) {return sqrt(n 0.5);} };

Python | Leetcode Python题解之第318题最大单词长度乘积

题目&#xff1a; 题解&#xff1a; class Solution:def maxProduct(self, words: List[str]) -> int:masks defaultdict(int)for word in words:mask reduce(lambda a, b: a | (1 << (ord(b) - ord(a))), word, 0)masks[mask] max(masks[mask], len(word))return…

索引:SpringCloudAlibaba分布式组件全部框架笔记

索引&#xff1a;SpringCloudAlibaba分布式组件全部框架笔记 一推荐一套分布式微服务的版本管理父工程pom模板&#xff1a;Springcloud、SpringCloudAlibaba、Springboot二SpringBoot、SpringCloud、SpringCloudAlibaba等各种组件的版本匹配图&#xff1a;三SpringBoot 3.x.x版…

字符串相关函数

文章目录 &#x1f34a;自我介绍&#x1f34a;strcpy 字符串拷贝函数&#x1f34a;strcat 字符串连接函数&#x1f34a;strlen 字符串长度计算函数&#x1f34a;strcmp 字符串比较函数 你的点赞评论就是对博主最大的鼓励 当然喜欢的小伙伴可以&#xff1a;点赞关注评论收藏&…

C++ | Leetcode C++题解之第318题最大单词长度乘积

题目&#xff1a; 题解&#xff1a; class Solution { public:int maxProduct(vector<string>& words) {unordered_map<int,int> map;int length words.size();for (int i 0; i < length; i) {int mask 0;string word words[i];int wordLength word.s…

[Git][基本操作]详细讲解

目录 1.创建本地仓库2.配置 Git3.添加文件1.添加文件2.提交文件3.其他 && 说明 4.删除文件5.跟踪修改文件6.版本回退7.撤销修改0.前言1.未add2.已add&#xff0c;未commit3.已add&#xff0c;已commit 1.创建本地仓库 创建⼀个Git本地仓库&#xff1a;git init运行该命…

模型 ESBI(财富四象限)

系列文章 分享 模型&#xff0c;了解更多&#x1f449; 模型_思维模型目录。财富自由之路的4个阶段。 1 ESBI模型的应用 1.1 一名工程师的财富自由之路 有一个名叫张伟的软件工程师&#xff0c;他在一家大型科技公司工作&#xff08;E象限&#xff09;。随着时间的推移&#…

模型量化技术综述:揭示大型语言模型压缩的前沿技术

大型语言模型&#xff08;LLMs&#xff09;通常因为体积过大而无法在消费级硬件上运行。这些模型可能包含数十亿个参数&#xff0c;通常需要配备大量显存的GPU来加速推理过程。 因此越来越多的研究致力于通过改进训练、使用适配器等方法来缩小这些模型的体积。在这一领域中&am…

electron-updater实现electron全量更新和增量更新——渲染进程交互部分

同学们可以私信我加入学习群&#xff01; 正文开始 前言更新功能所有文章汇总一、监听页面渲染完毕1.1 myApi.handleCheckPcUpdate检查更新1.2myApi.onPcUpdateProgress接收下载信息1.3myApi.onPcDownloaded监听下载完毕事件 二、立即更新三、跳过更新四、打开更新模块总结 前言…

打卡第32天------动态规划

坚持了一个月了,骑马找马,要坚持不懈呀✊ 一、动态规划理论基础 1、什么是动态规划?英文:Dynamic Programming,简称DP。 如果某一问题有很多重叠子问题,使用动态规划是最有效的。 所以动态规划中每一个状态一定是由上一个状态推导出来的,这一点就区分于贪心,贪心没有…

JVM—虚拟机类加载时机与过程

参考资料&#xff1a;深入理解Java虚拟机&#xff1a;JVM高级特性与最佳实践&#xff08;第3版&#xff09;周志明 1. 类加载的时机 一个类型从被加载到虚拟机内存开始&#xff0c;到卸载出内存为止&#xff0c;它的生命周期会经历加载、验证、准备、解析、初始化、使用、卸载…

netapp内网穿透

1. 注册netapp账号 NATAPP-内网穿透 基于ngrok的国内高速内网映射工具 2. 购买隧道&#xff0c;要求不高的话可以使用这个免费的 3.设置隧道 主要设置你想通过公网访问你的本地端口号 4.点击我的隧道&#xff0c;注意这里的authtoken&#xff0c;后面会用到 5.本地下载netap…

[E二叉树] lc572. 另一棵树的子树(dfs+前中序判断+树哈希+树上KMP+好题)

文章目录 1. 题目来源2. 题目解析 1. 题目来源 链接&#xff1a;572. 另一棵树的子树 2. 题目解析 看到这个题目就感觉不简单&#xff0c;因为写了写 dfs 版本的&#xff0c;发现好像不太会… 还是简单粗暴一点&#xff0c;直接搞一个 前序中序&#xff0c;进行判断即可。我…