Hive 查询各类型专利 top10 申请人及专利申请数

news2024/11/7 22:03:16

Hive 查询各类型专利 top10 申请人及专利申请数

一、背景

在专利数据处理中,我们常常需要分析不同类型专利下申请人的活跃度。例如,给定一个专利明细表 t_patent_detail,其中包含专利号、专利名称、专利类型、申请时间、授权时间和申请人等信息,且一个专利可能有多个申请人(以分号隔开)。我们的目标是找出各类型专利 top10 申请人以及他们对应的专利申请数。

二、数据结构

我们的数据存储在名为 t_patent_detail 的表中,其表结构如下:

  • 专利号(patent_id):每个专利的唯一标识符。
  • 专利名称(patent_name):专利的名称,描述专利的内容。
  • 专利类型(patent_type):例如发明创造、实用新型等不同类型的专利分类。
  • 申请时间(aplly_date):专利申请的日期。
  • 授权时间(authorize_date):专利获得授权的日期。
  • 申请人(apply_users):一个或多个申请人的名称,多人之间以分号分隔。

以下是一些示例数据:

patent_idpatent_namepatent_typeaplly_dateauthorize_dateapply_users
CN201821413799.7一种用于合金板棒材的往复式感应加热设备发明创造2018/8/302019/8/9朱春野
CN201911153500.8转化 DNA 回收率的检测方法及引物发明创造2019/11/222020/1/10陶启长;韦东
CN202011144174.7一种经修饰荧光探针及其应用发明创造2020/10/232020/11/20陶启长;韦东;余明伟
CN201920792416.X适用于中型桌面仪器的隔离装置实用新型2019/5/292020/4/17许亦琳;余明伟;杨华
CN201920973176.3一种高性价离心管冻存盒实用新型2019/6/262020/4/17许亦琳;余明伟;邬剑星;王敏生

三、查询思路

  1. 第一步:处理申请人字段
    由于每个专利可能有多个申请人,我们需要将申请人字段“炸裂”(使用 Hive 的 explode 函数),将每个申请人拆分成单独的行。这里使用 split 函数将以分号分隔的申请人字符串拆分成数组,然后使用 explode 函数将数组中的每个元素(即每个申请人)展开。
  2. 第二步:分组统计
    对处理后的申请人进行分组,并使用 count(*) 函数统计每个申请人的专利申请数。同时,使用 rank() 函数按照专利申请数进行排名,以便后续找出 top10 申请人。

四、Hive 查询语句解析

以下是实现上述功能的 Hive 查询语句:

--各类型专利 top10 申请人,以及对应的专利申请数
select t1.apply_name `申请人`,count(*) `专利申请数`,rank() over(order by
count(*) desc) `专利数排名`
from (
    --先将申请人字段炸裂
    select d.*, t1.coll `apply_name`
    from t_patent_detail d
    lateral view explode(split(apply_users,';')) t1 as coll
) t1
group by t1.apply_name; --按照申请人分组
  • 在子查询中:
    • from t_patent_detail d 从专利明细表开始查询。
    • lateral view explode(split(apply_users,';')) t1 as coll 这部分是关键。首先,split(apply_users,';')apply_users 字段(申请人字段)按照分号进行拆分,得到一个申请人名称的数组。然后,explode 函数将这个数组展开,每个元素(申请人名称)成为单独的一行。t1 是一个临时表别名,coll 是展开后的申请人名称列的别名。d.* 表示选择原始表中的所有其他列。
  • 在外部查询中:
    • group by t1.apply_name 按照申请人名称进行分组。
    • count(*) 统计每个申请人的专利申请数。
    • rank() over(order by count(*) desc) 使用 rank 函数按照专利申请数降序排名,这里虽然没有筛选 top10 的步骤,但可以根据这个排名在后续进一步处理得到 top10 的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2235315.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

unity3d————四元数概念

一、定义与表示 四元数是由一个实数部分和三个虚数部分组成,通常表示为q w xi yj zk,其中w是实数,x、y、z是实数系数,i、j、k是虚数单位,满足以下关系: i j k -1ij k,ji -kjk i&…

大数据分库分表方案

分库分表介绍 分库分表应用场景 分库分表介绍 大数据分库分表是一种数据库架构技术,旨在应对大数据量场景下的数据库性能瓶颈。以下是对大数据分库分表的详细解释: 一、定义与背景 定义: 分库:将一个大型数据库按照一定的规则…

可重入函数 volatile SIGCHLD

目录 1. 可重入函数2. volatile3. SIGCHLD 信号 1. 可重入函数 场景:当我们在全局区定义一个链表(不带头结点),然后对链表做头插结点的操作,即插入 node1 结点(如上图所示)。在插入 node1 时需要…

『VUE』20. 组件嵌套关系page(详细图文注释)

目录 VUE的自带组件结构新建文件搭建结构app与Main Header Aside结构App.vueHeader.vueMain.vueAside.vue Main 与Article.Aside与Item结构Article.vueItem.vue 总结 欢迎关注 『VUE』 专栏,持续更新中 欢迎关注 『VUE』 专栏,持续更新中 因为前面已经有…

【Hive sql面试题】找出连续活跃3天及以上的用户

表数据如下: 要求:求出连续活跃三天及以上的用户 建表语句和插入数据如下: create table t_useractive(uid string,dt string );insert into t_useractive values(A,2023-10-01 10:10:20),(A,2023-10-02 10:10:20),(A,2023-10-03 10:16…

【英特尔IA-32架构软件开发者开发手册第3卷:系统编程指南】2001年版翻译,2-16

文件下载与邀请翻译者 学习英特尔开发手册,最好手里这个手册文件。原版是PDF文件。点击下方链接了解下载方法。 讲解下载英特尔开发手册的文章 翻译英特尔开发手册,会是一件耗时费力的工作。如果有愿意和我一起来做这件事的,那么&#xff…

Vulnhub靶机——DC-3

#环境准备 dc-3 虚拟机:网卡NAT模式 kali攻击机:网卡NAT模式 #信息收集 nmap轻车熟路扫一下dc3的地址,识别出joomla系统 面向百度渗透,得知有一个joomla的扫描器,直接安排上,这下有版本号和后台登录地址…

数据结构:七种排序及总结

文章目录 排序一插入排序1直接插入排序2希尔排序二选择排序3直接选择排序4堆排序三 交换排序5冒泡排序6快速排序四 归并排序7归并排序源码 排序 我们数据结构常见的排序有四大种,四大种又分为七小种,如图所示 排序:所谓排序,就是…

基于STM32H7XX的Bootloader启动与FOTA

1. Bootloader是如何工作的: 2.正常情况下,程序从flash启动时的启动流程,如下图所示: 首先程序从flash启动,根据中断向量表找到复位中断处理函数的地址(0x0800 0004处是中断向量表的起始地址,记录了复位中断处理函数的地址)。执行复位中断处理函数,初始化系统环境之后…

语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨RTE2024 音频技术和 Voice AI 专场

在人工智能快速发展的今天,语音交互技术正经历一场革命性的变革。从语音识别到语音合成,再到端到端的语音对话系统,这一领域的创新正以前所未有的速度推进。这些进步不仅提升了技术指标,更为实时翻译、虚拟数字人、智能客服等实时…

【自学笔记】神经网络(1)

文章目录 介绍模型结构层(Layer)神经元 前向传播反向传播Q1: 为什么要用向量Q2: 不用激活函数会发生什么 介绍 我们已经学习了简单的分类任务和回归任务,也认识了逻辑回归和正则化等技巧,已经可以搭建一个简单的神经网络模型了。 …

在内蒙考驾照需要注意什么呢?

一、报名条件 年满18周岁,具有完全民事行为能力的中国公民。持有有效的身份证明文件。身体健康,无妨碍驾驶机动车的疾病,并需要通过体检。 二、选择驾校 可以先向身边已经拿到驾照的朋友咨询,了解驾校的距离、位置、口碑等信息。…

C++builder中的人工智能(8)什么是神经网络中的恒等激活函数?

在这篇文章中,我们将回答以下问题: 你想了解神经网络中最简单的激活函数是什么吗?什么是恒等函数?作为AI术语,我们需要了解激活函数和转移函数的哪些知识?激活函数与净输入函数是一回事吗?是否…

django图书管理系统-计算机毕业设计源码00648

摘要 图书管理系统在数字化阅读趋势、图书馆自动化管理、用户体验需求和信息技术应用等方面具有重要的研究意义。图书馆自动化管理系统的引入和应用提高了图书借阅过程的效率和准确性,减少了对手工操作和纸质记录的需求。用户对系统的易用性、查询速度、借还流程有更…

文件系统和日志管理

文件系统 文件系统: 文件系统提供了一个接口,用户用来访问硬件设备硬件设备上对文件的管理 存储单位 文件存储在硬盘上,硬盘最小的存储单位是512字节 扇区,文件在硬盘上的最小存储单位:块block,一个块的…

【代码转换】如何用 GPT 将 Python2代码 转换为 Python3代码 :实战教程

文章目录 1. 为什么要将 Python 2 代码迁移到 Python 3?2. 使用 ChatGPT 进行代码转换的步骤步骤1:打开CodeMoss步骤2:在输入框输入符号,选择代码转换步骤3:在这里选择你要更改的具体代码步骤4:准备 Python…

「Mac畅玩鸿蒙与硬件27」UI互动应用篇4 - 猫与灯的互动应用

本篇将带领你实现一个趣味十足的互动应用,用户点击按钮时猫会在一排灯之间移动,猫所在的位置灯会亮起(on),其余灯会熄灭(off)。应用会根据用户的操作动态更新灯光状态和文本提示当前亮灯的位置&…

ES海量数据插入如何优化性能?

2024年10月NJSD技术盛典暨第十届NJSD软件开发者大会、第八届IAS互联网架构大会在南京召开。百度文心快码总经理臧志分享了《AI原生研发新范式的实践与思考》,探讨了大模型赋能下的研发变革及如何在公司和行业中落地,AI原生研发新范式的内涵和推动经验。 …

OTFS基带通信系统(脉冲导频,信道估计,MP解调算法)

Embedded Pilot-Aided Channel Estimation for OTFS in Delay–Doppler Channels | IEEE Journals & Magazine | IEEE Xplore 一、OTFS通信系统 如下图简要概括了OTFS基带通信系统过程,废话不多说给出完整系统详细代码。 以下仿真结果基于四抽头信道 估计信道…

理解Web登录机制:会话管理与跟踪技术解析(二)-JWT令牌

JWT令牌是一种用于安全地在各方之间传递信息的开放标准,它不仅能够验证用户的身份,还可以安全地传递有用的信息。由于其结构简单且基于JSON,JWT可以在不同的系统、平台和语言间无缝传递,成为现代Web开发中不可或缺的一部分。 文章…