大数据:数据表操作,分区表,分桶表,修改表,array,map, struct

news2024/11/18 1:38:54

大数据:数据表操作,分区表

2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开
测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库
这oracle比sql安全,强大多了,所以你需要学习,最重要的,你要是考网络警察公务员,这玩意你不会就别去报名了,耽误时间!
与此同时,既然要考网警之数据分析应用岗,那必然要考数据挖掘基础知识,今天开始咱们就对数据挖掘方面的东西好生讲讲 最最最重要的就是大数据,什么行测和面试都是小问题,最难最最重要的就是大数据技术相关的知识笔试


文章目录

  • 大数据:数据表操作,分区表
    • @[TOC](文章目录)
  • 大数据:分区表
  • 分桶表
  • 修改表
  • 复杂操作array类型
  • map数据类型
  • struct数据类型
  • hive反正就是基于MapReduce的sql框架,它能写sql又能做分布式计算,这些知识好好复习,对于未来考网络警察很有帮助的。
  • 总结

大数据:分区表

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
物理上就是文件夹分开
美滋滋

在这里插入图片描述
在这里插入图片描述
语法是

partitioned by(字段,列类型)

在这里插入图片描述
在这里插入图片描述
注入数据是放5月的那个分区
这样的话,相当于指定了一个字段属性

在这里插入图片描述
分区就会继续构建子文件夹
美滋滋

在这里插入图片描述

多级分区
在这里插入图片描述
相当于仨文件目录
注入数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
缩小查询范围
过滤条件,跟sql很类似

分桶表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
分桶是为了负载均衡

文件的数量固定

在这里插入图片描述
目的是负载均衡

在这里插入图片描述
reduce的数量和分桶一样
估计就是为了方便计算通道匹配

clustered by(字段) into k buckets

关键字

分桶,利用哪个字段来分桶
哈希值随机分桶,牛逼的

算法里面学过的

在这里插入图片描述
在这里插入图片描述
load中转
做一个表,不能从数据直接干到分桶表中
在这里插入图片描述
在这里插入图片描述
分桶
建表是clustered by
导入数据是cluster

没有ed

在这里插入图片描述
看看hdfs
在这里插入图片描述
指定了分桶的数量是3
按照cid这个字段来分桶
分桶原理就是哈希表映射

cid哈希值%3
就行了
在这里插入图片描述
在这里插入图片描述
数据需要一分为三
你不能直接干进去
还需要计算去向

在这里插入图片描述
只要计算,就必须要过MapReduce
于是load data干不了,它不会触发的
在这里插入图片描述
在这里插入图片描述
所以每个桶,不见得里面的东西是一样的
在这里插入图片描述
在这里插入图片描述
分桶的目的就是确定某些数据,一定在同一个桶中
不必去找别的桶
懂吗

在这里插入图片描述
对应join,合并即可

在这里插入图片描述
自然成组

在这里插入图片描述

修改表

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
修改表名
在这里插入图片描述
在这里插入图片描述
修改表的属性,内部表,外部表
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
添加文件夹
修改文件夹名字
删除文件夹
分区就是文件夹分级

在这里插入图片描述
没必要搞分区
不要操作分区的骚操作

在这里插入图片描述
加列

在这里插入图片描述

复杂操作array类型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
数组内部是逗号分割

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
统计数组个数
不管python,java,c++,还是sql,hive,都类似的,核心思想不变的
在这里插入图片描述

map数据类型

在这里插入图片描述
在这里插入图片描述
集合项目之间以#分隔
map键值对通过:分隔
好说
在这里插入图片描述
map类型,这个比sql牛逼啊

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
python中的字典
就是kv键值对

好说

在这里插入图片描述

struct数据类型

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
结构体,c中的
在这里插入图片描述

hive反正就是基于MapReduce的sql框架,它能写sql又能做分布式计算,这些知识好好复习,对于未来考网络警察很有帮助的。


总结

提示:重要经验:

1)
2)学好oracle,即使经济寒冬,整个测开offer绝对不是问题!同时也是你考公网络警察的必经之路。
3)笔试求AC,可以不考虑空间复杂度,但是面试既要考虑时间复杂度最优,也要考虑空间复杂度最优。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/604560.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【能量算子】评估 EEG 中的瞬时能量:非负、频率加权能量算子(PythonMatlab代码实现)

💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,逻辑清晰,为了方便读者。 ⛳️座右铭&a…

五种方法提升Midjourney的出图品质

本文基于B站UP主琥珀川Eric的《五种方法提升Midjourney出图品质》制作在此感谢大神的分享。 本文全面介绍以上五种提升Midjourney出图品质的方法,简单实用,马上就可以用上。Lets go!!! 方法一 使用相机参数创建逼真的图…

windows系统编译的Qt程序转到国产化麒麟linux中编译

团队自研股票软件,关威信共总号:QStockView,下载 1.1 windows系统编译的Qt程序转到国产化麒麟linux中编译 (1)把Vs工程项目文件导入到Linux中 首先把vs的工程拷贝到linux里面(可以用虚拟机的共享文件夹…

适配器模式的学习与使用

1、适配器模式的学习 当我们需要将一个类的接口转换成另一个客户端所期望的接口时,适配器模式(Adapter Pattern)可以派上用场。它允许不兼容的接口之间能够协同工作。   适配器模式属于结构型设计模式,它包含以下几个角色&#…

2、数据库:SQL Server部署 - 系统部署系列文章

对于微软的SQL Server的安装,以前已经有写过了,到了2022版本,安装没多大的改变,很多只需要少配置,然后直接下一步即可。现在是2023年了,SQL Server已经出到了2022版本,这篇博文就再次对SQL Serv…

chatgpt赋能python:Python列表按长度排序的方法

Python列表按长度排序的方法 在Python编程中,列表是最常用的数据结构之一。列表是一种可变的有序序列,可以包含任意类型的对象。有时候,我们需要对列表按照元素的长度进行排序。本文将介绍Python中列表按长度排序的两种方法。 方法一&#…

pytorch实战 -- 神经网络

softmax的基本概念 交叉熵损失函数 模型训练和预测 在训练好softmax回归模型后,给定任一样本特征,就可以预测每个输出类别的概率。通常,我们把预测概率最大的类别作为输出类别。如果它与真实类别(标签)一致&#xff0…

chatgpt赋能python:Python列表排序详解:从基础排序到高级算法

Python 列表排序详解:从基础排序到高级算法 在 Python 编程中,列表是常用的数据类型。列表的排序是其中重要的操作之一。Python 提供了多种方法来对列表进行排序,从简单的基础排序到高级的算法排序。在这篇文章中,我们将详细介绍…

找到 FSM 的区别序列、UIO 或特征集(W方法)

找到 FSM 的区别序列、UIO 或特征集(W方法) 1 简介 许多系统都是基于状态的:它们有一个更新的内部状态通过操作并影响行为。 在测试这样一个系统时,一个需要考虑状态。 这导致了一系列的语言,用于描述基于状态的规范和模型,这些可…

并发编程-系统学习篇

并发编程的掌握过程并不容易。 我相信为了解决这个问题,你也听别人总结过:并发编程的第 一原则, 那就是不要写并发程序 这个原则在我刚毕业的那几年曾经是行得通的,那个时候多核服务器还是一种奢侈品,系统的并发量也很…

沙盒不再高端,Windows11将自带沙盒让程序检测更方便

Windows 沙盒提供了轻型桌面环境,可以安全地在隔离状态下运行应用程序。 安装在 Windows 沙盒环境下的软件保持“沙盒”状态,并且与主机分开运行。 沙盒是临时的。 当关闭沙盒后,系统将删除所有软件和文件以及状态。 每次使用时,…

AWK常用用法

awk简介 awk其名称得自于它的创始人 Alfred Aho 、Peter Weinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言: AWK 程序设计语言 , 三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序,…

解决一个典型的商业案例研究任务

介绍 印尼的一家公司 Gojek 通过移动应用程序提供运输和物流、食品和购物、支付、日常需求、商业、新闻和娱乐等服务,对经济做出了超过70亿美元的贡献。 它拥有 90 万注册商户、超过 1.9 亿次应用下载以及超过 200 万名司机能够在120分钟内完成超过18万个订单。我们…

chatgpt赋能python:Python创建界面的重要性及实现方法

Python创建界面的重要性及实现方法 作为一名有10年Python编程经验的工程师,我深知Python在Web开发、数据分析和人工智能等方面的强大表现。然而,Python对于前端的支持一直是一个不被关注的领域。 随着网站、移动应用和电脑软件的普及,用户对…

Find My产品|Targus推出最新支持苹果Find My双肩包

Targus宣布推出 Cypress Hero Backpack 双肩包,最大的亮点在于支持苹果“Find My”,在丢失后可定位追踪。 Targus这款双肩包采用了环保材料,可以妥善地保护笔记本电脑,并提供丰富的收纳袋存放各种配件和物品。这款双肩包内置带衬…

Unity Addressables学习笔记(3)---加载远程场景Scenes

前言 Unity Addressables学习笔记—汇总 正文 1.创建一个新场景 我是创建在Resources/Scenes目录下,如图: 2.为场景创建一个Addressables的Group Game1Group就是我新创建的一个Group用来存放场景1的所有资源,分组的配置跟Remote一样&a…

vue 读取本地文件

1. vue读取本地文件 2.在文件夹下添加一个类 3.读取本地文件,先读取文件的内容 4.在 body下添加一个属性 5.读取后,写到 setTimeout方法中,返回一个错误信息。 6. restart方法,在组件渲染时调用 7. return setTimeout &#xff08…

使用Redis的zset集合实现小程序的滚动分页

一、 Redis中,使用有序集合(sorted set)实现滚动分页的原理如下: 将每个文档的 score 值设置为时间戳(或根据其他规则计算的分数),将文档的 ID 作为 value,然后将其添加到有序集合中…

delphi 开发虚拟摄像头

用directshow创建一个虚拟摄像头 然后注册到系统, 在用一个main app 调用摄像头,往里面写流, 可以是屏幕录制,可以是播放的多媒体文件 然后具体是要实现录屏,或者播放多媒体文件,在虚拟摄像头插件中fil…

Godot 4 源码分析 - 初探

准备研究GoDot 4源码。 源码下载 获取源代码 在进入 SCons 构建系统并编译 Godot 之前,你需要将 Godot 的源代码下载到本地。 源代码位于 GitHub 上, 虽然你可以通过网站手动下载它, 但是通常你希望通过 git 版本控制系统来下载. 如果你是为了做贡献或拉动请求…