Apache Pig

news2024/11/13 9:47:57

目录

  • 一、配置说明
    • 1.本地模式
    • 2.集群模式
  • 二、pig的数据模型
  • 三、pig的数据类型
  • 四、惰性执行
  • 五、pig的基本语法
    • 5.1语法说明
    • 5.2案例操作
  • 六、pig的自定义函数

一、配置说明

1.本地模式

操作的是Linux系统文件

pig -x local

关键日志
在这里插入图片描述
当前处于root目录下
在这里插入图片描述

2.集群模式

连接的是HDFS
相较于本地模式需要新增一个环境变量,指向HDFS目录

PIG_CLASSPATH=$HADOOP_HOME/etc/hadoop
export PIG_CLASSPATH

启动

pig

关键日志
在这里插入图片描述

二、pig的数据模型

在这里插入图片描述

三、pig的数据类型

在这里插入图片描述

四、惰性执行

含义

Pig采用了惰性执行(lazy evaluation)的策略。惰性执行意味着Pig会尽可能推迟实际的数据处理操作,直到它认为必须执行这些操作为止。

惰性执行的原因

Pig之所以采用惰性执行,主要是为了优化性能和提高效率。通过推迟不必要的操作,Pig可以减少数据的读取、写入和传输次数,从而节省时间和资源。

触发操作

存储操作:当你使用STORE语句将关系的数据存储到文件系统或其他存储系统时,Pig会触发实际的数据处理操作。
DUMP操作:当你使用DUMP语句时,Pig会输出关系中的数据到控制台或指定的输出文件,这也会触发实际的操作。
需要中间结果的操作:在某些情况下,Pig可能需要中间结果来执行后续的操作(比如连接、分组等),这时它也会触发必要的数据处理。
显式调用执行:在某些Pig实现或上下文中,你可能可以显式地调用执行操作(比如通过API调用),但这通常不是Pig脚本的常规用法。

五、pig的基本语法

5.1语法说明

Pig Latin关系操作
在这里插入图片描述
Pig Latin的诊断操作
在这里插入图片描述
Pig Latin UDF语句
在这里插入图片描述

5.2案例操作

DUMP输出关系中的所有数据

dump emp;

Pig会将emp关系中的所有数据输出到控制台或指定的输出文件中。通常,这对于小数据集来说是有用的,但是对于大数据集来说,可能会产生大量的输出

DESC显示关系的模式,包括字段名、数据类型和是否允许为null

desc emp;

emp: {ename: chararray, deptno: int, sal: float}
这里,ename、deptno 和 sal 是emp关系中的字段名,chararray、int 和 float 是它们对应的数据类型。

加载到表

emp = LOAD '/scott/emp.csv' USING PigStorage(',') AS (empno: int, ename: chararray, job: chararray, mgr: int, hiredate: chararray, sal: int, comm: int, deptno: int);

LOAD 是正确的关键字,用于加载数据。
‘/scott/emp.csv’ 是文件路径,指定了要加载的CSV文件的位置。
USING PigStorage(‘,’) 指定了使用 PigStorage 函数,并以逗号(,)作为字段分隔符。注意,逗号和括号之间应该有空格。
AS (empno: int, ename: chararray, job: chararray, mgr: int, hiredate: chararray, sal: int, comm: int, deptno: int) 定义了关系 emp 中的字段名称和数据类型。每个字段名称和数据类型之间用冒号(:)分隔,并且整个 AS 子句用括号包围。

遍历

emp3 = foreach emp generate empno, ename, sal;

遍历emp关系中的每一行,并生成一个新的关系emp3,其中包含empno、ename和sal三个字段。

排序
排序操作可能会消耗大量的计算资源,特别是当关系非常大时

emp4 = order emp by deptno, sal;

emp4 关系中的元组会首先根据 deptno 字段进行排序,然后在每个相同的 deptno 值内,根据 sal 字段进行排序。

emp4 = order emp by sal DESC;

这些元组会根据 sal 字段的值进行排序。
默认情况下,排序是升序的(从小到大),此处增加DESC为降序

分组及组内操作
1.分组

emp51 = group emp by deptno;

这回创建一个新的关系 emp51,其中包含根据 deptno 字段分组的元组。每个组由一个唯一的 deptno 值和该值对应的所有元组组成。在Pig中,分组后的结果通常是一个包含两个字段的关系:一个用于分组的字段(在这个例子中是 deptno),另一个是一个包(bag),包含该组中的所有原始元组。
在这里插入图片描述

2.组内操作——求部门最高工资

emp52 = foreach emp51 generate group as deptno, MAX(emp.sal) as max_sal;

foreach语句用于遍历emp51中的每个元组(在这里,每个元组代表一个部门及其员工数据)。
generate语句用于生成新的字段。在这里,group字段被重命名为deptno,并且使用MAX函数计算包(bag)中emp.sal字段的最大值,结果命名为max_sal。
emp_max_sal:包含字段deptno和max_sal的新关系。每个deptno值对应一个max_sal值,表示该部门的最高薪资。

查询

emp6 = filter emp by deptno==10;

filter 语句用于根据一个或多个条件筛选关系中的元组。此语句用于从 emp 关系中筛选出 deptno 字段等于 10 的所有元组,并将结果存储在新的关系 emp6 中。

多表查询
1.表格连接

emp71 = join dept by deptno,emp by deptno

join语句用于根据一个或多个公共字段将两个或多个关系(relations)合并在一起。此语句根据deptno字段将dept关系和emp关系进行连接,并将结果存储在新的关系emp71中。
连接的字段只要数据类型相同,内容相同(逻辑上正确),名称允许不一样
如:emp71 = join dept by deptno,emp by departmentID 都是部门号

2.内容查询

emp72= foreach emp71 generate dept::dname ,emp::ename ;

从emp71关系中生成一个新的关系emp72,其中包含dept关系中的dname字段(部门名称)和emp关系中的ename字段(员工名称)。
dept::dname:这表示从dept关系中选择dname字段。在emp71关系中,由于dept和emp已经被连接,所以dept的字段可以通过dept::前缀来访问。
emp::ename:这表示从emp关系中选择ename字段。同样地,在emp71关系中,emp的字段可以通过emp::前缀来访问。

集合运算

-- 过滤出部门编号为10的员工  
emp10 = filter emp by deptno == 10;  
  
-- 过滤出部门编号为20的员工  
emp20 = filter emp by deptno == 20;  
  
-- 将两个过滤后的关系进行联合  
emp10_20 = union emp10, emp20;

emp10 = filter emp by deptno 10;:这行代码从 emp 关系中过滤出部门编号为10的员工,并将结果存储在 emp10 关系中。 emp20 = filter emp by deptno 20;:这行代码从 emp 关系中过滤出部门编号为20的员工,并将结果存储在 emp20 关系中。
emp10_20 = union emp10, emp20;:这行代码将 emp10 和 emp20 两个关系进行联合,生成一个新的关系 emp10_20。这个新关系将包含所有部门编号为10和20的员工。

六、pig的自定义函数

一般而言,pig的函数分为4种类型

  • 过滤函数
  • 计算函数
  • 加载函数
  • 存储函数

过滤函数

import org.apache.pig.FilterFunc;  
import org.apache.pig.data.Tuple;  
import java.io.IOException;  
  
public class IsSalaryTooHigh extends FilterFunc {  
    @Override  
    public Boolean exec(Tuple tuple) throws IOException {  
        if (tuple == null || tuple.size() == 0) {  
            return false; // 如果tuple为空,返回false  
        }  
  
        // 获取当前员工的薪水,假设薪水字段为整数类型  
        Integer sal = (Integer) tuple.get(0); // 确保索引0对应的是薪水字段  
  
        // 判断薪水是否大于等于3000  
        return sal != null && sal >= 3000;  
    }  
}

继承自FilterFunc。FilterFunc是Apache Pig中的一个接口,用于定义过滤函数。
重写exec方法
Tuple
一个Tuple通常对应于表中的一行数据。一张表,它包含了多个Tuple,每个Tuple都代表了表中的一行。
Tuple中的索引通常是从0开始的,每个索引都对应了一个字段。
Tuple中的每个字段则对应了该行中的一个数据项。

计算函数

import org.apache.pig.EvalFunc;  
import org.apache.pig.data.Tuple;  
import java.io.IOException;  
  
public class CheckSalaryGrade extends EvalFunc<String> {  
    @Override  
    public String exec(Tuple tuple) throws IOException {  
        // 获取员工薪水,假设薪水在tuple的第一个位置  
        int sal = (Integer) tuple.get(0);  
          
        if (sal <= 1000) {  
            return "Grade A";  
        } else if (sal > 1000 && sal <= 3000) {  
            return "Grade B";  
        } else {  
            return "Grade C";  
        }  
    }  
}

继承自EvalFunc< String >。String表示经过运算返回的结果类型
重新exec方法

加载函数(不全)

public class MyLoadFunc extends LoadFunc {  
    @Override  
    public InputFormat getInputFormat() throws IOException {  
        // 返回自定义InputFormat类,或者使用Hadoop的默认输入格式,  
        // 返回相应的InputFormat类,比如TextInputFormat.class  
        return null; // 这里只是占位,实际实现中应该返回具体的InputFormat实例  
    }  
  
    @Override  
    public Tuple getNext() throws IOException {  
         // 从输入流中读取一行,并解析该行数据  
        if (reader != null) {  
            // 假设您的数据是文本格式,每行代表一个Tuple  
            // 这里只是示例,实际解析可能更复杂  
            LongWritable key = new LongWritable();  
            Text value = new Text();  
            boolean hasNext = reader.nextKeyValue();  
            if (hasNext) {  
                key = reader.getCurrentKey();  
                value = reader.getCurrentValue();  
                // 根据实际情况解析value,并创建Tuple  
                // 这里简单地将整行作为一个字符串返回  
                return TupleFactory.getInstance().newTuple(new Object[]{value.toString()});  
            }  
        }  
        return null; // 如果没有更多数据可读,返回null  
    }  
    }  
  
    @Override  
    public void prepareToRead(RecordReader reader, PigSplit split) throws IOException {  
        // 这个方法在你开始读取数据之前被调用,通常用于初始化一些状态或资源  
        // PigSplit对象包含了关于数据分割的信息,这可以帮助你确定要读取哪些数据  
    }  
  
    @Override  
    public void setLocation(String location, Job job) throws IOException {  
        // 这个方法用于设置输入数据的路径或位置  
        // 你可以在这里配置Job对象,以便它知道从哪里读取数据  
    }  
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2113186.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构之堆的创建

1、堆的概念及结构 1.1堆的概念 如果有一个关键码的集合K{k0,k1,k2,…,kn-1}&#xff0c;把它的所有元素按完全二叉树的顺序存储方式存储在一个一维数组中&#xff0c;并满足ki<k2i1且ki<k2i2&#xff08;或满足ki>k2i1且ki>k2i2&#xff09;&#xff0c;其中i0…

Windows环境下SD卡多分区 隐藏分区 解决python裸读写扇区失败

SD卡分区 右键“我的电脑”->“管理”->“磁盘管理”&#xff1b; 如果SD卡有文件系统&#xff0c;点击"删除卷"&#xff0c;重新做卡&#xff1b; 删除文件系统后如下图&#xff0c;点击“新建简单卷”&#xff1b; 在导航页“指定卷大小”&#xff0c;设置…

61.以太网数据回环实验(4)以太网数据收发器发送模块

&#xff08;1&#xff09;状态转移图&#xff1a; &#xff08;2&#xff09;IP数据包格式&#xff1a; &#xff08;3&#xff09;UDP数据包格式&#xff1a; &#xff08;4&#xff09;以太网发送模块代码&#xff1a; module udp_tx (input wire gmii_txc …

网络层_计算机网络

文章目录 网络层数据平面路由器工作原理网际协议&#xff08;*IP*&#xff09;IPv4IPv6DHCP NAT 控制平面路由选择算法因特网中自治系统内部的路由选择&#xff1a;OSPFISP 之间的路由选择&#xff1a;BGP ICMPSNMP 网络层 尽力而为服务&#xff08;best-effort services&…

尚品汇-支付宝介绍、跳转支付订单页面实现(四十六)

目录&#xff1a; &#xff08;1&#xff09;支付宝介绍 &#xff08;1&#xff09;支付宝介绍 &#xff08;3&#xff09;显示付款页面信息 &#xff08;5&#xff09;创建支付控制器PaymentController &#xff08;1&#xff09;支付宝介绍 支付宝简介 支付宝&#xf…

没资料的屏幕怎么点亮?思路分享

这次尝试调通一个没资料的屏幕&#xff0c;型号是HYT13264&#xff0c;这个是淘宝上面的老王2.9元屏&#xff0c;成色很好但是长期库存没有资料和代码能点亮&#xff0c;仅仅只有一个引脚定义。这里我使用Arduino Nano作为控制器尝试点亮这个模块。 首先&#xff0c;已知别人找…

当水泵遇上物联网:智能水务新时代的浪漫交响

在当代科技的宏伟乐章中&#xff0c;物联网&#xff08;IoT&#xff09;技术宛如一位技艺高超的指挥家&#xff0c;引领着各行各业迈向智能化的新纪元。当这股创新浪潮涌向古老的水务行业时&#xff0c;一场前所未有的“智能水务”革命便悄然上演&#xff0c;而水泵——这一传统…

vue3 自定义指令 directive

1、官方说明&#xff1a;https://cn.vuejs.org/guide/reusability/custom-directives 除了 Vue 内置的一系列指令 (比如 v-model 或 v-show) 之外&#xff0c;Vue 还允许你注册自定义的指令 (Custom Directives)。 我们已经介绍了两种在 Vue 中重用代码的方式&#xff1a;组件和…

828华为云征文 | 华为云Flexusx实例,高效部署Servas书签管理工具的优选平台

需要了解 本文章主要讲述在 华为云Flexus X 实例上使用docker快速部署Servas&#xff0c;一款功能强大的自托管书签管理工具&#xff0c;专为追求高效与个性化的用户设计。选择合适的云服务器&#xff1a; 本文采用的是 华为云服务器 Flexus X 实例&#xff08;推荐使用&#x…

Vue 中 watch 和 watchEffect 的区别

watch 和 watcheffect 都是 vue 中用于监视响应式数据的 api&#xff0c;它们的区别在于&#xff1a;watch 用于监视特定响应式属性并执行回调函数。watcheffect 用于更通用的响应式数据监视&#xff0c;但回调函数中不能更新响应式数据。Vue 中 watch 和 watchEffect 的区别 …

C++ 日历计算器的实现

日历计算器 创建一个日期类对运算符进行重载代码 创建一个日期类 年月日为类的成员变量&#xff0c;所以放到私有区域&#xff0c;又因为成员变量为内置类型&#xff0c;编译器自动生成的默认构造函数对其不做处理&#xff0c;所以需要我们显示定义一个构造函数&#xff0c;而…

亿发:中小型制造企业数字化转型典型场景、痛点、解决方案

随着全球制造业的不断发展&#xff0c;中小型制造企业正面临前所未有的挑战和机遇。数字化转型成为了企业提升竞争力、优化生产效率、应对市场变化的关键路径。然而&#xff0c;对于资源相对有限的中小型制造企业而言&#xff0c;数字化转型并非易事。他们在推进转型的过程中往…

视频的编码与传输 学习笔记2 信息论

说白了&#xff0c;关键点就三个&#xff1a;信源&#xff0c;压缩与信道 DMS就是无记忆的信源&#xff0c;该输出什么就输出什么。 马尔卡夫信源&#xff0c;准确来讲是m马尔卡夫&#xff0c;会受到前m个状态的影响。&#xff08;妈的&#xff0c;马尔卡弗还在追我&#xff0c…

【工具分享】针对加解密综合利用后渗透工具 - DecryptTools

下载地址&#xff1a; 链接: https://pan.quark.cn/s/2e451bd65d79工具介绍 支持22种OA、CMS 加解密密码查询功能 万户OA 用友NC 金蝶EAS 蓝凌OA 致远OA 宏景ERP 湖南强智 金和jc6 瑞友天翼 金和C6 Navicat 华天动力 FinalShell 亿赛通 帆软报表 H3C CAS Weblogic 金蝶云星空…

基于SSM+Vue+MySQL的可视化高校公寓管理系统

系统展示 管理员界面 宿管界面 学生界面 系统背景 当前社会各行业领域竞争压力非常大&#xff0c;随着当前时代的信息化&#xff0c;科学化发展&#xff0c;让社会各行业领域都争相使用新的信息技术&#xff0c;对行业内的各种相关数据进行科学化&#xff0c;规范化管理。这样的…

51单片机-第十二节-LCD1602液晶显示屏

一、LCD1602介绍&#xff1a; LCD1602是一种字符型液晶显示屏&#xff0c;可以显示ASCII码的标准字符和其他的内置特殊字符。 显示容量&#xff1a;16*2个字符&#xff0c;每个字符为5*7点阵。 二、引脚及应用电路&#xff1a; 其中&#xff1a;D0-7这8位数据是接在P0引脚上…

聚焦2024数博会|与天空卫士一起探索AI与数据安全的融合应用

中国国际大数据产业博览会&#xff08;简称数博会&#xff09;&#xff0c;是全球首个以大数据为主题的博览会&#xff0c;自2015年创办以来&#xff0c;经过多年的深厚沉淀&#xff0c;数博会已发展成为国际知名、引领前沿趋势的专业展示合作平台。 2024年8月28日至30日&#…

T1打卡——mnist手写数字识别

&#x1f368; 本文为&#x1f517;365天深度学习训练营中的学习记录博客&#x1f356; 原作者&#xff1a;K同学啊 1.定义GPU import tensorflow as tfgpustf.config.list_physical_devices("GPU")if gpus:gpu0gpus[0]tf.config.experimental.set_memort_groth(gp…

重卡换电连接器的应用

电动汽车换电模式涉及在专门充电站集中存储和充电大量电池&#xff0c;实现统一配送&#xff0c;并在换电站对电动汽车进行快速电池更换服务&#xff0c;或整合充电、物流、调配和换电服务。新能源汽车面临续航限制和配套设施不完善等问题&#xff0c;影响了其大规模推广。电池…

Java创建线程(5种方法)

操作系统提供api操作线程 线程本身是操作系统提供的&#xff0c;操作系统提供API让我们操作线程&#xff0c;JVM对操作系统api进行了封装&#xff0c;在线程这一部分&#xff0c;就提供了Thread类&#xff0c;表示线程。 创建线程 创建一个MyThread类&#xff08;类的名字不…