大数据培训课程GroupingComparator分组案例实操

news2024/11/24 2:41:31

GroupingComparator分组案例实操

1.需求

有如下订单数据

表4-2 订单数据

现在需要求出每一个订单中最贵的商品。

(1)输入数据

(2)期望输出数据

1       222.8

2       722.4

3       232.8

2.需求分析

(1)利用“订单id和成交金额”作为key,可以将Map阶段读取到的所有订单数据按照id升序排序,如果id相同再按照金额降序排序,发送到Reduce。

(2)在Reduce端利用groupingComparator将订单id相同的kv聚合成组,然后取第一个即是该订单中最贵商品,如图4-18所示。

图4-18 过程分析

3.代码实现

(1)定义订单信息OrderBean类

package com.atguigu.mapreduce.order; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableComparable;   public class OrderBean implements WritableComparable<OrderBean> {     private int order_id; // 订单id号   private double price; // 价格     public OrderBean() {       super();   }     public OrderBean(int order_id, double price) {       super();       this.order_id = order_id;       this.price = price;   }     @Override   public void write(DataOutput out) throws IOException {       out.writeInt(order_id);       out.writeDouble(price);   }     @Override   public void readFields(DataInput in) throws IOException {       order_id = in.readInt();       price = in.readDouble();   }     @Override   public String toString() {       return order_id + “\t” + price;   }     public int getOrder_id() {       return order_id;   }     public void setOrder_id(int order_id) {       this.order_id = order_id;   }     public double getPrice() {       return price;   }     public void setPrice(double price) {       this.price = price;   }     // 二次排序   @Override   public int compareTo(OrderBean o) {         int result;         if (order_id > o.getOrder_id()) {          result = 1;       } else if (order_id < o.getOrder_id()) {          result = -1;       } else {          // 价格倒序排序          result = price > o.getPrice() ? -1 : 1;       }         return result;   } }

(2)编写OrderSortMapper类

package com.atguigu.mapreduce.order; import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper;   public class OrderMapper extends Mapper<LongWritable, Text, OrderBean, NullWritable> {     OrderBean k = new OrderBean();     @Override   protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {             // 1 获取一行       String line = value.toString();             // 2 截取       String[] fields = line.split(“\t”);             // 3 封装对象       k.setOrder_id(Integer.parseInt(fields[0]));       k.setPrice(Double.parseDouble(fields[2]));             // 4 写出       context.write(k, NullWritable.get());   } }

(3)编写OrderSortGroupingComparator类

package com.atguigu.mapreduce.order; import org.apache.hadoop.io.WritableComparable; import org.apache.hadoop.io.WritableComparator;   public class OrderGroupingComparator extends WritableComparator {     protected OrderGroupingComparator() {       super(OrderBean.class, true);   }     @Override   public int compare(WritableComparable a, WritableComparable b) {         OrderBean aBean = (OrderBean) a;       OrderBean bBean = (OrderBean) b;         int result;       if (aBean.getOrder_id() > bBean.getOrder_id()) {          result = 1;   } else if (aBean.getOrder_id() < bBean.getOrder_id()) {          result = -1;       } else {          result = 0;       }         return result;   } }

(4)编写OrderSortReducer类

package com.atguigu.mapreduce.order; import java.io.IOException; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.mapreduce.Reducer;   public class OrderReducer extends Reducer<OrderBean, NullWritable, OrderBean, NullWritable> {     @Override   protected void reduce(OrderBean key, Iterable<NullWritable> values, Context context)     throws IOException, InterruptedException {             context.write(key, NullWritable.get());   } }

(5)编写OrderSortDriver类

package com.atguigu.mapreduce.order; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.NullWritable; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;   public class OrderDriver {     public static void main(String[] args) throws Exception, IOException {   // 输入输出路径需要根据自己电脑上实际的输入输出路径设置       args  = new String[]{“e:/input/inputorder” , “e:/output1”};         // 1 获取配置信息       Configuration conf = new Configuration();       Job job = Job.getInstance(conf);         // 2 设置jar包加载路径       job.setJarByClass(OrderDriver.class);         // 3 加载map/reduce类       job.setMapperClass(OrderMapper.class);       job.setReducerClass(OrderReducer.class);         // 4 设置map输出数据key和value类型       job.setMapOutputKeyClass(OrderBean.class);       job.setMapOutputValueClass(NullWritable.class);         // 5 设置最终输出数据的key和value类型       job.setOutputKeyClass(OrderBean.class);       job.setOutputValueClass(NullWritable.class);         // 6 设置输入数据和输出数据路径       FileInputFormat.setInputPaths(job, new Path(args[0]));       FileOutputFormat.setOutputPath(job, new Path(args[1]));        // 8 设置reduce端的分组   job.setGroupingComparatorClass(OrderGroupingComparator.class);         // 7 提交       boolean result = job.waitForCompletion(true);       System.exit(result ? 0 : 1);   } }

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/28379.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python数学建模--时间序列模型--指数平滑

目录时间序列指数平滑一次指数平滑预测示例二次指数平滑预测示例三次指数平滑本博客参考&#xff1a;《python数学实验与建模 》 时间序列 时间序列数据是按照时间顺序排列的、随着时间变化且相互关联的数据序列&#xff0c;这类数据往往反映了某一事物、现象等随时间的变化状…

升级光伏供应链体系,供应商系统规范供应商管理,促进企业与供应商高效协同

作为过去十年我国发展最快的可再生能源&#xff0c;截止到2020年光伏累计装机量达到253GW&#xff0c;过去10年复合增长率达到20%以上&#xff0c;新增光伏装机48.2GW&#xff0c;同比增长60%。全球可再生能源署预计2050年光伏累计装机规模将达8519GW&#xff0c;成为最主流的电…

【MySQL】 B+ 树存储的原理

1. B 树 和 B 树 B Tree 模拟生成工具&#xff1a;https://www.cs.usfca.edu/~galles/visualization/BTree.html BTree 模拟生成工具&#xff1a; https://www.cs.usfca.edu/~galles/visualization/BPlusTree.html B 树 —— 1970年&#xff0c;R.Bayer和E.mccreight提出了一种…

[附源码]java毕业设计学生量化考核管理系统

项目运行 环境配置&#xff1a; Jdk1.8 Tomcat7.0 Mysql HBuilderX&#xff08;Webstorm也行&#xff09; Eclispe&#xff08;IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持&#xff09;。 项目技术&#xff1a; SSM mybatis Maven Vue 等等组成&#xff0c;B/S模式 M…

LIN休眠唤醒及测试心得

上期LIN测试小课堂&#xff0c;我们分享了LIN总线帧结构及各场干扰&#xff0c;如何测试样件是否不响应错误的帧结构。 这次我们的介绍主题是LIN休眠唤醒&#xff0c;一起看看标准和差异性&#xff0c;开发和测试的关系&#xff0c;实际的案例分享也来了。 一、LIN控制器休眠…

编译原理—语义分析、语法制导翻译、翻译模式、中间代码生成

编译原理—语义分析、语法制导翻译、翻译模式、中间代码生成语法制导翻译语法制导定义(属性文法)翻译模式后缀式图示表示法构建表达式的语法树中间代码的种类三地址码四地址码对比举例中间代码产生的场景说明语句的翻译举例嵌套说明语句的翻译方案相关定义举例过程嵌套声明记录…

BDP FL-PEG5-炔丙基,2093197-93-2,BDP FL-PEG5-propargyl是一种 BDP FL 接头

BDP FL-PEG5-propargyl ​中英文名&#xff1a; CAS号&#xff1a;2093197-93-2| 英文名&#xff1a;BDP FL-PEG5-propargyl |中文名&#xff1a;BDP FL-五聚乙二醇-炔基&#xff0c; BDP FL-PEG5-炔丙基BDP FL-PEG5-propargyl ​物理参数&#xff1a; CASNumber&#xff1a;20…

微信小程序基础学习(5):使用 npm包、全局数据共享、分包

1. 使用 npm包 1.1 小程序对 npm 的支持与限制 目前&#xff0c;小程序中已经支持使用 npm 安装第三方包&#xff0c;从而来提高小程序的开发效率。但是&#xff0c;在小程序中使用 npm 包有如下 3 个限制&#xff1a; 不支持依赖于 Node.js 内置库的包。不支持依赖于浏览器…

查看进程信息(ps、top) + 操作后台进程(jobs、bg、fg)

目录 1、查看进程信息 (1) 查看进程快照 —— ps (2) 查看进程的动态信息 —— top (3) 查看进程的详细信息 —— /proc 2、操作后台进程 (1) 将进程转为后台 (2) 将后台进程转为前台运行 fg (3) 查看后台进程 jobs 1、查看进程信息 (1) 查看进程快照 —— ps 所谓…

Word控件Spire.Doc 【图像形状】教程(3) :在 C#/VB.NET 中的指定位置插入图像

Spire.Doc for .NET是一款专门对 Word 文档进行操作的 .NET 类库。在于帮助开发人员无需安装 Microsoft Word情况下&#xff0c;轻松快捷高效地创建、编辑、转换和打印 Microsoft Word 文档。拥有近10年专业开发经验Spire系列办公文档开发工具&#xff0c;专注于创建、编辑、转…

【无标题】接口测试遇到的典型bug纪录

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注…

Java#22(内部类)

目录 一.内部类 1.什么是内部类? 2.什么时候用? 3.特点 二.成员内部类,静态内部类,局部内部类(稍微了解即可) 1.获取成员内部类对象的两种方式? 2.外部类成员变量和内部类成员变量重名时&#xff0c;在内部类如何访问? 2.静态内部类 3.局部内部类 三. 匿名内部类…

verdi基础操作

看波形&#xff1a; 1.代码里选中&#xff0c;再按鼠标中键拖进去 2.选中&#xff0c;ctrlw 3.用get signal 在波形框中&#xff0c;按照鼠标左键再左右移动&#xff0c;可以放大这一部分的波形&#xff0c;还有下面的功能键可以用 删除波形&#xff1a; 按delete或者cut掉…

如何压缩图片200k以下?

“图片过大无法上传”&#xff0c;“因您上传的图片大小超过限制”这样的提示大家都有遇到过吧&#xff1f;这就是告诉我们现在的图片需要压缩一下才能继续使用了&#xff0c;否则我们就无法使用当前照片了。 那有很多平台&#xff0c;特别是上传一些证件照的时候&#xff0c;要…

北京筑龙获爱分析采购数字化报告大满贯, 领跑供应链协同市场

2022年11月21日&#xff0c;国内领先的数字化市场研究咨询机构爱分析发布了《2022爱分析采购数字化厂商全景报告》&#xff08;以下简称《报告》&#xff09;。北京筑龙凭借专业的数字化技术、采购供应链数字化经验以及在政企数字化领域积累的丰富项目实践经验&#xff0c;成功…

微信小程序商城搭建步骤_我们来说说微信小程序商城开发的作用

比如下面我推荐的这个就有很多不错的各行业商城小程序模板&#xff0c;新手也能轻松搭建的那种&#xff01;&#xff08;见我主页&#xff09; 但要想把商城小程序运营到能稳定赚钱&#xff0c;就需要商家结合自身的实际&#xff0c;去指定合适的推广策略。下面就讲讲如何实现线…

第4章 配置集成第3方log4net日志中间件

在上一章中虽然已经把第3方log4net日志中间件定义到了当前程序中&#xff0c;但是并没有把第3方log4net日志中间件的功能配置并集到当前程序中&#xff0c;即当前程序还不能通过第3方log4net日志中间件把日志数据信息持久化到指定的文件或表中&#xff0c;本章即将实现当前程序…

SpringBoot2.X与redis Lettuce集成踩坑

起因 最近项目上发现一个问题&#xff0c;redis cluster集群有一台机崩了之后&#xff0c;后台服务的redis会一直报错&#xff0c;无法连接到redis集群。通过命令查看redis集群&#xff0c;发现redis cluster集群是正常的&#xff0c;备用的slave机器已经升级为master。 于是初…

c<7>存储

目录 1&#xff0c;局部变量 1,auto 2,static 2&#xff0c;全局变量的储存类型 3,register 4,extern 作用&#xff1a; 1&#xff0c;局部变量 #include <stdio.h> int main() {int fAuto(int a);int fStatic(int a); //函数声明int a 1, i; //自动局部变…

去了家新公司,技术总监不让用 IntelliJ IDEA想离职了

最近有个小伙伴微信和我说&#xff0c;新去的一家公司&#xff0c;技术团队全部规定要用的 Eclipse 开发&#xff0c;技术总监不让用 IntelliJ IDEA&#xff0c;付费也不行&#xff0c;说想离职了&#xff0c;问我该怎么办。 首先听到这件事情的时候&#xff0c;我表示十分理解…