大数据MapReduce学习案例:倒排索引

news2024/11/28 12:35:01

文章目录

  • 一,案例分析
    • (一)倒排索引介绍
    • (二)案例需求
  • 二,案例实施
    • (一)准备数据文件
      • (1)启动hadoop服务
      • (2)虚拟机上创建文本文件
      • (3)上传文件到HDFS指定目录
    • (二)Map阶段实现
      • (1)创建Maven项目:InvertedIndex
      • (2)添加相关依赖
      • (3)创建日志属性文件
      • (4)创建倒排索引映射器类:InvertedIndexMapper
    • (三)Combine阶段实现
      • (1)创建倒排索引合并器类:InvertedIndexCombiner
    • (四)Reduce阶段实现
      • (1)创建倒排索引归并器类:InvertedIndexReducer
    • (五)Driver主类实现
      • (1)创建倒排索引驱动器类:InvertedIndexDriver
    • (六)运行倒排索引驱动器类,查看结果
      • (1)运行InvertedIndexDriver类
      • (2)下载文件查看结果


一,案例分析

(一)倒排索引介绍

倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。倒排索引主要用来存储某个单词(或词组)在一组文档中的存储位置的映射,提供了可以根据内容来查找文档的方式,而不是根据文档来确定内容,因此称为倒排索引(Inverted Index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(Inverted File)。

(二)案例需求

现假设有三个源文件file1.txt、file2.txt和file3.txt,需要使用倒排索引的方式对这三个源文件内容实现倒排索引,并将最后的倒排索引文件输出。

首先,使用默认的TextInputFormat类对每个输入文件进行处理,得到文本中每行的偏移量及其内容。Map过程首先分析输入的<key,value>键值对,经过处理可以得到倒排索引中需要的三个信息:单词、文档名称和词频。

经过Map阶段数据转换后,同一个文档中相同的单词会出现多个的情况,而单纯依靠后续Reduce阶段无法同时完成词频统计和生成文档列表,所以必须增加一个Combine阶段,先完成每一个文档的词频统计。

经过上述两个阶段的处理后,Reduce阶段只需将所有文件中相同key值的value值进行统计,并组合成倒排索引文件所需的格式即可。

二,案例实施

(一)准备数据文件

(1)启动hadoop服务

输入命令:start-all.sh
在这里插入图片描述

(2)虚拟机上创建文本文件

创建/export/mrtxt目录,在里面创建三个文本文件 - file1.txtfile2.txtfile3.txt
在这里插入图片描述

(3)上传文件到HDFS指定目录

在hdfs上创建目录/mrtxt/input,将三个文本文件 file1.txtfile2.txtfile3.txt,上传到HDFS的/mrtxt/input目录
在这里插入图片描述
在hadoop webui界面查看是否上传成功
在这里插入图片描述

(二)Map阶段实现

首先,使用IntelliJ开发工具创建Maven项目InvertedIndex,并且新创建net.army.mr包,在该路径下编写自定义Mapper类InvertedIndexMapper,主要用于将文本中的单词按照空格进行切割,并以冒号拼接,“单词:文档名称”作为key,单词次数作为value,都以文本方式输出至Combine阶段。

(1)创建Maven项目:InvertedIndex

1.设置如下图所示,单击【Create】按钮
在这里插入图片描述

(2)添加相关依赖

1.在pom.xml文件里添加hadoop和junit依赖,内容如下

<dependencies>                                  
    <!--hadoop客户端-->                            
    <dependency>                                
        <groupId>org.apache.hadoop</groupId>    
        <artifactId>hadoop-client</artifactId>  
        <version>3.3.4</version>                
    </dependency>                               
    <!--单元测试框架-->                               
    <dependency>                                
        <groupId>junit</groupId>                
        <artifactId>junit</artifactId>          
        <version>4.13.2</version>               
    </dependency>                               
</dependencies>                                 

2.添加好依赖后,单击刷新按钮下载相关依赖
在这里插入图片描述3.下载好的本地依赖
在这里插入图片描述

(3)创建日志属性文件

1.右击【resources】,选择【New】,单击【Resource Bundle】
在这里插入图片描述2.在弹出的对话框输入log4j,单击【OK】按钮
在这里插入图片描述
3.成功创建
在这里插入图片描述
4.向文件添加如下内容

log4j.rootLogger=INFO, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/invertedindex.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

在这里插入图片描述

(4)创建倒排索引映射器类:InvertedIndexMapper

1.右击【net.army.mr】包,选择【New】,单击【Java Class】
在这里插入图片描述
2.在弹出的对话框中输入:InvertedIndexMapper,按下回车键,成功创建
在这里插入图片描述
3.编写代码

package net.army.mr;

import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import java.io.IOException;

/**
 * 作者:梁辰兴
 * 日期:2022/12/14
 * 功能:倒排索引映射器类
 */

public class InvertedIndexMapper extends Mapper<LongWritable, Text, Text, Text> {
    private static Text keyInfo = new Text(); // 存储单词和URL组合
    private static final Text valueInfo = new Text("1"); // 存储词频,初始化为1

    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        // 获取文件行数据
        String line = value.toString();
        // 拆分得到单词数组
        String[] words = StringUtils.split(line, " ");
        // 得到这行数据所在的文件切片
        FileSplit fileSplit = (FileSplit) context.getInputSplit();
        // 根据文件切片得到文件名
        String fileName = fileSplit.getPath().getName();
        for (String word : words) {
            // key值由单词和URL组成,如“MapReduce:file1.txt”
            keyInfo.set(word + ":" + fileName);
            // 将键值对数据传入下一个阶段
            context.write(keyInfo, valueInfo);
        }
    }
}

(三)Combine阶段实现

根据Map阶段的输出结果形式,在net.army.mr包下,自定义实现Combine阶段的类InvertedIndexCombiner,对每个文档的单词进行词频统计。

(1)创建倒排索引合并器类:InvertedIndexCombiner

1.右击【net.army.mr】包,选择【New】,单击【Java Class】
在这里插入图片描述
2.在弹出的对话框中输入:InvertedIndexCombiner,按下回车键,成功创建
在这里插入图片描述
3.编写代码

package net.army.mr;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * 作者:梁辰兴
 * 日期:2022/12/14
 * 功能:倒排索引合并器类
 */

public class InvertedIndexCombiner extends Reducer<Text, Text, Text, Text> {

    private static Text info = new Text();

    // 输入: <MapReduce:file3.txt {1,1,...}>
    // 输出: <MapReduce file3.txt:2>
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
        // 统计词频
        int sum = 0;
        for (Text value : values) {
            sum += Integer.parseInt(value.toString());
        }
        // 获取分隔符冒号的位置
        int splitIndex = key.toString().indexOf(":");
        // 重新设置value值由URL和词频组成
        info.set(key.toString().substring(splitIndex + 1) + ":" + sum);
        // 重新设置key值为单词
        key.set(key.toString().substring(0, splitIndex));
        // 将键值对数据传入下一个阶段
        context.write(key, info);
    }
}

(四)Reduce阶段实现

根据Combine阶段的输出结果形式,同样在net.army.mr包下,自定义Reducer类InvertedIndexMapper,主要用于接收Combine阶段输出的数据,并最终案例倒排索引文件需求的样式,将单词作为key,多个文档名称和词频连接作为value,输出到目标目录。

(1)创建倒排索引归并器类:InvertedIndexReducer

1.右击【net.army.mr】包,选择【New】,单击【Java Class】
在这里插入图片描述
2.在弹出的对话框中输入:InvertedIndexReducer,按下回车键,成功创建
在这里插入图片描述
3.编写代码

package net.army.mr;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * 作者:梁辰兴
 * 日期:2022/12/14
 * 功能:倒排索引归并器类
 */

public class InvertedIndexReducer extends Reducer<Text, Text, Text, Text> {

    private static Text result = new Text();

    // 输入:<MapReduce file3.txt:2>
    // 输出:<MapReduce file1.txt:1;file2.txt:1;file3.txt:2;>
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context)
            throws IOException, InterruptedException {
        // 生成文档列表
        String fileList = new String();
        for (Text value : values) {
            fileList += value.toString() + ";";
        }
        // 设置结果数据
        result.set(fileList);
        // 将键值对数据输出
        context.write(key, result);
    }
}

(五)Driver主类实现

编写MapReduce程序运行主类InvertedIndexDriver,主要用于设置MapReduce工作任务的相关参数,对HDFS上/mrtxt/input目录下的源文件实现倒排索引,并将结果输入到HDFS的/mrtxt/output目录下。

(1)创建倒排索引驱动器类:InvertedIndexDriver

1.右击【net.army.mr】包,选择【New】,单击【Java Class】
在这里插入图片描述
2.在弹出的对话框中输入:InvertedIndexDriver,按下回车键,成功创建
在这里插入图片描述
3.编写代码

package net.army.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

/**
 * 作者:梁辰兴
 * 日期:2022/12/14
 * 功能:倒排索引驱动器类
 */

public class InvertedIndexDriver {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);

        // 设置作业启动类
        job.setJarByClass(InvertedIndexDriver.class);

        // 设置Mapper类
        job.setMapperClass(InvertedIndexMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(Text.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(Text.class);

        // 设置Combiner类
        job.setCombinerClass(InvertedIndexCombiner.class);

        // 设置Reducer类
        job.setReducerClass(InvertedIndexReducer.class);
        // 设置reduce任务输出键类型
        job.setOutputKeyClass(Text.class);
        // 设置reduce任务输出值类型
        job.setOutputValueClass(Text.class);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/mrtxt/input");
        // 创建输出目录
        Path outputPath = new Path(uri + "/mrtxt/output");

        // 获取文件系统
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 删除输出目录
        fs.delete(outputPath, true);

        // 给作业添加输入目录
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }
    }
}

(六)运行倒排索引驱动器类,查看结果

(1)运行InvertedIndexDriver类

在这里插入图片描述

(2)下载文件查看结果

注:事先进入mrtxt目录下,输入命令:cd /export/mrtxt

1.下载文件,输入命令:hdfs dfs -get /mrtxt/output/part-r-00000
在这里插入图片描述
2.查看文件,输入命令:cat part-r-00000
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/88211.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据结构双向链表

双向链表也叫双链表&#xff0c;是链表的一种&#xff0c;它的每个数据结点中都有两个指针&#xff0c;分别指向直接后继和直接前驱。所以&#xff0c;从双向链表中的任意一个结点开始&#xff0c;都可以很方便地访问它的前驱结点和后继结点。一般我们都构造双向循环链表。 那…

WPF入门第三篇 ControlTemplate、Trigger与Storyboard

ControlTemplate、Trigger与Storyboard ControlTemplate通常用在Style中&#xff0c;Trigger通常作为ControlTemplate的一部分&#xff0c;StoryBoard表示动画效果&#xff0c;下面将通过对Button按钮设置这几项来简单说明这几项的用法。 在MainWindow中添加一个Button按钮&am…

Prometheus技术分享——如何监控宿主机和容器

这一期主要来跟大家聊一下&#xff0c;使用node_exporter工具来暴露主机和因公程序上的指标&#xff0c;利用prometheus来监控宿主机&#xff1b;以及通过通过Cadvisor监控docker容器。 一、部署node_exporter监控宿主机 1 下载软件包 wget https://github.com/prometheus/n…

分布式链路追踪SkyWalking

文章目录目录介绍服务端搭建注册中心启动注册中心修改持久化配置UI服务配置启动服务客户端搭建目录介绍 重要的目录结构分析如下&#xff1a; agent&#xff1a;客户端需要指定的目录&#xff0c;其中有一个jar&#xff0c;就是负责和客户端整合收集日志bin&#xff1a;服务端…

深入理解Linux网络技术内幕(十三)——协议处理函数

文章目录前言网络协议栈概论大蓝图Ethernet的链路层的选择&#xff08;LLC和SNAP&#xff09;网络协议栈的操作方式执行正确的协议处理函数特殊媒介封装协议处理函数的组织协议处理函数的注册Ethernet与IEEE 802.3帧设置封包类型设置Ethernet协议及长度逻辑链接控制&#xff08…

python+django球鞋商品竞拍卖网站vue

管理员功能模块 管理员登录&#xff0c;通过填写用户名、密码、角色等信息&#xff0c;输入完成后选择登录即可进入网上球鞋竞拍系统 管理员登录进入网上球鞋竞拍系统可以查看球鞋分类管理、热门竞拍管理、科比展区管理、用户管理、竞拍信息管理、消息通知管理、用户评价管理、…

单人脸的关键点检测

闲暇之余做了一个简单的单人的脸部关键点检测&#xff0c;使用的pytorch框架&#xff0c;别人训练好的现成模型。其中人脸检测模型是YOLOface5&#xff08;onnx格式的权重&#xff09;&#xff0c;关键点检测模型是PFLD&#xff08;能检测98个关键点&#xff09;&#xff0c;是…

计算机网络学习笔记(Ⅳ):网络层

目录 1 网络层内容 1.1 功能概述 1.任务 2.主要功能 1.2 数据交换方式 1.电路交换 2.报文交换 3.分组交换 4.方法对比 1.3 分组交换 1.数据报方式 2.虚电路方式 3.对比 2 路由算法与路由协议 2.1 路由算法 2.2 路由选择协议 3 IPv4 3.1 IP数据报格式 1.TCP/…

快2023年了,还不会性能调优?阿里技术官亲授“Java性能调优技术宝典”看完直接涨薪5K

一、前言 什么是性能调优&#xff1f; 性能调优其实很好理解&#xff0c;就是优化硬件、操作系统、应用之间的一个充分的协作&#xff0c;最大化的发挥出硬件的极致性能&#xff0c;来应对高负载的业务需求。 为什么需要性能优化&#xff1f; 其实说到底就是两个原因&#…

2023年湖北安全员ABC三类人员延期多久一次?甘建二

2023年湖北安全员ABC三类人员延期多久一次&#xff1f; 2023年湖北安全员ABC延期快来找甘建二报名&#xff0c;建设厅指定的 2023年湖北安全员ABC新办快来找甘建二报名&#xff0c;建设厅指定的 首先安全员分为三类&#xff1a;A证、B证、C证&#xff0c;每个证书都有相应的…

Spring源码解析-环境变量(下)

“不积跬步&#xff0c;无以至千里”。 接着聊上一篇文章中遗留的两个重要问题&#xff1a; 如何往Spring环境变量中添加自定义的环境变量&#xff1f;工作原理是什么&#xff1f;PropertyPlaceholderConfigurer这个类是怎么完成bean属性填充时“$”符号解析工作的&#xff1f…

数据库系统概论第2章 关系数据库

易错点1&#xff1a;实体完整性 实体完整性要求主属性不能取空值 而主属性不能取空值≠候选码不为空 因为候选码可以是两个属性的组合&#xff0c;而主属性是候选码的属性 举个例子&#xff1a; SC表中候选码为&#xff08;学号&#xff0c;课程号&#xff09; 主属性为学…

fetch向后端请求数据:get/post/put/patch/delete方式、解决catch不能主动捕获错误问题(超详细笔记)

1、什么是fetch&#xff1a; fetch是ES6出现的&#xff0c;它使用了 ES6 提出的 promise 对象&#xff0c;为了取代XMLHttpRequest而诞生的&#xff1b;提到XMLHttpRequest就不得不提ajax&#xff0c;ajax是一种实现前后端交互的技术&#xff0c;而ajax是基于XMLHttpRequest模块…

C++ Reference: Standard C++ Library reference: Containers: map: map: count

C官网参考链接&#xff1a;https://cplusplus.com/reference/map/map/count/ 公有成员函数 <map> std::map::count size_type count (const key_type& k) const;计数具有特定键的元素 在容器中搜索键值等于k的元素&#xff0c;并返回匹配的数量。 因为map容器中的所…

搞懂商业智能 BI 、数据仓库、数据中台及其关系,此文足以

数字化如火如荼&#xff0c;企业的 IT 信息化也越演越烈&#xff0c;企业管理者对数据管理也是越来越重视&#xff0c;认识到数据资产带来的价值&#xff0c;本文对这些名词术语及内涵进行系统的解析&#xff0c;便于读者对数据平台相关的概念有全面的认识。 商业智能BI 商业…

本文分享Unity中的AI算法和实现3-有限状态机FSM(下)

本文分享Unity中的AI算法和实现3-有限状态机FSM(下) 回家生孩子, 暂停了一个多月的更新, 今天重新续上, ^_^. 在上一篇文章中, 我们分享了状态机的基本理论, 然后结合Unity的Animator来熟悉了这些理论, 最后设计了我们自己的状态机并实现了框架部分. 这一篇文章, 我们将继续…

20221212 SpringCloud Alibaba

Spring Cloud Alibaba介绍主要功能组件注册中心脚手架创建实例使用RestTemplate实现微服务调用使用openfeign实现微服务调用负载均衡的使用创建多实例修改负载均衡Spring Cloud Alibaba 介绍 官方文档&#xff1a; https://spring.io/projects/spring-cloud-alibaba https://…

git stash 命令详解

1. 应用场景 2. 添加储藏 3. 查看储藏 4. 删除储藏 5. 使用储藏 6. 常见用法 1. 应用场景 git stash 命令用于将工作区中的更改和暂存区中的内容储存起来 日常开发中&#xff0c;会经常遇到这种场景 我们正在 dev 分支开发新功能&#xff0c;做到一半时&#xff0c;产品经理…

模块化、组件化和插件化

模块化&#xff1a;业务解耦、代码重用 组件化&#xff1a;模块化为基础、开发阶段每个moudle都是一个app &#xff0c;可以单独编译,并行开发 互不干扰&#xff0c;不用编译整个工程&#xff0c;打包的时候每个moudle又是moudle 不是app 只有一个app 插件化&#xff1a;也是…

【愚公系列】2022年12月 Elasticsearch数据库-ELK环境的搭建(一)

文章目录前言一、ELK环境的搭建1.前提条件2.启动Elasticsearch3.配置可视化工具 head-master3.配置kibana前言 ELK是三个开源软件的缩写&#xff0c;分别表示&#xff1a;Elasticsearch , Logstash, Kibana , 它们都是开源软件。新增了一个FileBeat&#xff0c;它是一个轻量级…