BoostCompass(建立正排索引和倒排索引模块)

news2024/11/24 5:57:48

在这里插入图片描述

阅读导航

  • 一、模块概述
  • 二、编写正排索引和倒排索引模块
    • ✅安装 jsoncpp
    • ✅Jieba分词库的安装
    • 1. 代码基本框架
    • 2. 正排索引的建立
    • 3. 倒排索引的建立
  • 三、整体代码
    • ⭕index.hpp

一、模块概述

这个模块我们定义了一个名为Index的C++类,用于构建和维护一个文档索引系统。该系统采用单例模式确保只有一个索引实例,并使用正排索引和倒排索引来快速检索文档。正排索引存储了文档的基本信息,如标题、内容和URL,而倒排索引则根据关键词将文档分组。类中提供了构建索引、获取文档信息和获取倒排列表的方法。构建索引的过程涉及读取处理过的数据文件,解析文档数据,并根据文档内容构建索引。此外,我们还实现了简单的进度显示功能。整个索引系统的构建旨在提高文档检索的效率和准确性。

二、编写正排索引和倒排索引模块

✅安装 jsoncpp

🔴安装方法:sudo yum install -y jsoncpp-devel

✅Jieba分词库的安装

PS:我们要先在Linux机器上安装Jieba分词库链接:🔴 "结巴(Jieba)"中文分词的C++版本

在这里插入图片描述

1. 代码基本框架

#pragma once
#include <iostream>
#include <string>
#include <vector>
#include <fstream>
#include <unordered_map>
#include <mutex>
#include "util.hpp" 
#include "log.hpp"  

namespace ns_index {
    // 定义文档信息结构体
    struct DocInfo {
        std::string title;   // 文档的标题
        std::string content; // 文档内容(去标签后)
        std::string url;     // 文档的URL
        uint64_t doc_id;     // 文档的唯一ID
    };

    // 定义倒排列表中的元素结构体
    struct InvertedElem {
        uint64_t doc_id;   // 文档ID
        std::string word;  // 关键字
        int weight;        // 关键字权重
        InvertedElem() : weight(0) {} // 默认构造函数,权重初始化为0
    };
	
	// 获取单例模式的实例
    static Index* GetInstance() {
    	// 双重检查锁定模式,确保线程安全地获取单例
        if (nullptr == instance) {
            mtx.lock();
            if (nullptr == instance) {
                instance = new Index();
            }
            mtx.unlock();
        }
        return instance;
    }
    
    // 定义索引类Index
    class Index {
    private:
        // 构造函数、拷贝构造函数和赋值操作符都设置为私有,防止被实例化
        Index() {}
        Index(const Index&) = delete;
        Index& operator=(const Index&) = delete;

        // 单例模式的实例指针
        static Index* instance;
        // 保护单例模式的互斥锁
        static std::mutex mtx;

    public:
        // 析构函数
        ~Index() {}
        // 根据关键字获取倒排拉链
        InvertedList* GetInvertedList(const std::string& word) {
            auto iter = inverted_index.find(word);
            if (iter == inverted_index.end()) {
                std::cerr << word << " have no InvertedList" << std::endl;
                return nullptr;
            }
            return &(iter->second);
        }
    };
    // 初始化单例模式的实例指针为nullptr
    Index* Index::instance = nullptr;
    // 初始化互斥锁
    std::mutex Index::mtx;
}

代码分析

  1. 文档信息结构体 (DocInfo):

    • 定义了存储文档信息的结构体,包括标题、内容、URL和文档ID。
  2. 倒排列表元素结构体 (InvertedElem):

    • 定义了倒排列表中的元素结构体,包括文档ID、关键字和关键字权重。
  3. 单例模式的实现 (Index 类):

    • Index 类使用单例模式来确保整个程序中只有一个索引实例。
    • 构造函数、拷贝构造函数和赋值操作符都是私有的,防止外部直接创建实例。
    • GetInstance 方法用于获取索引实例,采用双重检查锁定模式来确保线程安全。
    • GetInvertedList 方法用于根据关键字获取对应的倒排列表。
  4. 全局变量和互斥锁

    • instance 是一个静态指针,指向Index类的实例。
    • mtx 是一个静态互斥锁,用于保护单例模式的实例创建过程。

总体来说,上面的代码展示了一个索引系统的基础框架,包括文档信息的存储结构和单例模式的索引管理。

2. 正排索引的建立

// 定义宏常量
#define NUM 101

// 正排索引存储文档信息
std::vector<DocInfo> forward_index;

// 根据文档ID获取文档信息
DocInfo* GetForwardIndex(uint64_t doc_id) {
    if (doc_id >= forward_index.size()) {
        std::cerr << "doc_id out of range, error!" << std::endl;
        return nullptr;
    }
    return &forward_index[doc_id];
}

// 构建索引,输入为处理完毕的数据文件路径
bool BuildIndex(const std::string& input) {
    // 打开输入文件
    std::ifstream in(input, std::ios::in | std::ios::binary);
    if (!in.is_open()) {
        std::cerr << "sorry, " << input << " open error" << std::endl;
        return false;
    }

    // 读取文件行并构建索引
    std::string line;
    int count = 0;
    std::string bar(NUM, ' '); // 创建进度条
    bar[1] = '=';
    while (std::getline(in, line)) {
        DocInfo* doc = BuildForwardIndex(line);
        if (nullptr == doc) {
            continue;
        }

        BuildInvertedIndex(*doc);
        count++;

        // 显示进度
        if (count % 86 == 0) {
            int cnt = count / 86 + 1;
            bar[cnt] = '=';
            std::cout << "成功建立索引进度: " << bar << " [" << cnt << "%]" << "\r";
            std::cout.flush();
        }
    }
    std::cout << std::endl;
    return true;
}

// 私有辅助函数,用于构建正排索引
DocInfo* BuildForwardIndex(const std::string& line) {
    // 分割字符串为标题、内容和URL
    std::vector<std::string> results;
    const std::string sep = "\3"; // 行内分隔符
    ns_util::StringUtil::Split(line, &results, sep);
    if (results.size() != 3) {
        return nullptr;
    }

    // 创建文档信息并添加到正排索引
    DocInfo doc;
    doc.title = results[0];
    doc.content = results[1];
    doc.url = results[2];
    doc.doc_id = forward_index.size();
    // 插入到正排索引的vector
    forward_index.push_back(std::move(doc));
    return &forward_index.back();
}

代码分析

  1. forward_index 是一个 std::vector,用于存储所有文档的正排索引信息。
  2. GetForwardIndex 函数通过文档ID从正排索引中检索文档信息。如果文档ID超出范围,则返回空指针并打印错误信息。
  3. BuildIndex 函数用于从数据文件中读取文档数据并构建索引。它打开输入文件,逐行读取并处理每一行,构建正排索引和倒排索引,并显示进度条。
  4. BuildForwardIndex 函数是一个私有辅助函数,用于构建单个文档的正排索引条目。它将输入行分割为标题、内容和URL,创建一个 DocInfo 对象,并将其添加到 forward_index 向量中。

3. 倒排索引的建立

// 定义宏常量
#define X 10
#define Y 1

// 倒排索引存储关键字到倒排列表的映射
std::unordered_map<std::string, InvertedList> inverted_index;

// 定义倒排列表的类型为InvertedElem元素的向量
typedef std::vector<InvertedElem> InvertedList;

// 私有辅助函数,用于构建倒排索引
bool BuildInvertedIndex(const DocInfo& doc) {
    // 分词并统计词频
    struct word_cnt {
        int title_cnt;
        int content_cnt;

        word_cnt() : title_cnt(0), content_cnt(0) {}
    };

    // 用来暂存词频的映射表
    std::unordered_map<std::string, word_cnt> word_map;

    // 对标题进行分词
    std::vector<std::string> title_words;
    ns_util::JiebaUtil::CutString(doc.title, &title_words);

    // 对标题进行词频统计
    for (std::string s : title_words) {
        boost::to_lower(s);  // 将单词转换为小写
        word_map[s].title_cnt++;  // 如果存在就增加计数,否则创建新条目
    }

    // 对文档内容进行分词
    std::vector<std::string> content_words;
    ns_util::JiebaUtil::CutString(doc.content, &content_words);

    // 对内容进行词频统计
    for (std::string s : content_words) {
        boost::to_lower(s);
        word_map[s].content_cnt++;
    }

    // 构建倒排列表
    for (const auto& word_pair : word_map) {
        InvertedElem item;
        item.doc_id = doc.doc_id;
        item.word = word_pair.first;
        // 计算权重,标题中的词乘以X,内容中的词乘以Y
        item.weight = X * word_pair.second.title_cnt + Y * word_pair.second.content_cnt;
        // 获取对应关键字的倒排列表,并添加新的倒排元素
        InvertedList& inverted_list = inverted_index[word_pair.first];
        inverted_list.push_back(std::move(item));
    }

    return true;
}

代码分析

  1. 定义数据结构

    • DocInfo 结构体定义了文档信息,包括标题、内容、URL和唯一的文档ID。
    • InvertedElem 结构体定义了倒排列表中的元素,包括文档ID、关键字和权重。
    • InvertedList 类型定义为 std::vector<InvertedElem>,表示一个倒排列表,包含多个 InvertedElem 元素。
  2. 构建正排索引

    • forward_index 是一个 std::vector<DocInfo>,用于存储所有文档的正排索引信息。
    • GetForwardIndex 函数通过文档ID从正排索引中检索文档信息。
  3. 构建倒排索引

    • inverted_index 是一个 std::unordered_map<std::string, InvertedList>,用于存储关键字到倒排列表的映射。
    • BuildInvertedIndex 函数用于根据文档信息构建倒排索引。它首先对文档的标题和内容进行分词,然后统计每个词在标题和内容中出现的次数(词频)。
    • 每个分词后的词都会被转换为小写,以便进行不区分大小写的搜索。
    • 为每个词创建一个 InvertedElem 对象,并根据其在标题和内容中的出现次数计算权重。
    • InvertedElem 对象添加到 inverted_index 中对应关键字的倒排列表中。
  4. 处理文本数据

    • BuildIndex 函数打开并读取输入文件,该文件包含处理完毕的文档数据。
    • 对文件中的每一行数据,使用 BuildForwardIndex 函数构建正排索引条目,并调用 BuildInvertedIndex 函数构建倒排索引。
    • 在构建索引的过程中,显示进度条以指示索引构建的进度。

整体来说,上面这段代码展示了如何从文本数据中提取文档信息,并构建正排索引和倒排索引,以便在搜索引擎中快速检索相关文档。通过倒排索引,可以有效地根据关键字找到所有相关文档,提高搜索效率。

三、整体代码

⭕index.hpp

#pragma once
#include <iostream>
#include <string>
#include <vector>
#include <fstream>
#include <unordered_map>
#include <mutex>
#include "util.hpp" 
#include "log.hpp"  

#define NUM 101
#define X 10
#define Y 1

namespace ns_index {
    // 定义文档信息结构体
    struct DocInfo {
        std::string title;   // 文档的标题
        std::string content; // 文档内容(去标签后)
        std::string url;     // 文档的URL
        uint64_t doc_id;     // 文档的唯一ID
    };

    // 定义倒排列表中的元素结构体
    struct InvertedElem {
        uint64_t doc_id;   // 文档ID
        std::string word;  // 关键字
        int weight;        // 关键字权重
        InvertedElem() : weight(0) {} // 默认构造函数,权重初始化为0
    };

    // 倒排拉链储存列表
    typedef std::vector<InvertedElem> InvertedList;

    // 定义索引类Index
    class Index {
    private:
        // 正排索引存储文档信息
        std::vector<DocInfo> forward_index;
        // 倒排索引存储关键字到倒排列表的映射
        std::unordered_map<std::string, InvertedList> inverted_index;

        // 构造函数、拷贝构造函数和赋值操作符都设置为私有,防止被实例化
        Index() {}
        Index(const Index&) = delete;
        Index& operator=(const Index&) = delete;

        // 单例模式的实例指针
        static Index* instance;
        // 保护单例模式的互斥锁
        static std::mutex mtx;

    public:
        // 析构函数
        ~Index() {}
        // 获取单例模式的实例
        static Index* GetInstance() {
            // 双重检查锁定模式,确保线程安全地获取单例
            if (nullptr == instance) {
                mtx.lock();
                if (nullptr == instance) {
                    instance = new Index();
                }
                mtx.unlock();
            }
            return instance;
        }

        // 根据文档ID获取文档信息
        DocInfo* GetForwardIndex(uint64_t doc_id) {
            if (doc_id >= forward_index.size()) {
                std::cerr << "doc_id out of range, error!" << std::endl;
                return nullptr;
            }
            return &forward_index[doc_id];
        }

        // 根据关键字获取倒排拉链
        InvertedList* GetInvertedList(const std::string& word) {
            auto iter = inverted_index.find(word);
            if (iter == inverted_index.end()) {
                std::cerr << word << " have no InvertedList" << std::endl;
                return nullptr;
            }
            return &(iter->second);
        }

        // 构建索引,输入为处理完毕的数据文件路径
        bool BuildIndex(const std::string& input) {
            // 打开输入文件
            std::ifstream in(input, std::ios::in | std::ios::binary);
            if (!in.is_open()) {
                std::cerr << "sorry, " << input << " open error" << std::endl;
                return false;
            }

            // 读取文件行并构建索引
            std::string line;
            int count = 0;
            std::string bar(NUM, ' '); // 创建进度条
            bar[1] = '=';
            while (std::getline(in, line)) {
                DocInfo* doc = BuildForwardIndex(line);
                if (nullptr == doc) {
                    continue;
                }

                BuildInvertedIndex(*doc);
                count++;

                // 显示进度
                if (count % 86 == 0) {
                    int cnt = count / 86 + 1;
                    bar[cnt] = '=';
                    std::cout << "成功建立索引进度: " << bar << " [" << cnt << "%]" << "\r";
                    std::cout.flush();
                }
            }
            std::cout << std::endl;
            return true;
        }
    private:
        // 私有辅助函数,用于构建正排索引
        DocInfo* BuildForwardIndex(const std::string& line) {
            // 分割字符串为标题、内容和URL
            std::vector<std::string> results;
            const std::string sep = "\3"; // 行内分隔符
            ns_util::StringUtil::Split(line, &results, sep);
            if (results.size() != 3) {
                return nullptr;
            }

            // 创建文档信息并添加到正排索引
            DocInfo doc;
            doc.title = results[0];
            doc.content = results[1];
            doc.url = results[2];
            doc.doc_id = forward_index.size();
            //插入到正排索引的vector
            forward_index.push_back(std::move(doc));
            return &forward_index.back();
        }

        // 私有辅助函数,用于构建倒排索引
        bool BuildInvertedIndex(const DocInfo& doc) {
            // 分词并统计词频
            struct word_cnt{
                    int title_cnt;
                    int content_cnt;

                    word_cnt():title_cnt(0), content_cnt(0){}
            };
        
            std::unordered_map<std::string, word_cnt> word_map; //用来暂存词频的映射表

            //对标题进行分词
            std::vector<std::string> title_words;
            ns_util::JiebaUtil::CutString(doc.title, &title_words);

            //对标题进行词频统计
            for(std::string s : title_words){
                boost::to_lower(s);      //需要统一转化成为小写
                word_map[s].title_cnt++; //如果存在就获取,如果不存在就新建
            }

            //对文档内容进行分词
            std::vector<std::string> content_words;
            ns_util::JiebaUtil::CutString(doc.content, &content_words);
                
            //对内容进行词频统计
            for(std::string s : content_words){
                boost::to_lower(s);
                word_map[s].content_cnt++;
            }
            // 构建倒排列表
            for (const auto& word_pair : word_map) {
                InvertedElem item;
                item.doc_id = doc.doc_id;
                item.word = word_pair.first;
                item.weight = X * title_cnt.title_cnt + Y * content_cnt.content_cnt;
                InvertedList& inverted_list = inverted_index[word_pair.first];
                inverted_list.push_back(std::move(item));
            }

            return true;
        }
    };
    // 初始化单例模式的实例指针为nullptr
    Index* Index::instance = nullptr;
    // 初始化互斥锁
    std::mutex Index::mtx;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1591787.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI python

AI python 软件方面程序上的人工智能&#xff0c;和物理那种能跑机器人没关系

emmet语法---快速生成css样式

前言 本文是对emmet语法生成css样式的整理&#xff0c;emmet语法就相当于快捷键一样&#xff0c;只需要我们输入简单的缩写&#xff0c;然后按下tab键即可生成麻烦的css代码。 emmet语法生成css代码 其实&#xff0c;特别简单。比html还要简单。 先上案例&#xff1a; 我们输…

ControllerAdvice用法

ControllerAdvice用法 ControllerAdvice是一个组件注解&#xff0c;它允许你在一个地方处理整个应用程序控制器的异常、绑定数据和预处理请求。这意味着你不需要在每个控制器中重复相同的异常处理代码&#xff0c;从而使得代码更加简洁、易于管理。 主要特性 全局异常处理&a…

Python单元测试框架—pytest常用测试报告类型

&#x1f345; 视频学习&#xff1a;文末有免费的配套视频可观看 &#x1f345; 关注公众号【互联网杂货铺】&#xff0c;回复 1 &#xff0c;免费获取软件测试全套资料&#xff0c;资料在手&#xff0c;涨薪更快 先前博客有介绍pytest测试框架的安装及使用&#xff0c;现在来聊…

Stacked Hourglass Networks for Human Pose Estimation 用于人体姿态估计的堆叠沙漏网络

Stacked Hourglass Networks for Human Pose Estimation 用于人体姿态估计的堆叠沙漏网络 这是一篇关于人体姿态估计的研究论文&#xff0c;标题为“Stacked Hourglass Networks for Human Pose Estimation”&#xff0c;作者是 Alejandro Newell, Kaiyu Yang, 和 Jia Deng&a…

CADMap3D2024 2023下载地址及安装教程

CAD Map 3D是由Autodesk开发的一款专业的地图制作和GIS&#xff08;地理信息系统&#xff09;软件。它是AutoCAD系列软件的一个扩展&#xff0c;提供了一系列特定于地理数据的工具和功能。 CAD Map 3D主要用于处理和管理与地理空间相关的数据&#xff0c;在地图制作、城市规划…

数据结构学习之路--实现带头双向循环链表的详解(附C源码)

嗨嗨大家~本期带来的内容是&#xff1a;带头双向循环链表的实现。在上期文章中我们提到过带头双向循环链表&#xff0c;那么它的实现又是怎样的呢&#xff1f;今天我们来一探究竟&#xff01; 目录 前言 一、认识带头双向循环链表 1 认识双向链表 2 带头双向循环链表的定…

这 6 个探索性数据分析(EDA)工具,太实用了!

当进行数据分析时&#xff0c;探索性数据分析(EDA)是一个至关重要的阶段&#xff0c;它能帮助我们从数据中发现模式、趋势和异常现象。而选择合适的EDA工具又能够极大地提高工作效率和分析深度。 在本文中&#xff0c;我将介绍6个极其实用的探索性数据分析(EDA)工具&#xff0…

UTONMOS元宇宙游戏特点

在元宇宙的世界里&#xff0c;游戏不再只是一种娱乐方式&#xff0c;而是一种全新的生活体验。UTONMOS元宇宙游戏带你穿越虚拟与现实的边界&#xff0c;开启一段前所未有的冒险之旅。 在这个充满无限可能的UTONMOS元宇宙游戏中&#xff0c;你将成为自己游戏世界的主角。可以自…

Java(多线程)

一、基本概念 进程&#xff1a;一个具有一定独立功能的程序关于某个数据集合的一次运行活动。它是操作系统动态执行的基本单元&#xff0c;在传统的操作系统中&#xff0c;进程既是基本的分配单元&#xff0c;也是基本的执行单元。线程&#xff1a;操作系统中能够进行运算的最…

蓝桥杯 2019 省A 糖果 动态规划/二进制

#include <bits/stdc.h> // 包含标准库中的所有头文件 using namespace std;int main() {int n,m,k; // 定义变量n&#xff08;糖果包数&#xff09;、m&#xff08;口味数&#xff09;、k&#xff08;每包糖果的个数&#xff09;cin>>n>>m>>k; // 输入…

院子里种点什么树风水好呢?

植物本身是一个丰富的生活领域&#xff0c;有着强烈的视觉暗示。其实&#xff0c;在家中养植物&#xff0c;是有许多好处的&#xff0c;它不仅能够装点庭院的环境让家更美丽&#xff0c;还能调节室内的空气质量&#xff0c;对家人的运势也有着非常大的帮助。 不过&#xff0c;并…

Android 四大组件启动

service: startService启动过程分析 - Gityuan博客 | 袁辉辉的技术博客 在整个startService过程&#xff0c;从进程角度看服务启动过程 Process A进程&#xff1a;是指调用startService命令所在的进程&#xff0c;也就是启动服务的发起端进程&#xff0c;比如点击桌面App图标…

Java 中文官方教程 2022 版(四十九)

原文&#xff1a;docs.oracle.com/javase/tutorial/reallybigindex.html JAXB 示例 原文&#xff1a;docs.oracle.com/javase/tutorial/jaxb/intro/examples.html 以下部分描述如何使用包含在 JAXB RI 捆绑包中的示例应用程序。JAXB RI 捆绑包可从jaxb.java.net获取。下载并安装…

华为云配置安全组策略开放端口

&#x1f436;博主主页&#xff1a;ᰔᩚ. 一怀明月ꦿ ❤️‍&#x1f525;专栏系列&#xff1a;线性代数&#xff0c;C初学者入门训练&#xff0c;题解C&#xff0c;C的使用文章&#xff0c;「初学」C &#x1f525;座右铭&#xff1a;“不要等到什么都没有了&#xff0c;才下…

文件上传【2】--靶场通关

1.前端禁用js绕过 上传文件&#xff0c;进行抓包&#xff0c;没有抓到&#xff0c;说明这里的验证是前端js验证跳出的弹窗 禁用js后&#xff0c;php文件上传成功。 2.文件上传.htaccess 上传png木马后连接不上 代码中存在.htaccess&#xff0c;判断此时应该就是需要用到.htac…

单细胞RNA测序(scRNA-seq)cellranger count的细胞定量和aggr整合

单细胞RNA测序(scRNA-seq)基础知识可查看以下文章: 单细胞RNA测序(scRNA-seq)工作流程入门 单细胞RNA测序(scRNA-seq)细胞分离与扩增 单细胞RNA测序(scRNA-seq)SRA数据下载及fastq-dumq数据拆分 单细胞RNA测序(scRNA-seq)Cellranger流程入门和数据质控 细胞定量…

[大模型]Qwen1.5-7B-Chat FastApi 部署调用

Qwen1.5-7B-Chat FastApi 部署调用 环境准备 在 Autodl 平台中租赁一个 3090 等 24G 显存的显卡机器&#xff0c;如下图所示镜像选择 PyTorch–>2.0.0–>3.8(ubuntu20.04)–>11.8&#xff08;11.3 版本以上的都可以&#xff09;。 接下来打开刚刚租用服务器的 Jupyt…

yolov9训练自己的数据—vehicle 4类

yolov9训练自己的数据 1 conda环境安装指定版本torch 2 预训练模型测试3 训练自己的数据集3.1 制作数据3.2 创建模型配置文件3.3 创建数据加载配置文件3.4 使用ClearML跟踪训练日志3.5 训练3.6 模型测试3.7 转换成TensorRT模型 4 参考文档 1 conda环境 下载yolov9代码&#xf…

Traefik和HAProxy全方位对比

在面对各种现代应用部署需求时&#xff0c;选择合适的反向代理和负载均衡器至关重要。Traefik&#x1f6a6;和HAProxy&#x1f6e1;️都是领先的解决方案&#xff0c;但它们各有特点&#xff0c;适用于不同的场景。本文将从多个维度全面对比Traefik&#x1f6a6;和HAProxy&…