项目日记(1): boost搜索引擎

news2024/11/13 16:26:47

目录

1. 项目相关背景

2. 搜索引擎的相关宏原理

3. 搜索引擎的技术栈和项目环境

4. 正排索引, 倒排索引, 搜索引擎具体原理

5. 编写数据去标签化和数据清洗的模块parser(解析器).


1.项目相关背景

百度, 搜狗, 360等都有搜索引擎, 但是都是全网的搜索;

 boost是进行站内搜索, 数据更少并且垂直.

观察通过不同的搜索引擎进行查找的时候会出现不同的关键字, 一般包括title, content, 网址, 时间等.

2. 搜索引擎的相关宏原理

        实现用户通过客户端的浏览器输入关键字, 通过get方式, 然后http发送请求给服务端内存中的searcher, searcher再通过已经抓取好网页并且存放在data/*html目录下进行数据清理去标签建立索引的步骤, 将查找到的多个网页的title, content, url进行拼接, 最后返回给用户一个新的网页.

        在后面实现的部分主要是完成对客户端和服务端的流程, 爬虫网页数据就不做了.

3. 搜索引擎的技术栈和项目环境

技术栈:

        c/c++, c++11, STL, 标准库boost, Jesoncpp, cppjieba, cpp-httplib, html5, css, js, jQuery, Ajax.

项目环境:

        Centos 7云服务器, vim/g++/Makefile, vscode.

4. 正排索引, 倒排索引, 搜索引擎具体原理

正排索引:  由文档ID找到文档内容;

倒排索引: 根据文档的内容, 分词, 整理不重复的各个关键字, 对应到相应的文档ID.

举个栗子:

        妈妈买了四斤蔬菜; 妈妈买了一斤肉; 妈妈买了三两饺子皮.

正排索引: 

倒排索引:

5. 编写数据去标签化和数据清洗的模块parser(解析器)

5.1 官网下载标准库

首先到boost官网去下载好标准库; 网址: https://www.boost.org/

然后使用Xshell将下载好的标准库rz, 然后解包, 将标准库留下.

这里我是创建了一个boost_searcher目录来存放所有需要的文件数据.

其中boost_1_85_0就是boost下载好的标准库.

data目录下的input(从boost_1_85_0里面的doc目录下的html目录的全部数据拿出来的)存放原始html的数据, raw_html是处理过的文件数据.

parser.cc就是用来实现去标签化和数据清洗的函数.

5.2 去标签

一般html文件里面都是出现大量成对的标签, 我们只需要内容, 所以标签对我们没有作用要去除.

去除标签之后的每个文档如何区分捏?

使用\3进行标记区分文档. 读取的时候使用getline(ifstream, line); line就是\3.

5.3 编写parser代码

1. 在boost_searcher里创建一个parser.cc的文件; 

2. 先实现大体的框架; 首先EnumFile递归原html的所有文档, 将它们放到file_list数组里面;

3. ParserHtml从file_list里面将文件读取出来并且解析出来title, content, url;

4. SaveHtml 是将解析好的数据文件写入到output里面.

#include <iostream>
#include <vector>
#include <string>
#include <boost/filesystem.hpp>
#include <utility>
#include <fstream>
#include "util.hpp"
using namespace std;


// 原来没处理过的html数据的文件目录.
const string src_path = "data/input";
// 将数据清洗以及去标签过的数据放到这个目录文件中
const string output = "data/raw_html/raw.txt";

typedef struct DocInfo
{
    string title;
    string content;
    string url;
}DocInfo_t;

//这里规定一下:
//const &: 输入;
//*: 输出;
//&: 输入输出;


bool EnumFile(const string& src_file, vector<string>* file_list);

bool ParserHtml(const vector<string>& file_list, vector<DocInfo>* results);

bool SaveHtml(const vector<DocInfo_t>& result,const string& output);


int main()
{
    //1. 递归将所有的html文件带路径的保存到file_list, 方便对文件进行一个个查询.
    vector<string> file_list;
    if(!EnumFile(src_path, &file_list))
    {
        cerr << "Enum File error!" << endl;
        return 1;
    }

    //2.按照file_list读取每个文件的内容.并且进行解析;
    vector<DocInfo_t> results;
    if(!ParserHtml(file_list, &results))
    {
        cerr << "Parser Html error!" << endl;
        return 2;
    }

    //3.将各个文件进行解析好的文件内容, 写入到output, \3为每个文档的分割符;
    if(!SaveHtml(results, output))
    {
        cerr << "Save Html error!" << endl;
        return 3;
    }

    return 0;
}

EnumFile模块: 

1.首先使用到标准库里面的接口boost::filesystem以及path来查看是否src_file的资源路径是否存在.

2. 使用ecursive_directory_iterator对src_file资源进行遍历, 再进一步筛选是否为普通文件以及.html后缀的文件. 如果是的话就将其放到数组file_list里面.

bool EnumFile(const string& src_path, vector<string>* file_list)
{
    // 这里是标准库<boost/filesystem.hpp>提供的接口和结构体;
    namespace fs = boost::filesystem;
    fs::path root_path(src_path);

    // 实现判断原资源数据路径是否存在.
    if(!fs::exists(root_path))
    {
        cerr << src_path << "no exists" << endl;
        return false;
    }

    //进行html文档的遍历, 如果为空就是遍历完成了.
    fs::recursive_directory_iterator end;
    for(fs::recursive_directory_iterator iter(root_path); iter != end; iter++)
    {
        //判断是否为普通文件, 因为html都是普通文件.
        if(!fs::is_regular_file(*iter))
        {
            continue;
        }

        //判断是否为html后缀的文件.
        if(iter->path().extension() != ".html")
        {
            continue;
        }
        cout << "debug: " << iter->path().string() << endl;
        //当前路径一定是合法的html为后缀的文件
        file_list->push_back(iter->path().string());
    }

    return true;
}

1. ParserHtml: 将处理好的源html数据存放在file里的, 对其进行遍历, 然后对文件中的title, content, url进行解析, 最后存放到result数组里面.

2. 然后使用ParserTitle进行将title解析; 因为title的内容都是放在<title> </title>里面; 

我们只要找到<title> 和 </title> 然后将中间的内容切分即可.

3. ParserContent进行去标签获取内容, 采用状态机的方法, 枚举LABLE和CONTENT, 这里需要注意一般html里面开头也是标签, 所以初始化status是LABLE, 对file进行遍历, 如果遇到>那么就代表是标签的结束, status就是CONTENT, 如果遇到<那么就代表是标签的开始, status就是LABLE. 如果遇到\n, 我们需要使用\n做分隔符, 所以要把原来的变成空串, 最后将拼接好的字符串放到content.

4. ParserUrl进行url的解析, 那么我们boost官网查询和我们存放在自己的路径是不同的.

上面是url_head, 下面的url_tail只shangchu需要将data/input删除即可.

static bool ParserTitle(const string& file, string* title)
{
    size_t begin = file.find("<title>");
    if(begin == string::npos)
        return false;
    
    size_t end = file.find("</title");
    if(end == string::npos)
        return false;
    
    begin += string("<title>").size();

    if(begin > end)
        return false;
    
    *title = file.substr(begin, end - begin);
    return true;
}

static bool ParserContent(const string& file, string* content)
{
    //去除html里面的标签;状态机
    enum status
    {
        LABLE,
        CONTENT
    };

    //默认一般html的开头都是标签.
    enum status s = LABLE;
    for(char c : file)
    {
        switch(s)
        {
          case LABLE:
            if(c == '>')
                s = CONTENT;
          case CONTENT:
            if(c == '<')
                s = LABLE;
            else
            {
                //原本文件的\n去除, 因为要用\n来做文本分割符;
                if(c == '\n')
                    c = ' ';
                content->push_back(c);
            }
            break;
          default:
            break;
        }
    }

    return true;
}

static bool ParserUrl(const string& file_path, string* url)
{
    //这个是网址拼接.
    string url_head = "https://www.boost.org/doc/libs/1_85_0/doc/html/accumulators.html";
    string url_tail = file_path.substr(src_path.size());

    *url = url_head + url_tail;
    return true;
}

static void ShowDoc(const DocInfo& doc)
{
    cout << "title: " << doc.title << endl;
    cout << "content: " << doc.content << endl;
    cout << "url: " << doc.url << endl;

}

//将获取的html资源file_list解析处理后放到result;
bool ParserHtml(const vector<string>& file_list, vector<DocInfo_t>* results)
{
    for(const string& file : file_list)
    {
        string result;
        //读取每个文件的内容;
        if(!ns_util::FileUtil::ReadFile(file, &result))
        {
            continue;
        }

        DocInfo_t doc;
        //解析文件, 读取title;
        if(!ParserTitle(result, &doc.title))
        {
            continue;
        }

        //解析文件, 读取content;
        if(!ParserContent(result, &doc.content))
        {
            continue;
        }

        //解析文件, 读取url;
        if(!ParserUrl(result, &doc.url))
        {
            continue;
        }
        
        results->push_back(move(doc)); //提高效率减少拷贝.

        //for test
        ShowDoc(doc);
        break;
    }
    return true;
}

util.hpp: FileUtil是将每条源html的资源进行输出;

#pragma once

#include <iostream>
#include <vector>
#include <string>
#include <fstream>

using namespace std;

namespace ns_util
{
    class FileUtil
    {
    public:
        //读取文件file_path里面的内容并且放到out;
        static bool ReadFile(const string& file_path, string* out)
        {
            ifstream in(file_path, ios::in);
            //如果没有打开文件成功
            if(!in.is_open())
            {
                cerr << "open file" << file_path << "error" << endl;
                return false;
            }

            string line;
            while(!getline(in, line))
            {
                *out += line;
            }
            in.close();
            return true;
        }
    };
};

SaveHtml:将解析好的数据进行文档分割和内容分割. 将解析好的数据以这种方式写入到output.

//将解析的数据读写到output每个文档\n分割, 每个文档的title, content, url以\3分割.
bool SaveHtml(const vector<DocInfo_t>& result,const string& output)
{
#define SEP '\3'

    //采用二进制方式写入;
    ofstream out(output, ios::out | ios::binary);
    if(!out.is_open())
    {
        cerr << "open " << output << "failed!" << endl;
        return false;
    }

    for(auto& item : result)
    {
        string out_string;
        out_string = item.title;
        out_string += SEP;
        out_string += item.content;
        out_string += SEP;
        out_string += item.url;
        out_string += '\n';

        out.write(out_string.c_str(), out_string.size());
    }

    out.close();
    return true;
}

后言: 好久没更新博客了, xdm求个三联, 多多更新超多计算机网络, Linux, c++, c, 算法内容.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1696720.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python筑基之旅-运算符

目录 一、运算符 1、了解定义 2、理解意义 2-1、基本数据处理 2-2、条件判断 2-3、逻辑操作 2-4、赋值和更新 2-5、位操作 2-6、提高代码可读性 2-7、解决实际问题 2-8、学习其他编程语言的基础 3、探索方法 3-1、理解概念 3-2、练习基本运算 3-3、掌握优先级 …

Jenkins、GitLab部署项目

1、安装JDK 1.1、下载openJdk11 yum -y install fontconfig java-11-openjdk1.2、查看安装的版本号 java -version1.3、配置环境变量 vim /etc/profile在最底部添加即可 export JAVA_HOME/usr/lib/jvm/java-11-openjdk-11.0.23.0.9-2.el7_9.x86_64 export PATH$JAVA_HOME/…

aosp14的分屏接口ISplitScreen接口获取方式更新-学员疑问答疑

背景&#xff1a; 有学员朋友在学习马哥的分屏pip自由窗口专题时候&#xff0c;做相关分屏做小桌面项目时候&#xff0c;因为原来课程版本是基于android 13进行的讲解的&#xff0c;但是现在公司已经开始逐渐进行相关的android 14的适配了&#xff0c;但是android 14这块相比a…

lspci 显示当前设备的PCI总线信息

lspci 显示当前设备的PCI总线信息 lspci 显示当前设备的PCI总线信息显示当前主机的所有PCI总线信息&#xff1a;以数字方式显示PCI厂商和设备代码同时显示数字方式还有设备代码信息以树状结构显示PCI设备的层次关系&#xff1a;更多信息 lspci 显示当前设备的PCI总线信息 lspc…

探索 Mistral 新发布的具有原生函数调用功能的 7B 模型【附notebook文件】

引言 Mistral 发布了新版的 7B 模型&#xff0c;这次更新引入了原生函数调用功能。对于开发者和 AI 爱好者来说&#xff0c;这一更新极具吸引力&#xff0c;因为它增强了模型的功能和实用性。在这篇博客中&#xff0c;我们将深入探讨这些新功能&#xff0c;展示如何使用该模型…

python表达式解析的陷阱与技巧

新书上架~&#x1f447;全国包邮奥~ python实用小工具开发教程http://pythontoolsteach.com/3 欢迎关注我&#x1f446;&#xff0c;收藏下次不迷路┗|&#xff40;O′|┛ 嗷~~ 目录 一、引言&#xff1a;表达式的复杂性 二、案例分析&#xff1a;表达式的解读 三、陷阱揭示…

架构与思维:4大主流分布式算法介绍(图文并茂、算法拆解)

介绍 本文聚焦高并发场景下分布式一致性算法的分析和讨论 分布式场景下困扰我们的3个核心问题&#xff08;CAP&#xff09;&#xff1a;一致性、可用性、分区容错性。 1、一致性&#xff08;Consistency&#xff09;&#xff1a; 无论服务如何拆分&#xff0c;所有实例节点同一…

【安全产品】基于HFish的MySQL蜜罐溯源实验记录

MySQL蜜罐对攻击者机器任意文件读取 用HFish在3306端口部署MySQL蜜罐 配置读取文件路径 攻击者的mysql客户端版本为5.7(要求低于8.0) 之后用命令行直连 mysql -h 124.222.136.33 -P 3306 -u root -p 可以看到成功连上蜜罐的3306服务&#xff0c;但进行查询后会直接lost con…

解决CLion调试时无法显示变量值的问题

1 问题描述 使用CLion的时候&#xff0c;调试时无法显示变量的值&#xff0c;例如&#xff1a; 图来自StackOverflow。 2 解决办法 可以尝试切换调试器解决&#xff0c;在Linux下&#xff0c;CLion支持GDB和LLDB&#xff0c;如果GDB不行&#xff0c;可以切换到LLDB。 切换方…

定积分求解过程是否变限问题 以及当换元时注意事项

目录 定积分求解过程是否变限问题 文字理解&#xff1a; 实例理解&#xff1a; 易错点和易混点&#xff1a; 1&#xff1a;定积分中的换元指什么&#xff1f; 2&#xff1a; 不定积分中第一类换元法和第二类换元法的本质和区别 3&#xff1a; df(x) ----> df(x)这…

001 仿muduo库实现高性能服务器组件_项目简介

​&#x1f308;个人主页&#xff1a;Fan_558 &#x1f525; 系列专栏&#xff1a;仿muduo &#x1f339;关注我&#x1f4aa;&#x1f3fb;带你学更多知识 文章目录 一、项目简介二、所需知识储备三、什么是muduo四、Reactor模式单Reactor单线程&#xff1a;单I/O多路复⽤业务…

车载电子电器架构 —— 应用软件开发(下)

车载电子电器架构 —— 应用软件开发(下) 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证…

美军配备人工智能武器的机器狗引发伦理争议

近日&#xff0c;美国海军陆战队特种作战司令部&#xff08;MARSOC&#xff09;的一项测试引发了全球关注&#xff1a;他们正在评估一种由“幽灵机器人”公司研发的最新型机器狗&#xff0c;并考虑为其配备“玛瑙工业”公司提供的武器系统。这一消息犹如在平静的湖面投下一颗石…

Star-CCM+中滞环的实现—场平均监视

前言 前文有介绍过通过更新事件来实现滞环,但是更新事件的方法比较繁琐,应用起来比较困难,本文将介绍一种简单的方法来实现滞环功能。即通过场平均监视来实现,具体方法如下: 一 创建场平均监视 首先在检测量下创建“场平均监视”,具体操作步骤如下图所示: 二 创建质量…

看这两位东北圣女美吗?如何描写美女的大长腿?

看这两位东北圣女美吗&#xff1f;如何描写美女的大长腿&#xff1f; 最近署名为懂球娘娘的一篇描写东北圣女的文章火了&#xff0c;文中描述了海棠朵朵与辛芷蕾这两位娇媚动人的角色。其美艳动人的形象和魅力四溢的描写让人为之倾倒。 这种通过文字展现人物魅力的能力让人佩服…

中间件-------RabbitMQ

同步和异步 异步调用 MQ MQ优势&#xff1a;①服务解耦 ②异步调用 ③流量削峰 结构 消息模型 RabbitMQ入门案例&#xff0c;实现消息发送和消息接收 生产者&#xff1a; public class PublisherTest {Testpublic void testSendMessage() throws IOException, TimeoutExce…

【Visual Studio】没法进断点

文章目录 先看看文心一言给的回答 开发过程中&#xff0c;没法进断点的情况还是很少的&#xff08;指的是一直进不去的情况&#xff0c;热重载导致的都可以通过重启ide解决&#xff09;&#xff0c;但还是有极少数情况下会出现。 先看看文心一言给的回答 如果Visual Studio无…

2024年NGFW防火墙安全基准-防火墙安全功效竞争性评估实验室总结报告

Check Point 委托 Miercom 对 Check Point 下一代防火墙 (NGFW) 开展竞争性安全有效性测试&#xff0c; 选择的竞品分别来自 Cisco、Fortinet 和 Palo Alto Networks。对 Zscaler 的测试涉及他们的 SWG&#xff08;安全网关&#xff09;。测试内容包括验证防病毒、反恶意软件、…

文本处理工具grep及sed

文章目录 一、grep文本处理工具二、sed文本处理工具基本用法sed脚本格式搜索替代 一、grep文本处理工具 选项含义-color对匹配到的文本着色显示-m 次数匹配到规定的次数后停止-v显示不被命令匹配到的行,即取反-i忽略字符大小写-n显示匹配的行号-c统计匹配的行数-o仅显示匹配到…