项目实战--文档搜索引擎

news2025/1/6 20:13:53

在我们的学习过程中,会阅读很多的文档,例如jdk的API文档,但是在这样的大型文档中,如果没有搜索功能,我们是很难找到我们想查阅的内容的,于是我们可以实现一个搜索引擎来帮助我们阅读文档。

1. 实现思路

1.1 获取文档 

第一点,要搜索指定内容,首先要先获取到内容,我们以实现Java API文档搜索引擎来说,我们要先获取到Java的API文档,我们可以在Oracle的官网找到:Overview (Java SE 17 & JDK 17) (oracle.com)

Oracle官网提供了在线和离线两种文档,我们可以下载离线文档,通过离线文档来实现。

离线文档下载地址:Java 开发工具包 17 文档 (oracle.com)

下载好后解压缩,在 jdk-17.0.11_doc-all\docs\api 目录和子目录下的所有html文件就是所有的api文档

1.2 通过关键词查询

获取到了文档,我们还需要能够通过关键词定位到相关的文档,这里需要用到索引 

  • 正排索引: 给每个文档引入一个文档id,文档id是每个文档的身份标识,不能重复,通过文档id快速获取到对应文档就叫正排索引。
  • 倒排索引:通过一个或几个关键词查询到与之有关的所有文档的文档id,这种方式就叫到排索引。

于是要实现关键词查询,我们只需要给下载好的Java API文档实现一个正排索引和倒排索引,通过到排索引查询到相关的文档的id,要查看某个文档时再用查询到的id使用正排索引查询到对应文档。

1.3 如何返回查询到的结果

查询到对应的api文档之后,如何返回给用户,这里我的想法是返回一个在线文档的url,当用户想要查看某个文档时,返回Oracle官方的在线文档对应的页面的url。

那么此种方式就需要我们把在线文档的url和离线文档联系起来:

我们观察某个文档的url和在线文档的本地路径:

在线文档:

离线文档: 

 

 我们发现相同api文档的在线版本的url和离线版本路径,它们的后半部分是相同的,所有我们只需要通过一些字符串拼接操作,就可以通过离线文档的文件路径得到在线文档的url。

1.4 模块划分

通过上面的叙述,我们可以对我们的程序进行一个模块划分:

  • 索引模块:扫描并解析所有的本地文档并构建出索引;提供一些API实现查正排/到排的功能
  • 搜索模块:调用索引模块通过关键词查询到相关文档信息,并处理后返回
  • Web模块:实现一个简单的Web程序,能通过网页的形式和用户交互

2. 索引模块实现

创建一个Spring项目

2.1 实现Parser类 

实现一个Parser类用于扫描并解析本地的离线文档:

package org.example.docsearcher.config;

@Configuration
public class Parser {
    //指定文档文件的路径
    private static final String FILE_PATH = "D:/桌面/jdk-17.0.11_doc-all/docs/api";


    //解析文档
    private void parser() {
        //1.找出所有html文件
        List<File> fileList = new ArrayList<>();
        enumFile(FILE_PATH, fileList);

        //2.对每个HTML文件进行解析
       for(File f : fileList) {
           parserHTML(f);
       }
    }

    //枚举出所有的html文件
    private void enumFile(String filePath, List<File> fileList) {

    }

    //解析出html文件的内容
    private void parserHTML(File file) {

    }
}

实现enumFile方法:

    private void enumFile(String filePath, List<File> fileList) {
        File file = new File(filePath);
        //获取目录下的文件列表
        File[] files = file.listFiles();
        for(File f : files) {
            if(f.isDirectory()) {
                //如果f是目录则递归添加文件
                enumFile(f.getAbsolutePath(), fileList);
            }else if(f.getName().endsWith(".html")){
                //如果f是html文件则添加到fileList中
                fileList.add(f);
            }
        }
    }

实现parserHTML方法:

要实现parserHTML方法我们要先理清楚,html文件中有什么和我们需要什么:

  • 标题:返回查询结果时,可以展示给用户以供选择
  • 正文:用于提取关键词构建倒排索引
  • url:用户点击时通过url跳转到对应页面
    private void parserHTML(File file) {
        //a.解析出标题
        String title = parserTitle(file);

        //b.解析出url
        String url = parserUrl(file);

        //c.解析出正文
        String content = parserContent(file);

    }

    private String parserContent(File file) {
        StringBuilder content = new StringBuilder();
        //按字节读,这里使用BufferedReader 提高速度
        try(BufferedReader bufferedReader = new BufferedReader(new FileReader(file), 1024 * 1024)) {
            while(true) {
                int ch = bufferedReader.read();
                if(ch == -1) {
                    //文件读完了
                    break;
                }
                content.append((char)ch);
            }
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
        String ret = content.toString();

        //使用正则表达式替换掉js代码
        ret = ret.replaceAll("<script.*?>.*?</script>", "");
        //使用正则表达式替换html标签
        ret = ret.replaceAll("<.*?>", "");
        //把换行符和连续的多个空格替换为一个空格使内容更美观
        ret = ret.replaceAll("\\s+", " ");
    }

    private String parserUrl(File file) {
        //拼接出在线文档对应的url
        String s1 = "https://docs.oracle.com/en/java/javase/17/docs/api";
        String s2 = file.getAbsolutePath().substring(FILE_PATH.length()).replace("\\", "/");
        return s1 + s2;
    }

    private String parserTitle(File file) {
        String fileName = file.getName();
        return fileName.substring(0, fileName.length() - ".html".length());
    }

 注意:FileReader的read方法是每次从磁盘里读取一个字符到内存中,BuferedReader 内部带有一个缓存区,会一次把多个字符加载到缓存区中,调用read方法时会从缓存区中读取字符,减少直接访问磁盘的次数提高了速度,构造方法中的第二个参数就是设置缓冲区的大小,单位是字节

2.2 实现Index类

实现Index类用于创建索引和通过关键词和索引查询相关文档:

前排索引由文档id和文档组成,要求能够通过文档id快速查询到文档,索引我们可以使用一个List来储存前排索引,即通过数组下标当作文档id,数组的内容即为文档的信息,于是我们创建一个DocInfo类用于存储文档信息:

package org.example.docsearcher.model;

import lombok.Data;

@Data
public class DocInfo {
    //储存一个文档的相关信息
    private int docId;
    private String title;
    private String url;
    private String content;

    public DocInfo() {

    }

    public DocInfo(String title, String url, String content) {
        this.title = title;
        this.url = url;
        this.content = content;
    }
}

于是前排索引的形式就是:

List<DocInfo> forwardIndex;

后排索引要求由关键词查询到文档id,索引我们可以使用哈希表来关联关键词和文档id:

Map<String, List<Integer>> invertedIndex;

 但是只存储一个文档id无法表示不同文档和某一个关键词的相关程度,于是这里我们可以实现一个Relate类,用于存储一个关键词和一个文档直接的关联程度:

package org.example.docsearcher.model;

import lombok.Data;

@Data
public class Relate {
    //存储某个关键词和文档的相关程度

    //关键词
    private String key;
    //文档id
    private int docId;
    //权重,该值越大说明相关性越高
    private int weight;

    public Relate() {

    }

    public Relate(String key, int docId, int weight) {
        this.key = key;
        this.docId = docId;
        this.weight = weight;
    }
}

这里的权重我们可以以该关键词在该文档中出现的次数来表示 

于是最后的后排索引的形式是:

Map<String, List<Relate>> invertedIndex;

Index实现: 

package org.example.docsearcher.config;

@Configuration
public class Index {

    //前排索引
    public static List<DocInfo> forwardIndex = new ArrayList<>();
    //后排索引
    public static Map<String, List<Relate>> invertedIndex = new HashMap<>();

    //通过docId,在正排索引中查询文档信息
    public DocInfo getDocInfoById(int docId) {
        return forwardIndex.get(docId);
    }

    //通过一个关键词在倒排索引中查看相关文档
    public List<Relate> getDocInfoByKey(String key) {
        return invertedIndex.get(key);
    }

    //在索引中新增一个文档
    public void addDoc(String title, String url, String content) {
        //增加前排索引
        DocInfo docInfo = addForward(title, url, content);

        //增加后排索引
        addInverted(docInfo);
    }


    private DocInfo addForward(String title, String url, String content) {

    }

    private void addInverted(DocInfo docInfo) {

    }
}

 实现addForward:

    private DocInfo addForward(String title, String url, String content) {
        DocInfo docInfo = new DocInfo(title, url, content);
        docInfo.setDocId(forwardIndex.size());
        forwardIndex.add(docInfo);
        return docInfo;
    }

实现addInverted:

实现该方法我们需要找出该文档中的所有词,并统计每个词出现的次数,我们可以使用 ansj 库来实现分词操作:

在pom文件中添加对应依赖:

        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.6</version>
        </dependency>
    private void addInverted(DocInfo docInfo) {
        //通过分词统计每个词在文章中出现的次数来作为相关性权重
        Map<String, Integer> countMap = new HashMap<>();

        //统计标题中的词 权重为10
        String title = docInfo.getTitle();
        //分词,Term是ansj中的库,用于储存一个词的信息
        //parse()方法用于分词,getTerms把parse的返回结果转为一个List<Term>
        List<Term> terms = ToAnalysis.parse(title).getTerms();
        for(Term term : terms) {
            String key = term.getName();
            int count = countMap.getOrDefault(key, 0) + 10;
            countMap.put(key, count);
        }

        //统计正文中的词 权重为1
        String content = docInfo.getContent();
        terms = ToAnalysis.parse(content).getTerms();
        for(Term term : terms) {
            String key = term.getName();
            int count = countMap.getOrDefault(key, 0) + 1;
            countMap.put(key, count);
        }

        //添加到invertedIndex
        for(Map.Entry<String, Integer> entry : countMap.entrySet()) {
            String key = entry.getKey();
            int weight = entry.getValue();
            List<Relate> relates = invertedIndex.get(key);
            Relate relate = new Relate(key, docInfo.getDocId(), weight);
            if(relates == null) {
                relates = new ArrayList<>();
                relates.add(relate);
                invertedIndex.put(key, relates);
            }else {
                relates.add(relate);
            }
        }
    }

由于制作索引的速度是非常慢的,所有我们可以把制作好的索引存储在磁盘里,使用时再从磁盘加载到内存中,避免每次使用都要制作索引:

在Index类中增加一个存储索引的文件夹路径的常量:SAVE_PATH

实现save 和 load 方法用于保存和加载索引:

由于我们的索引是以对象的形式存在的,所以我们先需要把对象序列化再存入磁盘中,我们可以使用jackson库来完成这个操作

        <dependency>
            <groupId>com.fasterxml.jackson.core</groupId>
            <artifactId>jackson-databind</artifactId>
            <version>2.17.0</version>
        </dependency>

    public void save() {
        //jackson
        ObjectMapper mapper = new ObjectMapper();

        File file = new File(SAVE_PATH);
        //判断目录是否存在,不存在则创建目录
        if(!file.exists()) {
            file.mkdirs();
        }

        //使用两个文件分别保存正排索引和倒排索引
        File forward = new File(SAVE_PATH + "forward.txt");
        File inverted = new File(SAVE_PATH + "inverted.txt");
        try {
            //写入到文件
            mapper.writeValue(forward, forwardIndex);
            mapper.writeValue(inverted, invertedIndex);
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

    public void load() {
        ObjectMapper mapper = new ObjectMapper();
        File forward = new File(SAVE_PATH + "forward.txt");
        File inverted = new File(SAVE_PATH + "inverted.txt");
        try {
            //加载到内存
            forwardIndex = mapper.readValue(forward, new TypeReference<List<DocInfo>>() {});
            invertedIndex = mapper.readValue(inverted, new TypeReference<Map<String, List<Relate>>>() {});
        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }

2.3 联系Parser和Index

 在上面的代码中,Parser类主要负责解析html文件,Index负责通过解析出的信息来生成索引,所以需要把Parser类解析出来的信息传给Index生成索引,我们可以在parserHTML()方法的最后调用Index类的addDoc()方法,让文件一解析就传给addDoc()开始添加索引,我们给Parser类添加一个Index类的成员变量,通过这个对象来调用addDoc()方法:

 parserHTML()方法:

    private void parserHTML(File file) {
        //a.解析出标题
        String title = parserTitle(file);

        //b.解析出url
        String url = parserUrl(file);

        //c.解析出正文
        String content = parserContent(file);

        //d.添加索引
        index.addDoc(title, url, content);
    }

到现在我们的索引模块的功能就已经实现了,调用Parser类的parser方法即可开始解析文件并制作索引。

2.4 速度优化

当我们完成这部分代码,开始制作索引时,发现制作索引的速度是非常慢的,我们添加一些代码统计制作索引的过程消耗的时间:

可以看到,我们制作索引的时间大概消耗了15秒,这只是相对于Java文档来说,要是是更大的文档时间会更长,要想提高速度,我们要先找到代码的那一步影响的速度,显而易见,解析和田间索引消耗的时间最多即parser()方法包含的代码,我们可以考虑优化这部分代码,该部分的代码主要包含三个操作:

  • 解析文件
  • 生成正排索引
  • 生成到排索引 

要优化这部分操作的速度我们可以考虑使用多线程,使用多个线程来并发完成这个操作:

实现一个parserByThread()方法使用多线程完成索引制作:

    private void parserByThread() throws InterruptedException {
        //1.找出所有html文件
        List<File> fileList = new ArrayList<>();
        enumFile(FILE_PATH, fileList);

        //2.使用线程词并发对每个HTML文件进行解析并制作索引
        CountDownLatch countDownLatch = new CountDownLatch(fileList.size());
        ExecutorService executorService = Executors.newFixedThreadPool(4);
        for(File f : fileList) {
            executorService.submit(new Runnable() {
                @Override
                public void run() {
                    System.out.println("开始解析:" + f.getAbsolutePath());
                    parserHTML(f);
                    countDownLatch.countDown();
                }
            });
        }

        //等待所有任务执行完成
        countDownLatch.await();

        //3.把索引文件保存到磁盘
        index.save();
    }

上面代码中我们使用了线程池,用4个线程来完成解析和制作索引的工作,使用CountDownLatch类来保证所有任务执行完再开始执行save方法,CountDownLatch构造方法传入的参数是执行任务的个数,每个任务执行完后需调用countDown方法,执行到await方法时如果调用countDown方法的次数小于实例CountDownLatch时传入的参数就会阻塞等待,直到调用countDown方法次数等于传入参数。

接下来我们还需要考虑线程安全问题,当多个线程操作同一块内存时就会出现线程安全问题 :

在我们的代码中有添加索引时存在这种情况,也就是addForward方法和addInverted方法,我们需要给访问内存的代码加锁来保证线程安全问题:

    private DocInfo addForward(String title, String url, String content) {
        DocInfo docInfo = new DocInfo(title, url, content);
        synchronized (locker1) {
            docInfo.setDocId(forwardIndex.size());
            forwardIndex.add(docInfo);
        }
        return docInfo;
    }
    private void addInverted(DocInfo docInfo) {
        //通过分词统计每个词在文章中出现的次数来作为相关性权重
        Map<String, Integer> countMap = new HashMap<>();

        //统计标题中的词 权重为10
        String title = docInfo.getTitle();
        List<Term> terms = ToAnalysis.parse(title).getTerms();

        for(Term term : terms) {
            String key = term.getName();
            int count = countMap.getOrDefault(key, 0) + 10;
            countMap.put(key, count);
        }

        //统计正文中的词 权重为1
        String content = docInfo.getContent();
        terms = ToAnalysis.parse(content).getTerms();
        for(Term term : terms) {
            String key = term.getName();
            int count = countMap.getOrDefault(key, 0) + 1;
            countMap.put(key, count);
        }

        //添加到invertedIndex
        for(Map.Entry<String, Integer> entry : countMap.entrySet()) {
            String key = entry.getKey();
            int weight = entry.getValue();
            synchronized (locker2) {
                List<Relate> relates = invertedIndex.get(key);
                Relate relate = new Relate(key, docInfo.getDocId(), weight);
                if(relates == null) {
                    relates = new ArrayList<>();
                    relates.add(relate);
                    invertedIndex.put(key, relates);
                }else {
                    relates.add(relate);
                }
            }
        }
    }

注意两个方法操作的内存不是同一块,所有可以使用不同的的对象来加锁。

运行代码:

可以看到速度的提升非常明显 ,不过这里我们发现当索引制作完成我们的代码还没有提示运行结束,这是因为,我们通过线程池创建的线程模式是非守护线程,非守护线程会阻止进程的结束,我们可以在任务执行完时调用ExecutorService类的shutdown()方法来销毁线程,从而让进程顺利结束:

3. 搜索模块实现

搜索模块的功能是调用索引模块的代码,通过用户输入的关键词查询到相关文档信息,处理后返回

查询操作只需要调用索引模块的方法,这里我们重点关注如何处理查询到的信息。

首先我们先思考,需要返回什么信息,首先能想到的有文档标题,和文档描述(这两项需要展示给用户),所以需要在返回结果中包含这两项信息,其次,用户如果想要查看文档的具体信息,那么需要url来跳转到在线文档界面,所以还需要url,最后,如果我们是用户,我们肯定希望能更快的找到想要查询的文档,所以我们还可以对查询结果按和关键词的相关性做一个降序排序。

定义一个Result类用于充当返回结果的类型:

package org.example.docsearcher.model;

import lombok.Data;

@Data
public class Result {
    private String title;
    private String url;
    //描述
    private String desc;
}

定义DocSearcher类完成搜索模块的主要功能:

import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;

import java.util.ArrayList;
import java.util.Comparator;
import java.util.List;
import java.util.Locale;

@Configuration
public class DocSearcher {
    //用于调用索引模块接口
    private Index index = new Index();

    public List<Result> search(String query) {
        //1.对用户输入结果进行分词

        //2.通过用户输入的关键词在倒排索引中查询相关文档

        //3.对查询到的结果按相关性降序排序

        //4.通过正排索引查询文档相关信息并做返回处理
        
    }

}

这里对用户输入结果处理时还需要考虑一个问题:用户输入的词一定都是关键词吗?显然不是,例如用户输入:What is HashMap? ,显然里面的what 和 is 都不是关键词,并且这样的词在文档里会出现很多,就可能会导致用户想要看到的结果被挤到下方去了,这样的词称为暂停词,我们在对用户输入进行分词时要去掉暂停词,我们可以在网络上下载一个现成的暂停词表,运行程序时把它加载到内存中,用一个Set存储,用于排除分词结果中的暂停词。

这里我放在一个txt文件中。 

@Configuration
public class DocSearcher {
    public Index index = new Index();

    private static final String STOP_WORD_PATH = "D:/桌面/stopWords.txt";
    private Set<String> stopWords = new HashSet<>();

    public DocSearcher() {
        //加载索引
        index.load();

        //加载停用词
        loadStopWord();
    }

    public List<Result> search(String query) {
        //1.对用户输入结果进行分词
        List<Term> terms = ToAnalysis.parse(query).getTerms();

        //2.通过用户输入的关键词在倒排索引中查询相关文档
        List<Relate> allDocs = new ArrayList<>();
        for(Term term : terms) {
            String key = term.getName();
            //判断是否是暂停词,或者空格
            if(!stopWords.contains(key) && !key.equals(" ")) {
                List<Relate> docs = index.getInverted(key);
                //判断是否有相关文章
                if(docs == null) {
                    continue;
                }
                //添加到查询结果
                allDocs.addAll(docs);
            }
        }

        //3.对查询到的结果按相关性降序排序
        allDocs.sort(new Comparator<Relate>() {
            @Override
            public int compare(Relate o1, Relate o2) {
                return o2.getWeight() - o1.getWeight();
            }
        });

        //4.通过正排索引查询文档相关信息并做返回处理
        List<Result> results = new ArrayList<>();
        for(Relate relate : allDocs) {
            DocInfo docInfo = index.getForward(relate.getDocId());
            Result result = new Result();
            result.setTitle(docInfo.getTitle());
            result.setUrl(docInfo.getUrl());
            result.setDesc(genDesc(relate.getKey(), docInfo.getContent()));
            results.add(result);
        }
        return results;
    }

    private void loadStopWord() {
        try(BufferedReader bufferedReader = new BufferedReader(new FileReader(STOP_WORD_PATH))) {
            while(true) {
                String line = bufferedReader.readLine();
                if(line == null) {
                    //读取完毕
                    break;
                }
                stopWords.add(line);
            }

        } catch (IOException e) {
            throw new RuntimeException(e);
        }
    }
    private String genDesc(String key, String content) {
        //通过关键词和正文生成摘要

        //在正文中查找第一次出现关键词的位置,使用正则表达式确保找到的的是单独的一个单词
        //注意ansj分词结果会转为小写,所以需要把content也转为小写再匹配
        content = content.toLowerCase().replaceAll("\\b" + key + "\\b", " " + key + " ");
        int firstPos = content.indexOf(" " + key + " ");

        //取该位置前后各150个字符作为摘要
        int begPos = Math.max(firstPos - 150, 0);
        int endPos = Math.min(firstPos + 150, content.length());
        String desc = content.substring(begPos, endPos) + "...";

        //给关键词加上<i>标签,(?i)表示不区分大小写替换
        desc = desc.replaceAll("(?i)" + " " + key + " ", " <i>" + key + "</i> ");

        return desc;
    }

}

4. Web模块实现

基本的功能已经实现,现在只需提供一个接口供用户访问即可

package org.example.docsearcher.controller;

import org.example.docsearcher.model.Result;
import org.example.docsearcher.service.SearcherService;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RestController;

import java.util.List;

@RestController
@RequestMapping("/searcher")
public class SearcherController {
    @Autowired
    SearcherService service;
    @RequestMapping("/getInfo")
    public List<Result> getInfo(String query) {
        return service.getInfo(query);
    }
}
package org.example.docsearcher.service;

import org.example.docsearcher.config.DocSearcher;
import org.example.docsearcher.model.Result;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Service;

import java.util.List;

@Service
public class SearcherService {
    @Autowired
    DocSearcher searcher;
    public List<Result> getInfo(String query) {
        return searcher.search(query);
    }
}

5. 前端页面实现

现在后端代码已经全部完成,接下来实现一个简单的页面调用后端的接口即可:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <title>Java文档搜索</title>
    <style>
        * {
            margin: 0;
            padding: 0;
            box-sizing: border-box;
        }
    
        html, body {
            height: 100%;
            background-image: url(image/image.png);
            background-repeat: no-repeat;
            background-position: center center;
            background-size: cover;
        }
    
        .container {
            width: 70%;
            height: 100%;
            margin: 0 auto;
            background-color: rgba(255, 255, 255, 0.8);
            border-radius: 20px;
            padding: 20px;
            overflow: auto;
        }


    
        .header {
            display: flex;
            align-items: center;
            padding: 30px;
            background-color: #f8f9fa;
            border-radius: 8px;
            box-shadow: 0 0 10px rgba(0, 0, 0, 0.1);
        }

        #search-input {
            width: 90%;
            padding: 12px;
            font-size: 16px;
            border: 2px solid #dee2e6;
            border-radius: 5px;
            transition: border-color 0.3s ease;
        }

        #search-input:focus {
            border-color: #495057;
            outline: none;
        }

        #search-btn {
            margin-left: 5px;
            padding: 12px 20px;
            background-color: #007bff;
            color: white;
            border: none;
            border-radius: 5px;
            cursor: pointer;
        }

        #search-btn:active {
            background-color: #007bbf;
        }

        .item {
            width: 100%;
            margin-top: 20px;
        }

        .item a{
            display: block;
            height: 40px;
            font-size: 22px;
            line-height: 40px;
            font-weight: 700px;
            color: #007bff;
        }

        .item desc{
            font-size: 18px;
        }

        .item .url {
            font-size: 18px;
            color: rgb(0, 200, 0);
        }
    </style>
</head>
<body>
    <!-- 整个页面元素的容器 -->
    <div class="container">
        <!-- 搜索框和搜索按钮 -->
        <div class="header">
            <input type="text" id="search-input" placeholder="请输入搜索内容...">
            <button id="search-btn" onclick="getInfo()">搜索</button>
        </div>

        <!-- 搜索结果 -->
        <div class="result">

            <!-- <div class="item">
                <a href="#">我是标题</a>
                <div class="desc">我是描述</div>
                <div class="url">www.baidu.com</div>
            </div> -->

        </div>
    </div>

    <script src="js/jquery.min.js"></script>
    <script>
        <-- 点击搜索按钮后调用该方法 -->
        function getInfo() {
            $(".result").empty();
            var query = $("#search-input").val();
            $.ajax({
                url: "/searcher/getInfo?query=" + query,
                type: "get",
                success: function(results) {
                    var html = "";
                    for(var result of results) {
                        html += '<div class="item"><a href="'+result.url+'" target="_blank">'+result.title+'</a>';
                        html += '<div class="desc">'+result.desc+'</div>';
                        html += '<div class="url">'+result.url+'</div></div>';
                    }
                    $(".result").html(html);
                }
            }); 
        }
    </script>
</body>

</html>

启动服务器在前端界面搜索:

可以看到成功的弹出了搜索结果。这里我们还可以做一个优化,当我们使用浏览器搜索某个关键词时,浏览器的搜索结果中会把我们所输入的关键词标红:

我们也可以实现一个同样的功能。

这里我们通过前后端配合的方式实现,在后端生成每个搜索结果的描述的时候,我们给描述中的关键词都加上一个<i>标签,再通过前端设置样式来调整字体颜色:

修改 genDesc方法:

    private String genDesc(List<Term> terms, String key, String content) {
        //通过关键词和正文生成摘要

        //在正文中查找第一次出现关键词的位置,使用正则表达式确保找到的的是单独的一个单词
        //注意ansj分词结果会转为小写,所以需要把content也转为小写再匹配
        content = content.toLowerCase().replaceAll("\\b" + key + "\\b", " " + key + " ");
        int firstPos = content.indexOf(" " + key + " ");

        //取该位置前后各150个字符作为摘要
        int begPos = Math.max(firstPos - 150, 0);
        int endPos = Math.min(firstPos + 150, content.length());
        String desc = content.substring(begPos, endPos) + "...";

        //给关键词加上<i>标签,(?i)表示不区分大小写替换
        for(Term term : terms) {
            String word = term.getName();
            desc = desc.replaceAll("(?i)" + " " + word + " ", " <i>" + word + "</i> ");
        }
        return desc;
    }

在前端的代码中添加对<i>标签的样式:

        .item .desc i {
            color: red;
            font-style: normal;
        }

重新启动程序:

可以看到关键词成功被标红 , 这里我们还可以在前端代码中添加一个显示搜索结果数量的功能:

 

6. 部署程序

到此位置我们 api文件搜索引擎的所有功能都实现了,接下来就可以部署到云服务器上,在此之前我们需要把在本地制作好的索引文件和暂停词文件拷贝到云服务器上:

 

然后把代码中的路径改为云服务器中对应的路径:

 

打包程序:

 

双击package:

把生成的jar包拷贝到云服务器上,输入指令:

nohup java -jar jar包名称.jar &

即部署完毕 

接下来就可以支持用户使用公网id访问 我们的程序。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1820710.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《C++程序设计》银行管理系统

莫思身外无穷事 且尽生前有限杯 我们先来看一下项目需求&#xff1a; 【场景】 在日常生活中&#xff0c;我们普遍接触到窗口服务系统&#xff0c;如到银行柜台办理业务、景区现场购买门票等。当需要办理业务的顾客数超过窗口数量时&#xff0c;我们需遵循排队等待原则。 【需…

不想搭集群,直接用spark

为了完成布置的作业&#xff0c;需要用到spark的本地模式&#xff0c;根本用不到集群&#xff0c;就不想搭建虚拟机&#xff0c;hadoop集群啥的&#xff0c;很繁琐&#xff0c;最后写作业还用不到集群&#xff08;感觉搭建集群对于我完成作业来说没有什么意义&#xff09;&…

Eclipse创建Spring项目

第一步&#xff1a;先用Eclipse创建一个tomcat项目 打开eclipse 配置tomcat 这里点击add去添加tomcat 创建项目 写好项目名字&#xff0c;点击next 将这个Deploy path修改一下 配置一下项目&#xff0c;将项目部署到tomcat上面去 写个html测试一下 <html><h1>Hel…

公司活动想找媒体报道宣传怎样邀请媒体?

在当今信息爆炸的时代,对于正处于成长阶段的中小企业而言,有效且成本控制得当的宣传策略是推动品牌发展、扩大市场影响力的关键。尤其是在预算有限的情况下,如何让“好钢用在刀刃上”,实现宣传效果的最大化,成为众多企业共同面临的挑战。在此背景下,智慧软文发布系统网站作为一…

会声会影2023软件:安装包下载 丨不限速下载丨亲测好用

会声会影(Corel VideoStudio)为加拿大Corel公司发布的一款功能丰富的视频编辑软件。 会声会影2023简单易用&#xff0c;具有史无前例的强大功能&#xff0c;拖放式标题、转场、覆叠和滤镜&#xff0c;色彩分级、动态分屏视频和新增强的遮罩创建器&#xff0c;超越基本编辑&…

VR虚拟仿真技术模拟还原给水厂内外部结构

在厂区的外围&#xff0c;我们采用VR全景拍摄加3D开发建模的方式&#xff0c;还原了每一处细节&#xff0c;让你仿佛置身于现场&#xff0c;感受那份宁静与庄重。 当你踏入厂区&#xff0c;我们为你精心策划了一条游览路线&#xff0c;从门口到各个重要场景&#xff0c;一一为…

使用ecal protobuf的时候编译过程中报ArenaString、FileDescriptor等无法解析的外部符号错误

c cmake构建的项目在使用ecal和protobuf的时候编译过程报ArenaString、FileDescriptor等无法解析的外部符号错误 查找了很多官网和github上很多资料都没有提及相关的内容。 在windows编译protobuf后&#xff0c;cmake连接找不到符号 - 简书 上提及要使用config模式 设置了co…

TK防关联引流系统:全球多账号运营,一“键”掌控!

在TikTok的生态系统中&#xff0c;高效管理多个账号对于品牌推广的成功起着决定性的作用。TK防关联引流系统&#xff0c;作为一款专门为TikTok用户打造的强大工具&#xff0c;为全球范围内的多账号运营提供了坚实的支持。 TK防关联引流系统的核心优势体现在以下几个方面&#x…

vue 生命周期 钩子函数 keep-alive activated deactivated

一、activated deactivated 在被keep-alive包含的组件/路由中&#xff0c;会多出两个生命周期的钩子:activated 与 deactivated。在 2.2.0 及其更高版本中&#xff0c;activated 和 deactivated 将会在树内的所有嵌套组件中触发。activated在组件第一次渲染时会被调用&#x…

Linux2-系统自有服务防火墙与计划任务

一、什么是防火墙 防火墙主要用于防范网络攻击&#xff0c;防火墙一般分为软件防火墙、硬件防火墙 1、Windows中的防护墙设置 2、防火墙的作用 3、Linux中的防火墙分类 Centos6、Centos6>防火墙>iptables防火墙 防火墙系统管理工具 Centos7>防火墙>firewalld防火…

SECS/GEM 底层协议解析

SECS是什么&#xff1f; SEMI电子半导体联盟,为实现设备与工厂系统的快速对接数据,状态,配方,程序的标准化协议,SECS具有多个版本,本文主要介绍E5协议 HSMS通信方式,设备端的处理流程(Passive模式)。 SECS关键字 Host 主机一般指向工厂控制系统EQP 单机设备Active 在Tcp通信…

怎么用住宅代理IP?使用住宅代理IP有哪些好处?

如何使用住宅代理IP&#xff1a; 使用住宅代理IP主要涉及以下几个步骤&#xff1a; 选择合适的代理IP供应商&#xff1a; 考虑供应商的可靠性、代理IP的质量、速度、稳定性以及价格。选择信誉良好且服务稳定的供应商&#xff0c;确保获得高质量的代理IP服务。配置代理IP&#…

防止数据泄露的软件哪家强?四款防泄密软件助您安心守护企业机密

在信息化时代&#xff0c;企业数据安全成为了关乎生死存亡的关键因素。 数据泄露事件频发&#xff0c;选择一款高效可靠的防泄密软件变得尤为重要。 以下是六款市场上备受推崇的防泄密软件&#xff0c;它们以各自的优势为企业数据安全保驾护航。 1. 域智盾软件 软件以其全面…

C++笔记:模板

模板 为什么要学习模板编程 在学习模板之前&#xff0c;一定要有算法及数据结构的基础&#xff0c;以及重载&#xff0c;封装&#xff0c;多态&#xff0c;继承的基础知识&#xff0c;不然会出现看不懂&#xff0c;或者学会了没办法使用。 为什么C会有模板&#xff0c;来看下面…

如何在Excel中快速找出含有多位小数的数字

在日常工作中&#xff0c;使用Excel处理数据是一项常见任务。然而&#xff0c;有时我们会遇到一些看似简单&#xff0c;却令人头疼的问题。例如&#xff0c;当我们在一个包含大量数据的列中发现某个数字的小数点位数过多时&#xff0c;如何快速找到这个数字&#xff1f;本文将介…

从零开始的<vue2项目脚手架>搭建:vite+vue2+eslint

前言 为了写 demo 或者研究某些问题&#xff0c;我经常需要新建空项目。每次搭建项目都要从头配置&#xff0c;很麻烦。所以我决定自己搭建一个项目初始化的脚手架&#xff08;取名为 lily-cli&#xff09;。 脚手架&#xff08;scaffolding&#xff09;&#xff1a;创建项目时…

高考志愿专业选择:计算机人才需求激增,人工智能领域成热门

随着2024年高考的落幕&#xff0c;数百万高三学生站在了人生新的十字路口&#xff0c;面临着一个重要的抉择&#xff1a;选择大学专业。这一选择不仅关乎未来四年的学习生涯&#xff0c;更可能决定一个人一生的职业方向和人生轨迹。在众多专业中&#xff0c;计算机相关专业因其…

8.12 面要素符号化综述

文章目录 前言面要素介绍总结 前言 本章介绍如何使用矢量面要素符号化说明&#xff1a;文章中的示例代码均来自开源项目qgis_cpp_api_apps 面要素介绍 地理空间的要素分为点、线和面&#xff0c;对应的符号也分三类&#xff1a;Marker Symbol、Line Symbol和Fill Symbol&…

智慧校园建造方针

在高校的现代化建造中&#xff0c;构建现代化的教育渠道、工作体系、网络信息,是数字化学校建造的方针。一起&#xff0c;数字化学校的全面性和安稳&#xff0c;是完成建造方针的要害。树立的数字化学校渠道,能够完成各资源信息的有效办理和传输。在21世纪的教育蓝图中&#xf…

【linux】给net/socket.c部分接口添加pr_info后运行情况

net/socket.c 合入文件及代码&#xff1a; https://gitee.com/r77683962/linux-6.9.0/commit/d9aca07352311a9c185cbc2d3c39894e02f10df3 开机后dmesg命令运行效果&#xff1a; 这也是一部分&#xff0c;不过从这里看出来&#xff0c;添加打印日志的地方不太好&#xff0c;另…