相识词设计思路及实现方法

news2026/2/11 14:00:35

1.业务背景

2.实现方法

第一种：

编辑

第二种：

3.相关材料

1.业务背景

业务有全文检索功能，然后根据标书的要求需要有近似词的功能，一般近似词需要模型训练之后成为词库，是需要大数据相关人员负责。负责人表示简单实现一个不需要那么复杂，如输入张三显示于张三有关的信息表示。作为开发的当然不允许这么草率实现一个功能，相识近似至少要能识别中文语义才行。

2.实现方法

第一种：

在网上找到一个 shibing624 similarity 的jar 包，里面包含了词语短句中文以及字符串的格式相识，通过比较都得一个相识分。然后在网上找到一个简单的词库，通过流的形式读取出来然后挨个比较。得出分数高的返回即可，嘿嘿嘿，想法不错。

这是词库的格式得按照一定格式解析，考虑近似词使用可能比较频繁，每次本地IO也挺消耗资源，所以给他干以放在内存，因为词库数据可能存在重复的情况，使用set集合

private static Set<String> lexiconResourcePaths = new HashSet<>();
    private static Set<String> lexiconData = new HashSet<>();

    /**
     * 词典预热
     */
    @PostConstruct
    public void lexiconPreheat() {
        loadResource();
        analysisLexicon();
    }
    

    /**
     * 加载资源
     */
    private void loadResource() {
        lexiconResourcePaths.add(getClass().getClassLoader().getResource("lexicon/jinyici.txt").getFile());
    }


    /**
     * 解析本地词典
     *
     * @return
     */
    private void analysisLexicon() {
        StringBuilder result = new StringBuilder();
        lexiconResourcePaths.forEach(filePath -> {
            File file = new File(filePath);
            try {
                // 构造一个BufferedReader类来读取文件
                BufferedReader br = new BufferedReader(new FileReader(file));
                String s = null;
                // 使用readLine方法，一次读一行
                while ((s = br.readLine()) != null) {
                    result.append(System.lineSeparator() + s);
                }
                br.close();
            } catch (Exception e) {
                e.printStackTrace();
            }
        });
        String str = result.toString().replace("\r\n", " ");
        lexiconData = Arrays.stream(str.split(" ")).collect(Collectors.toSet());
    }

然后就是将要获取同义词的和词库一一比计较，且必须得按照分数分值高的排序。

添加的时候会遇到几种情况，所以是添加的时候去比较，且可以根据前端传递的长度返回前几位，有几种情况

@Override
    public List<SearchSimilarityVo>  execute(SimilarSearchParam param) {

        List<SearchSimilarityVo> resultVo = new LinkedList<>();

        lexiconData.forEach(word -> {
            double score = Similarity.conceptSimilarity(param.getSearchContent(), word);
            if (score < 0.7 || StringUtils.isEmpty(word)){
                return;
            }
            SearchSimilarityVo currentData = new SearchSimilarityVo(word, score);

            if (resultVo.size() >= 1) {
                int lastIndex = resultVo.size() - 1;
                SearchSimilarityVo lastData = resultVo.get(lastIndex);
                Double acquaintanceshipScore = lastData.getScore();

                // 大于
                if (score > acquaintanceshipScore) {
                    while (true) {
                        if (lastIndex == 0) {
                            // 最小
                            break;
                        }
                        lastIndex--;
                        lastData = resultVo.get(lastIndex);
                        if (score > lastData.getScore()) {
                            continue;
                        } else {
                            lastIndex++;
                            break;
                        }
                    }
                    // 1.大于长度 删除末尾
                    if (resultVo.size() >= param.getSize()) {
                        resultVo.remove(resultVo.size() - 1);
                    }
                    resultVo.add(lastIndex, currentData);
                } else if (resultVo.size() < param.getSize()) {
                    // 2.小于且不超过总长度
                    resultVo.add(currentData);
                }
            } else {
                // 3.第一个
                resultVo.add(currentData);
            }
        });

        System.out.println("resultVo{}:" + resultVo);
        return resultVo;
    }

功能是实现了，但其实每次去比较这么多其实还是挺耗时间，词库就 30000次每次都去比较，性能就不用说了，肯定慢，而且一旦遇到分数高的还得将数据进行排序，所以我这使用的是 linklist 会强一点，且在添加的时候已经将顺序排号，过滤了低分。

但是这种词库不出意外的肯定出意外了，客户说这同义词没啥用。嘿嘿嘿给我说，词库这方面我们还没想法，要不这样你就知识库（也就是用户名邮箱电话相关的三个库），要求比如输入英文名能显示中文名，就这样一个实例，没错，剩下的又是我自己发挥的时候，开发真难，抱着客户都是祖宗的原则，我只能，害，这不简简单单的事情嘛。