langchain 《斗破苍穹》智谱 RAG 问题搜索

news2026/2/12 18:49:13

代码

项目介绍

模型对比实验

分块方法对比

检索方法对比

结果

10条问题

15条问题

局限性

代码

https://github.com/5zjk5/prompt-engineering/tree/master

《斗破苍穹》小说 RAG 问答，爬虫爬取整部小说章节，并分别保存到不同的数据源中。 txt，pdf，markdown，word。

对数据进行分块，召回，根据问题生成回答。

对比了智谱 GLM 系列所有模型，以及不同召回块数（字数）的效果。

spider.py 为爬虫代码

先用前 100 章节测试，再测试全部章节。设置 10 个问题，控制变量法测试结果如下：

对比结果写在了 J 列，总结：

较好的方法是相似性检索，及 mmr 但这两个对比在这里是一样，所以就用了相似性 similary
其他是 langchain 中的其他方法
上面的结论说了再 15w 左右是可以得到答案，且速度还可以，理解也不错，但 15w 还是太多了，所以先检索 150 个快，15w 字，在从 15w 在检索 50w ，这样更准确，却耗费 token 更少。

上面的实验都是在选择，所以最终选择组合为：

data/test_doc_question.json 在 10 条问题上，使用前 100 章的问题，表现为 80-90%。

在 10 条问题三，使用全部章节，表现为 70-80%。因为内容多了，检索的东西会不一样且受问题影响。

例如：萧炎遇见的神秘老者是谁？

在前 100 章明显是药老，但全文不一定了，神秘老者可能多次出现，如岩浆下的老者等。问得范围太大了。

data/doc_question.json 80-86.6% 浮动

这个属于常见的 RAG 方法，字数分块，然后检索相关内容，然后生成答案。但通过这个检索检索会有一下局限性：

检索回来可能是迦南学院有关的人，但不全，不能结合风雷大会去回答。

例如“萧炎老婆是谁？”这小说并没有明确写出‘萧炎的老婆是xxx’这种话，但读者们都知道他老婆的谁
上下文理解少，比如“萧炎晋级斗尊前跟谁打架了？”能找到晋级的那一章，但是跟谁打架了，这是需要前面的剧情的理解的，这并不会检索回来，所以跟问题有关的上下文不太适合这种 RAG。适合检索某个片段然后回答这个片段的问题。
生成的回答，及检索的内容受问题影响，如上面说的“神秘老者”的问题，问题月具体效果越好。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2107701.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！