公众号关注 “GitHubDaily”
设为 “星标”,每天带你逛 GitHub!
现今的互联网时代,无论哪个行业,在日常各种工作的沟通协作中,我们都免不了要与各种文档打交道。
但是,人的精力与任务处理速度毕竟有限,我们难以在短时间内,快速通读各种文档与提取要点。于是,在 GPT-4 刚发布之初,其强大的内容总结能力,成为了被使用最多的功能之一。
在今年 OpenAI 开放 GPT-4 API 时,GitHub 上也涌出了多款 AI 文档解析、总结、扩写等功能的开源应用。
后来居上的 Claude,也在该特性上持续发力,将原有大模型的 Token 上限硬生生拉到了 100K(约 7.5 万个单词)。用户可以直接让 AI 总结并提取《了不起的盖茨比》这本小说的关键内容。
如此种种,可见 AI 文档解析需求之大。今天我们便从此切入,聊聊 GitHub 上关于 AI 文档解析领域,几个比较不错的开源解决方案。
为文档聊天而生的开源应用
在国庆期间,当大家都在游山玩水,与家人享受天伦之乐时,一个名为 DocsGPT 的项目在 GitHub 上悄然登上了热榜。短短数日,便增长了 2000+ Star,并在今日荣登榜首。
该项目是一个前沿的 AI 文档开源解决方案,可帮助用户在日常工作中,利用 AI 的能力,简化从文档中查找信息的过程,通过聊天的方式,快速获取准确的答案。
GitHub:https://github.com/arc53/DocsGPT
项目集成了 GPT-4 在内等多款知名大模型,可基于 Docker 部署到本地,并通过 Web 界面或命令行的方式,完成文档解析与交流对话。
打破幻觉,回归本质
众所周知,目前各个 AI 大模型都面临着同一个问题,那就是在回答问题时,容易出现幻觉(Hallucinations)。
在答案中混入了各种不准确信息,在无形之中,增添了用户的信息筛选成本。
这里推荐一个开源的文档内容高效检索 AI 工具:Semantra,与传统的文本匹配方式不同,它能够直接使用语义查询,提升检索效率。
可选择多种语言模型,支持在本地离线部署运行,注重隐私安全。
GitHub:https://github.com/freedmand/semantra
使用命令行即可快速处理本地的文本和 PDF 文件。在任务完成后,它会在本地搭建一个 Web 搜索页面,让你能在界面上对直接查询文档。
Semantra 的设计目的是方便易用,可定制。适合需要在大量文档中进行精确搜索的个人或团体,例如新闻从业者、研究员、学生或教师等。
针对该项目,我之前写过一篇较为详细的文章,感兴趣的同学,可前往查看:《在文档内容搜索这件事情上,它能比 ChatGPT 做的更好》。
PDF 文档聊天开源方案
此前我曾给大家推荐过一款名为 ChatPDF 的项目。它可以提取 PDF 文件中的内容,并将内容交给 ChatGPT 进行分析。
待解析完成之后,你便可以跟它进行一对一对话交流,就好像它是一个完全理解内容的人一样。
但是,该项目代码没有开源,今天重新推荐 GitHub 上一个开源版的实现:GPT-4 & LangChain。
利用它所开放的功能,可以快速为你的 PDF 文档打造一个 ChatGPT 聊天机器人。
GitHub:https://github.com/mayooear/gpt4-pdf-chatbot-langchain
使用的技术堆栈包括 LangChain、Pinecone、Typescript、OpenAI 和 Next.js。
作为当下较为知名的 AI 框架,LangChain 可以帮助开发者轻松构建各种 AI/LLM 应用和聊天机器人。Pinecone 作为矢量存储,可用于存储嵌入和文本中的 PDF,以便以后检索类似文档。
为了帮助大家更好地学习该项目源码,作者还专门录制了一个技术原理解析视频,时长为 23 分钟,具体可在项目 README 中查看学习。
文中所提到的所有开源项目与工具,已收录至 GitHubDaily 的开源项目列表中。
该列表包含了 GitHub 上诸多高质量、有趣实用的开源技术教程、开发者工具、编程网站等内容。
从 2015 年至今,累计分享 3500+ 个开源项目,Star 增长 24000+,有需要的,可访问下方 GitHub 地址或点击文末「阅读原文」自取:
GitHub:https://github.com/GitHubDaily/GitHubDaily
好了,今天的分享到此结束,感谢大家抽空阅读,我们下期再见,Respect!