大语言模型集成工具 LangChain

news2024/10/7 14:27:47

大语言模型集成工具 LangChain

LangChain 介绍

  • 介绍:
    • 通过可组合性使用大型语言模型构建应用程序
    • 【背景】大型语言模型 (LLM) 正在成为一种变革性技术,使开发人员能够构建他们以前无法构建的应用程序,但是单独使用这些 LLM 往往不足以创建一个真正强大的应用程序,当可以将它们与其他计算或知识来源相结合时,就有真的价值了。LangChain 旨在协助开发这些类型的应用程序
  • 使用文档:https://langchain.readthedocs.io/en/latest/index.html
  • 代码:https://github.com/hwchase17/langchain

安装介绍

  • 库安装
pip install langchain
pip install openai
  • OPENAI KEY 获取:
    • 淘宝上花几块钱购买一个是最方便的途径
    • 或到 https://openai.com/blog/openai-api/ 网站申请账号,申请周期有可能会比较长
  • 添加环境变量
    • 在终端运行:export OPENAI_API_KEY="..."
    • 或在 python 脚本中添加:import os; os.environ["OPENAI_API_KEY"] = "..."

LangChain 应用(基于0.0.64 版本测试)

获取 LLM 的预测 (QA 任务)

  • 获取 LLM 的预测是最直接的应用方式,测试样例如下
text = "What would be a good company name a company that makes colorful socks?"
print(llm(text)) # 返回 Socktastic!

简单数学问题:

from langchain.llms import OpenAI # 导入 LLM wrapper
llm = OpenAI(temperature=0.9) # 大的 temperature 会让输出有更多的随机性
text = "what is the results of 5+6?"
print(llm(text)) # 返回 11
text = "what is the results of 55+66?"
print(llm(text)) # 返回 121
text = "what is the results of 55555+66666?"
print(llm(text)) # 返回 122221
text = "what is the results of 512311+89749878?"
print(llm(text)) # 返回 89,876,189,终于错了...

另一个例子,这里返回的是同义词,如果要返回同音词则需要修改输入的 prompt(另外一个解决方式是基于以下章节中的 Memory 模式):

text = "what word is similar to good?"
print(llm(text)) # 返回 Excellent
text = "what word is homophone of good?"
print(llm(text)) # 返回 Goo

输入 prompts 模板设置

  • 在上面根据公司生产的产品生成公司名字的应用中,一种让用户输入更简单的方式是仅让客户输入公司生产的产品即可,不需要输入整个语句,这需要对 prompts 设置模板:
from langchain.prompts import PromptTemplate
prompt = PromptTemplate(
    input_variables=["product"],
    template="What is a good name for a company that makes {product}?",
)
print(prompt.format(product="colorful socks")) # 返回 What is a good name for a company that makes colorful socks?
text = prompt.format(product="colorful socks")
print(llm(text)) # 返回 Socktastic!
text = prompt.format(product="chocolates")
print(llm(text)) # 返回 ChocoDelightz!

Memory 功能: 在 LLM 交互中记录交互的历史状态,并基于历史状态修正模型预测

  • 该实现基于论文: MemPrompt

    • 即当模型出错了之后,用户可以反馈模型错误的地方,然后这些反馈会被添加到 memory 中,以后遇到类似问题时模型会提前找到用户的反馈,从而避免犯同样的错
      在这里插入图片描述
  • 对话任务中的 ConversationChain 示例(ConversationBufferMemory 模式),verbose=True 会输出对话任务中的 prompt,可以看到之前聊天会作为短期 memory 加在 prompt 中,从而让模型能有短时间的记忆能力:

from langchain import OpenAI, ConversationChain
llm = OpenAI(temperature=0)
conversation = ConversationChain(llm=llm, verbose=True)
conversation.predict(input="Hi there!") # 返回如下
#> Entering new ConversationChain chain...
#Prompt after formatting:
#The following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific #details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

#Current conversation:

#Human: Hi there!
#AI:

#> Finished chain.
# Out[53]: " Hi there! It's nice to meet you. How can I help you today?"
conversation.predict(input="I'm doing well! Just having a conversation with an AI.") # 返回如下
#Prompt after formatting:
#The following is a friendly conversation between a human and an AI. The AI is talkative and provides lots of specific #details from its context. If the AI does not know the answer to a question, it truthfully says it does not know.

#Current conversation:

#Human: Hi there!
#AI:  Hi there! It's nice to meet you. How can I help you today?
#Human: I'm doing well! Just having a conversation with an AI.
#AI:

#> Finished chain.
#Out[54]: " That's great! It's always nice to have a conversation with someone new. What would you like to talk about?"
  • LangChain 这里看起来没有直接在 QA 任务中集成 memprompt,不过可以基于对话任务来测试之前 QA 任务中出错的问题,可以看到基于 memprompt 确实可以利用用户的反馈来修正模型预测结果:
conversation.predict(input="what word is similar to good?") # 返回 ' Synonyms for "good" include excellent, great, fine, and superb.'
conversation.predict(input="similar to means with similar pronunciation") # 返回 ' Ah, I see. Synonyms for "good" with similar pronunciation include wood, hood, and should.'

这里的实现看起来和 memprompt 非常类似,每个问题不会直接回答答案,而是回答 understating+answer,从而让用户可以基于对 understating 的理解来判断模型反馈是否符合用户的预期,而不用直接判断 answer 的正确性

  • 对话任务中的其他几种 memory 添加模式

    • ConversationSummaryMemory:与 ConversationBufferMemory 类似,不过之前的对话会被总结为一个 summary 加在 prompt 中
    • ConversationBufferWindowMemory:在 ConversationBufferMemory 模式基础上加个滑窗,即只加入最近几次对话的记录,避免 memory buffer 过大
    • ConversationSummaryBufferMemory:结合以上两种方式,将之前的对话总结为一个 summary 加在 prompt 中,同时会设置一个 prompt 最大词汇数量,超过该词汇数量的时候会抛弃更早的对话来使 prompt 的词汇数量符合要求
  • 更高级的 memory 使用方式

    • Adding Memory to a Multi-Input Chain:主要用于 QA 任务,用一个语料库作为 memory,对于输入的 prompt,找到与该 prompt 类似的信息加在 prompt 中,从而能利用上语料库中的信息
    • Adding Memory to an Agent:对于具备 google 搜索功能的 Agent,可以将对话历史记录到 memory 中,从而能让 Agent 对某些与之前历史结合的对话理解更准确

总结

  • LangChain 基于 OPENAI 的 GPT3 等大语言模型设计一系列便于集成到实际应用中的接口,降低了在实际场景中部署大语言模型的难度

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/169378.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

内存映射(Linux)

文章目录概念 内存映射(Memory-mapped I/O)是将磁盘文件的数据映射到内存,用户通过修改内存就能修改磁盘文件。 API 内存映射相关系统调用,使用man 2 mmap查看帮助 void *mmap(void *addr, size_t length, int prot, int flags, …

服务端大量处于TIME_WAIT和CLOSE_WAIT状态连接的原因

服务端大量处于TIME_WAIT和CLOSE_WAIT状态连接的原因1.服务端大量处于TIME_WAIT状态的连接原因?1.HTTP没有使用长连接2.HTTP长连接超时3.HTTP长连接的请求数量达到上限TIME_WAIT状态连接过多的危害?2.服务器大量处于CLOSE_WAIT状态的连接原因&#xff1f…

网络流量监控系统为企业SAP接口性能分析

前言 某汽车总部已部署NetInside网络流量监控系统,使用流量分析系统提供实时和历史原始流量,重点针对SAP系统性能进行分析,以供安全取证、应用事务分析、网络质量监测以及深层网络分析。 本次分析报告包含:SAP接口性能分析案例。…

TSD simple(0)时序数据库简介

时间序列数据库:Time Series Database 时序数据库全称为时间序列数据库。 时间序列数据:带时间标签的数据 时间序列数据库是用于存储和管理时间序列数据的专业化数据库,具备写多读少、冷热分明、高并发写入、无事务要求、海量数据持续写入等…

LeetCode155-最小栈

题目 解题 这道题本来是打算用栈然后加一个标记位,这个标记位存最小的数,但是之后发现解决不这种情况: 1、弹出以后,这个标记怎么办,没法回溯 那么就得换一个数据结构,比如额外放一个线性表,里…

【电子学会】2022年12月图形化四级 -- 求最大公约数

求最大公约数 如果6除以2的余数是0,那么我们就说2是6的约数。4除以4的余数是0,4也是4的约数。同理可以求出,4的约数有1、2和4,6的约数有1、2、3和6。两个数的最大公约数是指两个数相同的约数中最大的那一个,如4和6两个数的最大公约数是2。 辗转相除法求最大公约数的步骤…

Windows部署定时任务,每天定期执行手机机型爬取

项目背景 有一个手机机型自动更新获取的需求,在我写好相关的爬虫后,需要将爬虫部署,并且需要配置定时任务每天定期执行。之前在Mac上开发,现在部门给配了一台windows定期执行。 环境准备 A、安装ChromeDriver 1、我是通过Chro…

JAVA中创建线程池的五种方法及比较

之前写过JAVA中创建线程的三种方法及比较。这次来说说线程池。 JAVA中创建线程池主要有两类方法,一类是通过Executors工厂类提供的方法,该类提供了4种不同的线程池可供使用。另一类是通过ThreadPoolExecutor类进行自定义创建。 目录 一、通过Executors…

c++ - 第25节 - STL之空间配置器

1.什么是空间配置器 空间配置器,顾名思义就是为各个容器高效的管理空间(空间的申请与回收),在默默地工作。虽然在常规使用STL时,可能用不到它,但站在学习研究的角度,学习它的实现原理对我们有很大的帮助。2.为什么需要…

Javascript 模板模式

模板方法模式的定义和组成 模板方法模式是一种只需使用继承就可以实现的非常简单的模式。 模板方法模式由两部分结构组成,第一部分是抽象父类,第二部分是具体的实现子类。 通常在抽象父类中封装了子类的算法框架,包括实现一些公共方法以及封…

汉(海)明码 | “十六宫格法” 破解汉(海)明码相关题目(附软考经典例题)

文章目录一、前言二、奇偶校验码三、海明码概念四、十六宫格法1.概述2.原理3.填写校验位4.填写数据位5.填写十六宫格首位五、结语一、前言 很多小伙伴在遇到“汉明码”相关的题目时,看了很多的视频,很多文章可能还是云里雾里,作者在备考软考…

Linux:GDB 调试一些函数栈被毁坏的问题

一、背景 GDB调试代码时,偶尔会遇到一些奇怪的现象:函数的参数地址在函数内部被传递给另外的函数,然后发现地址发生了改变,这样的情况称之为函数的栈被毁坏,导致无法重入。 然后被调用的函数里面,访问了非…

5.一个高性能、无侵入的Java性能监控和统计工具,有点东西!

随着所在公司的发展,应用服务的规模不断扩大,原有的垂直应用架构已无法满足产品的发展,几十个工程师在一个项目里并行开发不同的功能,开发效率不断降低。 于是公司开始全面推进服务化进程,把团队内的大部分工程师主要…

应用性能监控系统为企业SAP做定制分析

前言 某汽车总部已部署NetInside应用性能监控系统,使用流量分析系统提供实时和历史原始流量,重点针对SAP系统性能进行分析,以供安全取证、应用事务分析、网络质量监测以及深层网络分析。 本次分析报告包含:定制SAP性能和SAP接口…

微课录屏软件哪个好?小白也能快速上手

相比线下课程,微课有着时间短、知识碎片化、可以循环播放等优点,我们可以在任意场所任意时间打开微课进行学习。那你知道微课是如何制作的吗?大部分微课是通过录屏软件录制电脑上教学内容制作而成的。微课录屏软件哪个好?今天小编…

Python实现哈里斯鹰优化算法(HHO)优化支持向量机分类模型(SVC算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 2019年Heidari等人提出哈里斯鹰优化算法(Harris Hawk Optimization, HHO),该算法有较强的全…

[疑难杂症2023-001]代码没有任何改变,仅用CI打了一个新镜像,运行出错的可能原因分析

本文由Markdown语法编辑器编辑完成。 1. 前言 近日在项目中,遇到一个比较奇怪的问题。就是代码基本没有做任何修改,只是在配置文件中增加了几行配置,结果用CI的服务器,打了一个新的tag, 然后再运行时,就会出现报错。…

一文带你看懂验证码攻防技术那些事儿

本文目录 验证码为什么越变越复杂? 验证码有哪些破解方式? 验证码如何进行顶层产品能力设计? “天生反骨”的验证码总是让人类头疼不已。 比如最基础的英文数字组合验证码,就已经会让人陷入自我怀疑: “I还是1&am…

【机器学习 - 3】:数据归一化(最值归一化、均值方差归一化)

文章目录数据归一化的使用最值归一化均值方差归一化(常用)在sklearn中调用归一化(鸢尾花数据归一化)数据归一化的使用 为什么要使用数据归一化? 举个例子,例如我们要使用KNN算法来预测肿瘤为良性肿瘤或恶性…

Python算法:三种高级排序的方法

前言 声明:本文所有动图来源为菜鸟教程 🍀作者简介:被吉师散养、喜欢前端、学过后端、练过CTF、玩过DOS、不喜欢java的不知名学生。 🍁个人主页:红中 🍂不就是蓝桥杯嘛,干他!&#…