langchain基础(二)

news2025/1/31 4:13:16

一、输出解析器(Output Parser)

作用:(1)让模型按照指定的格式输出;

(2)解析模型输出,提取所需的信息

1、逗号分隔列表

CommaSeparatedListOutputParser:规定模型输出为以逗号分隔的字符串形式(它是自然语言意义上的列表,不是 Python 意义上的列表),解析时再将逗号分隔的字符串转成列表。

#使用CommaSeparatedListOutputParser限制模型输出格式,并对输出进行解析,将其转换为列表形式。

from langchain.output_parsers import CommaSeparatedListOutputParser
from langchain.prompts import ChatPromptTemplate
from langchain_community.chat_models import ChatOpenAI

# 初始化模型
model=ChatOpenAI(model="gpt-3.5-turbo",
                 base_url="https://api.gptsapi.net/v1",
                )

#构建消息列表
prompt = ChatPromptTemplate.from_messages([ #构建提示模板
    ("system", "{parser_instructions}"),
    ("human", "列出5个{subject}色系的十六进制颜色码。")
])

output_parser=CommaSeparatedListOutputParser() #创建输出解析器(以逗号分隔的列表)
parser_instructions=output_parser.get_format_instructions() #获取解析器的指令
print(parser_instructions) #Your response should be a list of comma separated values, eg: `foo, bar, baz` or `foo,bar,baz`

final_prompt=prompt.invoke( #将变量填充,生成最终提示
    {"parser_instructions":parser_instructions,
    "subject":"莫兰迪"}
)

# 调用模型并输出结果
response=model.invoke(final_prompt)
print(type(response)) #<class 'langchain_core.messages.ai.AIMessage'>
print(response.content) # #F0A202, #FFCD75, #F8E6A0, #EAE0C8, #E1D9B7

response2list=output_parser.invoke(response) #使用output_parser的invoke方法对模型的响应response进行解析
print(response2list) #['#F0A202', '#FFCD75', '#F8E6A0', '#EAE0C8', '#E1D9B7']

系统消息("{parser_instructions}"),此消息位置用于传递输出解析器的指令,告诉模型如何格式化输出。

创建CommaSeparatedListOutputParser实例output_parser,用于解析模型输出。

通过output_parser.get_format_instructions()获取输出格式指令,这些指令会告诉模型应以逗号分隔的列表形式输出结果。打印这些指令可查看具体内容,例如:“你的回答应该是一个逗号分隔的列表,不包含任何其他解释或说明。”

使用output_parserinvoke方法对模型的响应response进行解析。output_parser会按照之前定义的格式指令,将模型输出转换为 Python 列表。

对于output_parser的invoke函数,

Union[str, BaseMessage] 是 Python typing 模块中的类型注解,表示 input 参数可以是 str 类型(字符串类型)或者 BaseMessage 类型。Union 用于指定一个参数可以是多种类型中的任意一种。 

 2、JSON

# 从给定的书籍概述中提取书名、作者以及书籍体裁等信息,并将提取结果解析为 Pydantic 模型对象

from langchain.output_parsers import PydanticOutputParser
from langchain.prompts import ChatPromptTemplate
from pydantic import BaseModel,Field
from typing import List
from langchain_community.chat_models import ChatOpenAI

# 初始化模型
model=ChatOpenAI(model="gpt-3.5-turbo",
                 base_url="https://api.gptsapi.net/v1",
                )

# 消息列表
## 定义数据输出和解析格式,获取parser_instructions
class BookInfo(BaseModel):
    book_name:str=Field(description="书籍的名字",
                        example="百年孤独")
    author_name:str=Field(description="书籍的作者",
                          example="加西亚·马尔克斯")
    genres:List[str]=Field(description="书籍的体裁",
                         example=["小说","文学"])
    
output_parser=PydanticOutputParser(pydantic_object=BookInfo) #将BookInfo类作为参数传递,用于将模型输出解析为BookInfo对象
parser_instructions=output_parser.get_format_instructions()
print(parser_instructions)

## 构建提示模板
prompt=ChatPromptTemplate.from_messages(
    [
        ("system","{parser_instructions}。你输出的结果请使用中文。"),
        ("human","请你帮我从书籍概述中,提取书名、作者,以及书籍的体裁。书籍概述会被三个#符号包围。\n###{book_introduction}###")
    ]
)

book_introduction="""
《明朝那些事儿》,作者是当年明月。2006 年 3 月在天涯社区首次发表,
2009 年 3 月 21 日连载完毕,边写作边集结成书出版发行,一共 7 本。
《明朝那些事儿》主要讲述的是从 1344 年到 1644 年这三百年间关于明朝的一些故事。
以史料为基础,以年代和具体人物为主线,并加入了小说的笔法,语言幽默风趣。
对明朝十六帝和其他王公权贵和小人物的命运进行全景展示,
尤其对官场政治、战争、帝王心术着墨最多,并加入对当时政治经济制度、人伦道德的演义。
它以一种网络语言向读者娓娓道出三百多年关于明朝的历史故事、人物。
其中原本在历史中陌生、模糊的历史人物在书中一个个变得鲜活起来。
《明朝那些事儿》为读者解读历史中的另一面,让历史变成一部活生生的生活故事。"""

## 将格式指令和书籍概述填充到提示模板中,生成最终的提示
final_prompt=prompt.invoke(
    {
        "parser_instructions":parser_instructions,
        "book_introduction":book_introduction
    }
)

# 调用模型并输出结果
response=model.invoke(final_prompt)
print(response.content)

response2bookinfo=output_parser.invoke(response) #将模型的响应response解析为BookInfo对象response2bookinfo
print(response2bookinfo)
print(response2bookinfo.book_name)
print(response2bookinfo.author_name)
print(response2bookinfo.genres)

1、pydantic是一个功能强大的python库,主要用于数据验证、数据解析和数据序列化。

数据验证:

(1)类型检查:对输入的数据进行严格的类型检查,确保数据符合模型定义的类型。例如,在定义一个用户模型时,可以指定用户的年龄为整数类型,如果传入的数据不是整数,pydantic 会抛出验证错误。

(2)范围和约束检查:为字段设置范围和约束条件,如最大长度、最小长度、最大值、最小值等。

数据解析:

自动类型转换: 可以自动将输入的数据转换为模型定义的类型。例如,输入的字符串形式的数字可以自动转换为整数或浮点数。

数据序列化:

模型实例可以方便地转换为字典(.dict)或 JSON 字符串(.json),便于数据的存储和传输。

补充:dict和json的区别

如果你只在 Python 内部处理数据,字典可能更合适;而如果涉及到数据的传输或存储,尤其是跨系统的交互,JSON 字符串通常是更好的选择。

2、BaseModelField来自pydantic库,它们具有以下作用:

BaseModel是一个基类,用于创建数据模型类。通过继承BaseModel,可以快速定义具有数据验证、序列化和反序列化等功能的数据模型。

比如BookInfo类继承自BaseModel,这使得BookInfo类可以利用pydantic提供的自动验证功能,确保数据符合定义的类型和约束条件。

Field是用于定义模型字段的函数。它为模型中的字段(book_nameauthor_namegenres)提供额外的元数据和配置选项,如字段的描述(descripton)、示例(example)等。

这些信息在生成文档、进行数据验证以及帮助开发者、AI理解代码逻辑等方面都非常有帮助。

3、打印指令print(parser_instructions)

开头部分说明了输出应该被格式化为一个符合给定 JSON 模式的 JSON 实例,并通过一个示例展示了什么样的输出是符合模式的,什么样的输出是不符合模式的。

 JSON Schema(schema模式,用于规范实际存储的书籍信息的结构和规则):“说明书”

输出json:

 4、输出的json本质上是字符串,将其转为类实例更容易提取对应信息

result.book_name就可以直接得到书名了。

5、from typing import List

在 Python 3.9 之前需要引入 List 来实现更精确的类型提示,而 Python 3.9 及以后可以直接使用内置的 list 完成类似功能。不过,为了保持代码在不同 Python 版本之间的兼容性,很多项目仍然会使用 typing 模块中的类型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2285080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

解除阿里云盘压缩包分享限制的最新工具(2025年更新)

前言 前段时间&#xff0c;为了在阿里云盘分享一些资料&#xff0c;尝试了好多种方法&#xff1a;改文件名后缀&#xff0c;打包自解压&#xff0c;使用将压缩文件追加在图片文件后&#xff0c;还有的一些工具&#xff0c;虽然能伪装文件但并不太好用&#xff0c;最后自己写了…

2025神奇的数字—新年快乐

2025年&#xff0c;一个神奇的数字&#xff0c;承载着数学的奥秘与无限可能。它是45的平方&#xff08;45&#xff09;&#xff0c;上一个这样的年份是1936年&#xff08;44&#xff09;&#xff0c;下一个则是2116年&#xff08;46&#xff09;&#xff0c;一生仅此一次。2025…

PWM频率测量方法

测量PWM&#xff08;脉宽调制&#xff09;信号的频率是嵌入式系统中的常见需求&#xff0c;尤其是在电机控制、LED调光、传感器信号处理等场景中。 在这里介绍两种测量PWM频率的方法&#xff1a;测频法与测周法。 1、测频&#xff08;率&#xff09;法 原理&#xff1a;在闸门…

【解决方案】VMware虚拟机adb连接宿主机夜神模拟器

1、本机&#xff08;宿主机&#xff0c;系统windows10&#xff09;ip为192.168.31.108 2、运行模拟器后本机cmd查看端口为62026 3、VMware虚拟机&#xff08;系统&#xff0c;kali&#xff09;adb连接192.168.31.108:62026报错 failed to connect to 192.168.31.108:16416: Co…

DroneXtract:一款针对无人机的网络安全数字取证工具

关于DroneXtract DroneXtract是一款使用 Golang 开发的适用于DJI无人机的综合数字取证套件&#xff0c;该工具可用于分析无人机传感器值和遥测数据、可视化无人机飞行地图、审计威胁活动以及提取多种文件格式中的相关数据。 功能介绍 DroneXtract 具有四个用于无人机取证和审…

基于springboot+vue的流浪动物救助系统的设计与实现

开发语言&#xff1a;Java框架&#xff1a;springbootJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#xff1a;…

利用ue5制作CG动画笔记

tips&#xff1a; 按住鼠标中键可以拖动枢轴点 在曲线编辑器中按住shift可以使曲线编辑保持在x轴 专业术语&#xff1a; CGI&#xff1a;计算机生成图象&#xff08;computer-generated imagery&#xff09;真实的不算&#xff0c;计算机生成的 Compositing&#xff1a;合…

AI 图片涌入百度图库

在这个信息爆炸的时代&#xff0c;我们习惯了通过搜索引擎来获取各种想要的信息和图片。然而&#xff0c;现在打开搜索引擎看到的却是许多真假难辨的信息——AI图片&#xff0c;这部分数据正以惊人的速度涌入百度图库&#xff0c;让小编不禁想问&#xff1a;未来打开百度图库不…

《多阶段渐进式图像修复》学习笔记

paper&#xff1a;2102.02808 GitHub&#xff1a;swz30/MPRNet: [CVPR 2021] Multi-Stage Progressive Image Restoration. SOTA results for Image deblurring, deraining, and denoising. 目录 摘要 1、介绍 2、相关工作 2.1 单阶段方法 2.2 多阶段方法 2.3 注意力机…

2025.1.26机器学习笔记:C-RNN-GAN文献阅读

2025.1.26周报 文献阅读题目信息摘要Abstract创新点网络架构实验结论缺点以及后续展望 总结 文献阅读 题目信息 题目&#xff1a; C-RNN-GAN: Continuous recurrent neural networks with adversarial training会议期刊&#xff1a; NIPS作者&#xff1a; Olof Mogren发表时间…

设置jmeter界面图标字体大小

设置jmeter界面图标字体大小 方法&#xff1a;点击“选项” -> 点击放大、缩小。&#xff08;可进行全局的菜单、左侧目录结构树、元件界面显示等字体图标的放大、缩小。&#xff09;

使用 MSYS2 qemu 尝鲜Arm64架构国产Linux系统

近期&#xff0c;我的师弟咨询我关于Arm64架构的国产CPU国产OS开发工具链问题。他们公司因为接手了一个国企的单子&#xff0c;需要在这类环境下开发程序。说实在的我也没有用过这个平台&#xff0c;但是基于常识&#xff0c;推测只要基于C和Qt&#xff0c;应该问题不大。 1. …

RocketMQ实战—1.订单系统面临的技术挑战

大纲 1.一个订单系统的整体架构、业务流程及负载情况 2.订单系统面临的技术问题一&#xff1a;下订单的同时还要发券、发红包、Push推送等导致性能太差 3.订单系统面临的技术问题二&#xff1a;订单退款时经常流程失败导致无法完成退款 4.订单系统面临的技术问题三&#xf…

Linux学习笔记——用户管理

一、用户管理命令 useradd #用户增加命令 usermod #用户修改命令 passwd #密码修改命令 userdel #用户删除命令 su #用户提权命令 1、useradd命令&#xff08;加用户&#xff09;&#xff1a; 创建并设置用户信息&#xff0c;使用us…

【AI】【本地部署】OpenWebUI的升级并移植旧有用户信息

【背景】 OpenWebUI的版本升级频率很高&#xff0c;并会修改旧版本的Bug&#xff0c;不过对于已经在使用的系统&#xff0c;升级后现有用户信息都会丢失&#xff0c;于是研究如何在升级后将现有的用户信息移植到升级后版本。 【准备工作】 OpenWebUI的升级步骤在Docker中有现…

PyCharm接入DeepSeek实现AI编程

目录 效果演示 创建API key 在PyCharm中下载CodeGPT插件 配置Continue DeepSeek 是一家专注于人工智能技术研发的公司&#xff0c;致力于开发高性能、低成本的 AI 模型。DeepSeek-V3 是 DeepSeek 公司推出的最新一代 AI 模型。其前身是 DeepSeek-V2.5&#xff0c;经过持续的…

21款炫酷烟花合集

系列专栏 《Python趣味编程》《C/C趣味编程》《HTML趣味编程》《Java趣味编程》 写在前面 Python、C/C、HTML、Java等4种语言实现18款炫酷烟花的代码。 Python Python烟花① 完整代码&#xff1a;Python动漫烟花&#xff08;完整代码&#xff09; ​ Python烟花② 完整…

zyNo.15(Web题型总结1)

web 一、工具使用 1.sqlmap使用 在目录页输入cmd就可以打开程序 使用方法查看输入python sqlmap.py --help 二、web攻防知识体系 新手村 WEB CTF入门 md5绕过、变量覆盖、随机数问题 sql注入 MySQL注入介绍与联合…

将 OneLake 数据索引到 Elasticsearch - 第 1 部分

作者&#xff1a;来自 Elastic Gustavo Llermaly 学习配置 OneLake&#xff0c;使用 Python 消费数据并在 Elasticsearch 中索引文档&#xff0c;然后运行语义搜索。 OneLake 是一款工具&#xff0c;可让你连接到不同的 Microsoft 数据源&#xff0c;例如 Power BI、Data Activ…

C++11中array容器的常见用法

文章目录 一、概述二、std::array的特点三、std::array的定义与初始化三、std::array的常用成员函数四、与 C 风格数组的互操作 一、概述 在 C11 中&#xff0c;std::array 是一个新的容器类型&#xff0c;它提供了一个固定大小的数组封装。相比传统的 C 风格数组&#xff0c;…