使用LangChain和GPT-4,创建Pandas DataFrame智能体

news2024/11/18 2:24:43

大家好,数据分析和数据处理是数据科学领域每天都在进行的基本任务。高效和快速的数据转换对于提取有意义的见解和基于数据做出明智决策至关重要。其中最受欢迎的工具之一是Python库Pandas,它提供了一个功能强大的DataFrame工具,使用灵活直观的结构简化了这些任务。

然而,DataFrame需要编写代码,对于没有编程知识的人来说可能具有挑战性。为了弥补这一差距,使数据分析更广泛地应用,LangChain和OpenAI的GPT-4的组合非常有用。

本文我们将探索如何通过LangChain、GPT-4和Pandas的协作,创建一个以代理形式呈现的交互式DataFrame。我们可以使用自然语言与该代理进行交互,并要求它执行各种以前需要编程知识才能完成的分析任务。

一、LangChain和GPT-4

我们将深入了解LangChain和GPT-4的基础知识,当这两个工具结合在一起时,它们能够创建一个由OpenAI自然语言模型驱动的智能代理。

1.1 LangChain:用于智能代理的编程语言

LangChain是一个旨在创建智能代理的项目。它提供了一个独特的接口,允许用户使用人类语言指令与代理进行交互,而无需复杂的代码,使得即使没有编程知识,也能进行交互。

LangChain最显著的特点是它能够理解和处理用人类语言编写的指令。在内部,它利用先进的自然语言处理技术来理解指令并将其转换为可以执行的代码。LangChain使我们的代理能够理解、处理和执行指令,以执行数据分析和处理任务。

1.2 GPT-4:自然语言处理的进展

Generative Pre-trained Transformed 4,简称GPT-4,是由OpenAI开发的一种先进的大型语言模型。GPT-4目前是最新、最先进的大型语言模型,提供了广泛的自然语言处理能力。它经过大规模数据集的训练,使其能够对任何主题生成连贯和与上下文相符的回答。

尽管GPT-4具有强大的功能,但它的主要优势之一是能够理解和生成类似人类的文本。它可以学习语言的模式、细微差别和风格,使其能够理解指令并根据其生成结果。GPT-4通过为代理提供处理和生成自然语言指令的能力,从而增强了LangChain。

图片

图片由MidJourney生成

二、训练代理

LangChain有一个特定的用于Pandas的库,称为pandas_dataframe_agent。这是一个功能强大的工具,可以高效处理大型数据集,并允许进行高级查询和转换。它在数据分组和聚合以及统计分析等任务方面表现出色。此外,它还可以进行过滤、连接、合并、掩码等许多其他操作。

准备好后开始训练代理。

2.1 设置舞台

!pip install langchain

import os
os.environ["OPENAI_API_KEY"] = ""

我们需要安装langchain库,此外还需要将环境变量设置为OpenAI API密钥,并使用自己的API密钥更新代码。通过设置密钥,可以确保API调用经过身份验证和授权,以供代理使用。

from langchain.agents import create_pandas_dataframe_agent
from langchain.llms import OpenAI
import pandas as pd

需要导入已安装的库,注意还导入了OpenAI,LangChain有多个大型语言模型可用,但本示例使用OpenAI。

2.2 获取一些数据

获取一些数据,对于本示例将使用来自Kaggle的Titanic数据集:

【Titanic数据集】:https://www.kaggle.com/c/titanic

df = pd.read_csv('titanic.csv')

查看数据帧的前10行:

图片

Titanic数据集的前10行

2.3 实例化代理

在准备好数据后,需要实例化代理:

agent = create_pandas_dataframe_agent(OpenAI(temperature=0,
                                             model_name = 'gbt4'), 
                                      df, 
                                      verbose=True)

我们需要创建一个LangChain代理,使用OpenAI的语言模型来处理自然语言,然后从提供的CSV文件titanic.csv创建一个Pandas DataFrame代理。将温度设置为0,以便从GPT-4中获取最可能的响应。

三、向代理提问

从简单的问题开始,将逐渐挑战代理来回答更复杂的问题,从第一个问题开始:

agent.run("How many passengers were onboard the Titanic?")

图片

正如所看到的,代理经过了所有人类的步骤,识别了问题、找到了正确的操作输入,并返回了最终答案。再提高一点难度:

agent.run("""
How many passengers had more than 2 siblings? 
Return the answer as a product of Pi
""")

图片

代理试图用Pi来进行乘法运算,然而所需的库没有被导入,因此它导入了该库并最终得到了正确的答案。尝试使用稍微复杂一点的提示来进行最后一个示例:

agent.run("What was the survival rate for each gender?")

图片

同样,该代理通过使用groupby并取输出的平均值,正确地识别了操作输入。

图片

图片由MidJourney生成

综上所述,LangChain、GPT-4和Pandas的融合使我们能够创建智能的DataFrame代理,使数据分析和处理变得简单。可以使用自然语言与代理进行交互,拓宽进行数据分析的方法,降低门槛。除了简单的过滤和数据清理任务外,代理还可以执行更复杂的操作,这通常需要高级代码。

本文中逐步从零开始构建了一个代理,并展示了与之交互的简便性。另一个很酷的事情是,代理在执行过程中展示了其思考过程,从而使得调试和透明化变得容易。

可以通过创建自己的代理来探索LangChain和GPT-4的可能性,向它提问,并通过数据分析为你所热衷的领域提供价值,来探索LangChain和GPT-4的可能性。由于LangChain和GPT-4等工具的存在,数据分析的未来将比以往任何时候都更加光明。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1594383.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

并发编程之ThreadLocal使用及原理

ThreadLocal主要是为了解决线程安全性问题的 非线程安全举例 public class ThreadLocalDemo {// 非线程安全的private static final SimpleDateFormat sdf new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");public static Date parse(String strDate) throws ParseExc…

力扣2- 两数相加

给你两个 非空 的链表,表示两个非负的整数。它们每位数字都是按照 逆序 的方式存储的,并且每个节点只能存储 一位 数字。 请你将两个数相加,并以相同形式返回一个表示和的链表。 你可以假设除了数字 0 之外,这两个数都不会以 0 …

Linux配置程序后台运行(前后台来回切换)

Linux配置程序后台运行 在日常开发过程中,会遇到我们在前台运行程序,此时我们临时有事,但不能关闭终端,否则程序就会在电脑熄屏(终端session断开后)停止运行。 那么作为一个合格的开发,就必须要…

Redis-更新策略,缓存穿透,缓存雪崩,缓存击穿

Redis-更新策略,缓存穿透,缓存雪崩,缓存击穿 1.缓存更新 策略 淘汰策略超时剔除主动更新 更新策略:先修改数据库还是先删除缓存 结论:先修改数据库,因为缓存的操作比较快,容易产生数据不一致更新缓存还是删除缓存? …

字符串转换为List<String>时候抛出异常:com.alibaba.fastjson2.JSONException: TODO : s

前言: 一个字符串想要能够转换为 List,其本身必须是具备 List 属性的字符串。 问题现象: 项目中需要对第三方接口返回的字符串转换为 List,就想到了使用 fastjson 来处理。 代码如下: Object obj data.get(SignC…

Canal介绍原理及安装

Canal 扩展篇 1.Canal介绍、 链接: https://github.com/alibaba/canal Canal 主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费,工作原理如下: Canal 模拟 MySQL slave 的交互协议,伪装自己为 MySQL slave &am…

启动nginx时报错:signal process started

解决方案,直接使用该命令启动,指向nginx.conf配置文件: nginx -c /www/wdlinux/nginx/conf/nginx.conf 启动成功:

JD抓包 | 安卓app抓包

去年11月份左右搞过一次安卓抓包, 搞了很久试了很多方法, 才弄好. 时隔半年, 安卓抓包依然是令我头疼的问题 这次简单记录一下过程(细节太多我也说不清) JD的有效信息接口通常是以下这样的, 其他的接口并没有返回太多"有用"的信息 https://api.m.jd.com/client.act…

使用 Prometheus 在 KubeSphere 上监控 KubeEdge 边缘节点(Jetson) CPU、GPU 状态

作者:朱亚光,之江实验室工程师,云原生/开源爱好者。 KubeSphere 边缘节点的可观测性 在边缘计算场景下,KubeSphere 基于 KubeEdge 实现应用与工作负载在云端与边缘节点的统一分发与管理,解决在海量边、端设备上完成应…

AI来了,Spring还会远吗?(Spring AI初体验)

目录 一、创建项目二、first demo1、application.properties2、ChatController3、结果 三、个人思考 一、创建项目 官方文档的Getting Started 最低要求:JDK17 阿里云的Server URL(https://start.aliyun.com/)搜不到Spring AI,…

『VUE』17. Dom与模板引用(详细图文注释)

目录 回顾之前的操作ref 属性借助dom使用原生js总结 欢迎关注 『VUE』 专栏,持续更新中 欢迎关注 『VUE』 专栏,持续更新中 回顾之前的操作 之前的这些操作都是我们使用vue为我们渲染的对象,再来操作dom 内容改变{{ 模板语法 }}属性改变 v-bind:添加事…

稀碎从零算法笔记Day49-LeetCode:设计哈希集合

题型:模拟 链接:705. 设计哈希集合 - 力扣(LeetCode) 来源:LeetCode 题目描述 不使用任何内建的哈希表库设计一个哈希集合(HashSet)。 实现 MyHashSet 类: void add(key) 向哈…

LangChain入门:14.LLMChain:最简单的链的使用

摘要 本文将介绍LangChain库中LLMChain工具的使用方法。LLMChain将提示模板、语言模型(LLM)和输出解析器整合在一起,形成一个连贯的处理链,简化了与语言模型的交互过程。我们将探讨LLMChain的技术特点、应用场景以及它解决的问题…

PostgreSQL入门到实战-第三十弹

PostgreSQL入门到实战 PostgreSQL教程网站官网地址PostgreSQL概述更新计划 PostgreSQL教程网站 https://www.postgresqltutorial.com/ 官网地址 声明: 由于操作系统, 版本更新等原因, 文章所列内容不一定100%复现, 还要以官方信息为准 https://www.postgresql.org/PostgreS…

OpenHarmony实战开发-Actor并发模型对比内存共享并发模型

内存共享并发模型指多线程同时执行复数任务,这些线程依赖同一内存并且都有权限访问,线程访问内存前需要抢占并锁定内存的使用权,没有抢占到内存的线程需要等待其他线程释放使用权再执行。 Actor并发模型每一个线程都是一个独立Actor&#xf…

MySQL limit N offset M 速度慢?来实际体验下

直接开始 有一张表:trade_user,表结构如下: mysql> desc trade_user; ------------------------------------------------------------------ | Field | Type | Null | Key | Default | Extra | -------------…

wpf下RTSP|RTMP播放器两种渲染模式实现

技术背景 在这篇blog之前,我提到了wpf下播放RTMP和RTSP渲染的两种方式,一种是通过控件模式,另外一种是直接原生RTSP、RTMP播放模块,回调rgb,然后在wpf下渲染,本文就两种方式做个说明。 技术实现 以大牛直…

群晖双硬盘实时备份(WebDAV Server+Cloud Sync)

安装和设置 WebDAV Server WebDAV 是一种基于HTTP的协议扩展,它允许用户在远程Web服务器上进行文档的编辑和管理,就如同这些文件存储在本地计算机上一样。使用WebDAV,用户可以创建、移动、复制和修改文件和文件夹。 安装和设置 Cloud Sync…

Spring5深入浅出篇:Spring自定义类型转换器

Spring5深入浅出篇:Spring自定义类型转换器 类型转换器 首先要知道什么叫做类型转换器 ,我们通过配置的属性值是以字符串的形式为什么在查看对象成员变量时已经变成了int,这就是Spring的内置类型转换器帮我们做了自动类型转换. 作⽤:Spring通过类型转换器把配置⽂件…

性能分析与限流策略

性能分析与限流策略 常用HTTP服务压测工具介绍 在项目正式上线之前,我们通常需要通过压测来评估当前系统能够支撑的请求量、排查可能存在的隐藏bug,同时了解了程序的实际处理能力能够帮我们更好地匹配项目的实际需求,节约资源成本 压测相关…