Chat2table,简易表格分析助手

news2025/2/26 3:03:29

一 写在前面

之前用智谱AI的Chatglm3-6b模型写过一个简单的论文阅读助手,可用来辅助论文阅读等。而像表格,如Excel、CSV文件等内容的分析,也是不可忽略的需要,因此本文同样使用Chatglm3-6b来搭建一个表格分析助手,用于快速分析表格的内容,提取有效的信息。
Chatglm3采用了全新的对话格式,除最基本的对话外,还支持工具调用和代码执行。简单来说,代码执行属于工具调用的子类,只是提示词不一样,而这两种功能是通过修改微调阶段的提示词来实现的。本文展示的模型作用类似代码执行,但是提示词略不一样,并且只用了最常见的对话提示词模板来完成该功能。
整体流程

二 表格理解

读取表格非常简单,使用pandas库中的read_csv或者read_excel即可。

1 直接读取完整的表格内容

利用to_json方法将df转化为一个json字符串

def read_from_csv(filename):
	df = pd.read_csv(filename)
	return df.to_json(force_ascii=False)

s = read_from_csv('/test_short.csv')
print(s)
'{"id":{"0":22501,"1":22502,"2":22503,"3":22504,"4":22505,"5":22506,"6":22507,"7":22508},"age":{"0":35,"1":26,"2":44,"3":36,"4":41,"5":24,"6":25,"7":33},"nr_employed":{"0":5205,"1":4925,"2":4947,"3":5203,"4":4992,"5":4993,"6":5155,"7":5034}}'

接着把上述表格内容的字符串放进提示词中

prompt = f"已知信息:{s}\n\n请回答问题:age大于35的数量有多少?\n\n"

用了上述的提示词生成的python代码如下:

data = {
    "id": {"0": 22501, "1": 22502, "2": 22503, "3": 22504, "4": 22505, "5": 22506, "6": 22507, "7": 22508},
    "age": {"0": 35, "1": 26, "2": 44, "3": 36, "4": 41, "5": 24, "6": 25, "7": 33},
    "nr_employed": {"0": 5205, "1": 4925, "2": 4947, "3": 5203, "4": 4992, "5": 4993, "6": 5155, "7": 5034}
}

# Calculate the number of individuals with age greater than 35
age_greater_than_35 = sum(1 for age in data["age"].values() if age > 35)
age_greater_than_35

可以看出,生成的python代码含有原表格的所有内容

2 只读取表格路径和基础信息:

import pandas as pd
csv_filename = '/test_short.csv'
query= 'age最大值是多少?'
prompt = f"已知csv文件:{csv_filename}\n\n文件Schema:{pd.read_csv(csv_filename).columns}\n\n问题:{query}\n\n请生成Python代码解决这个问题,将结果赋值给变量result\n\ndPython代码:\n\n"

生成的代码:

import pandas as pd

# 读取csv文件
data = pd.read_csv('/test_short.csv')
# 找到age列的最大值
result = data['age'].max()
print(result)

可以看出,生成的python代码只有当真正执行的时候才会从文件路径中读取表格内容

这两种方法的优缺点总结如下:
1.读取完整的表格内容:简单,但是受模型长度限制不能读取太大的表格
2.只读取表格路径和基础信息:需要一个目录用于保存文件,需要给出列的信息,模型根据这些信息生成代码,可以支持非常大的表格

三 运行代码字符串

在python脚本中动态执行python代码,可以用eval或者exec函数。一般来说,eval函数只能计算一个表达式的值,而exec可以执行复杂的代码,一般是多行的python字符串。

exec函数定义如下:
exec(object[, globals[, locals]])

参数说明:
object:必选参数,表示需要被指定的Python代码
globals:可选参数,全局变量,同eval函数
locals:可选参数,局部变量,一般指的是代码中用到的变量,同eval函数

返回值:
exec函数的返回值永远为None.

除了execeval,还可以利用ipython进行代码执行,即用jupyter-notebook的内核来执行代码,这里不赘述。

四 核心模块

如前所述,利用文件路径和信息构建合适的提示词:

import pandas as pd
csv_filename = '/test_short.csv'
query= 'age最大值是多少?'
prompt = f"已知csv文件:{csv_filename}\n\n文件Schema:{pd.read_csv(csv_filename).columns}\n\n问题:{query}\n\n请生成Python代码解决这个问题,将结果赋值给变量result\n\ndPython代码:\n\n"
response, history = model.chat(tokenizer, prompt, history=[])
print(response)

模型的回答如下:

首先,我们需要导入pandas库,然后读取csv文件。接下来,我们可以使用pandas的`max()`函数来找到age列的最大值,并将结果赋值给变量result。以下是完整的代码:

import pandas as pd
# 读取csv文件
data = pd.read_csv('/test_short.csv')
# 找到age列的最大值
result = data['age'].max()
print(result)

这段代码将输出age列的最大值。

接下来用正则提取出模型回答中的python代码部分:

import re
pat = re.compile(r'```python\n([\s\S]+)\n```')
code_string = pat.findall(response)[0]
print(code_string)

提取出来的python代码字符串如下:

"import pandas as pd\n\n# 读取csv文件\ndata = pd.read_csv('/test_short.csv')\n\n# 找到age列的最大值\nresult = data['age'].max()\n\nprint(result)"

利用exec执行代码,并且把结果赋给大模型。注意这时候需要设置参数role='observation'

loc = {}
exec(code_string, None, loc)
response, history = model.chat(tokenizer, f"result:{loc['result']}", history=history, role='observation')
print(response)
根据提供的CSV文件,age列的最大值是44。

五 效果展示

Gradio库有dataframe组件,可以用来显示上传表格的内容,实现预览功能。此外,上传的文档会存放在一个临时的路径下,当会话断开后则删除,不会保存到本地中,不占用本地存储。

表格分析助手搭建效果如图:
在这里插入图片描述

完整代码如下:

from transformers import AutoTokenizer, AutoModel
import gradio as gr
from pathlib import Path
import re
import pandas as pd

# 加载模型
model = AutoModel.from_pretrained("/chatglm3-6b", trust_remote_code=True).to("mps").eval()
tokenizer = AutoTokenizer.from_pretrained("/chatglm3-6b", trust_remote_code=True)



def read_tbl_2_pd(filename):
    if filename.endswith('.csv'):
        df = pd.read_csv(filename)
    elif filename.endswith('.xlsx') or filename.endswith('.xls'):
        pd.read_excel(filename, sheet_name=None)
    return df

def fn_analysis_table(query, robot,  filename):


    if robot is None:
        robot = []
    robot.append([query, " "])
    
    if filename.endswith('.csv'):
        schema = pd.read_csv(filename).columns
    elif filename.endswith('.xlsx') or filename.endswith('.xls'):
        schema = pd.read_excel(filename, sheet_name=None)['Sheet1'].columns
    
    
    chat_history = []
    
    prompt = f"已知文件:{filename}\n\n文件Schema:{schema}\n\n问题:{query}\n\n请利用Pandas生成Python代码解决这个问题,最后的结果务必赋值给变量result\n\ndPython代码:\n\n"
    
    print(prompt)
    
    response, history = model.chat(tokenizer, prompt, history=[])
    print(response)
    
    pat = re.compile(r'```python\n([\s\S]+)\n```')
    code_string = pat.findall(response)[0]
    print(code_string)


    loc = {}
    exec(code_string, None, loc)
    result = loc['result']    
    
    response, history = model.chat(tokenizer, f'result:{result}', history=history, role='observation')
    
    robot[-1] = [query, response]
    yield robot



with gr.Blocks() as app:

    with gr.Tab("与CSV对话"):

         with gr.Row():

            with gr.Column(scale=1):
                upload = gr.File(label="上传csv文档")
                df = gr.Dataframe()

                chatbot = gr.Chatbot(
                    label="ChatBot",
                    height=500,
                    bubble_full_width=False
                )
                instruction = gr.Textbox(lines=2, label="请输入您的问题", placeholder="问题...", max_lines=2)
                with gr.Row():
                    submit = gr.Button("提交", size="sm",interactive=True)
                    clean = gr.Button("清除", size="sm")
   
             
            upload.upload(fn=read_tbl_2_pd, inputs=[upload], outputs=[df], queue=False)
            
            submit.click(
                fn=fn_analysis_table,
                inputs=[instruction, chatbot,  upload],
                outputs=[chatbot],
                queue=True
                
            )
            clean.click(fn=lambda: None, inputs=None, outputs=chatbot, queue=False)
app.queue(max_size=3)
app.launch(share=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1477524.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于springboot + vue实现的前后端分离-汽车票网上预定系统(项目 + 论文)

项目介绍 系统是一个B/S模式系统,采用Spring Boot框架,MySQL 数据库设计开发,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得汽车票网上预订系统管理工作系统化、规范化。本系统的使用使管理人…

如何处理网络攻击对系统造成的损害?

网络攻击对系统造成的损害是当今企业面临的一大挑战。随着互联网的普及和数字化转型的加速,企业的运营越来越依赖于网络,但同时也面临着越来越多的网络安全威胁。一旦企业遭受网络攻击,其系统可能会遭受不同程度的损害,导致数据泄…

ZDH-大数据采集-支持KETTLE任务

目录 项目源码 预览地址 支持KETTLE介绍 新增KETTLE任务 配置调度KETTLE 重要说明 感谢支持 项目源码 zdh_web:GitHub - zhaoyachao/zdh_web: 大数据采集,抽取平台 预览地址 后台管理-登陆 用户名:zyc 密码:123456 支持KETTLE介绍 当前平台不…

Qt 简约美观的加载动画 小沙漏风格 第六季

这次和大家分享一个沙漏风格的加载动画 效果如下: 这是本系列的第六季了, 本次内容的关键在于cubicTo函数的使用, 在这里分享一个非常好用的网站https://www.desmos.com/calculator/cahqdxeshd 在这上面可以手动拖动贝塞尔曲线的控制点, 并且显示了起终点和两个控制点的精确坐…

Java实现Excel模板下载以及遇到的问题

Java实现Excel模板下载以及遇到的问题 前言: 项目在开发过程中,会用到Excel的导入,导出,复杂一点的Excel可以写好放在项目指定位置,下载时候直接从指定位置获取即可。 代码实现 excel存放的位置: cont…

C#,数值计算,求解微分方程的吉尔(Gear)四阶方法与源代码

1 微分方程 微分方程,是指含有未知函数及其导数的关系式。解微分方程就是找出未知函数。 微分方程是伴随着微积分学一起发展起来的。微积分学的奠基人Newton和Leibniz的著作中都处理过与微分方程有关的问题。微分方程的应用十分广泛,可以解决许多与导数…

Linux系统Docker部署StackEdit Markdown并实现公网访问本地编辑器

文章目录 前言1. ubuntu安装VNC2. 设置vnc开机启动3. windows 安装VNC viewer连接工具4. 内网穿透4.1 安装cpolar【支持使用一键脚本命令安装】4.2 创建隧道映射4.3 测试公网远程访问 5. 配置固定TCP地址5.1 保留一个固定的公网TCP端口地址5.2 配置固定公网TCP端口地址5.3 测试…

【mysql版本修改】

1、使用telnet确认当前mysql版本号 telnet <MySQL服务器IP地址> <MySQL端口号> telnet 192.168.38.20 33062、使用strings查看/usr/sbin/mysqld中包含版本号的字符串 # 查看/usr/sbin/mysqld文件中是否包含对应的版本号 strings /usr/sbin/mysqld | grep 5.7.30 …

vue-router4 (六) 路由嵌套

应用场景&#xff1a; ①比如京东页面的首页、购物车、我的按钮&#xff0c;可以点击切换到对应的页面&#xff1b; ② 比如 Ant Design左侧这些按钮点击就会切到对应的页面&#xff0c;此时可以把左侧按钮放在父路由中&#xff0c;右侧的子路由 1.路由配置&#xff0c;子路由…

408 数据结构笔记

408 数据结构 常用名词存取 第一章-绪论数据结构的基本概念数据的存储结构顺序存储链式存储索引存储散列存储 数据类型和抽象数据类型知识总览学习方式顺序 算法的基本概念时间复杂度空间复杂度 第二章-线性表总览顺序表顺序表的定义知识结构静态分配动态分配顺序表的特点顺序表…

AI一键生成3D模型!

一、Genie Genie 是 Luma AI 推出的一个文本到 3D 的生成模型&#xff0c;可以在 10 秒生成 4 款 3D 模型&#xff0c;自动精修后质感非常逼真&#xff0c;目前支持免费使用。 此次的 1.0 版本更新后将生成功能由 Discord 转到了单独的网页&#xff0c;使用起来更方便&#x…

探究前端路由hash和history的实现原理(包教包会)

今天我们来讲一讲前端中很重要的一个部分路由&#xff08;router&#xff09;&#xff0c;想必前端小伙伴对‘路由’一词都不会感到陌生。但是如果哪天面试官问你&#xff0c;能大概说一说前端路由的实现原理吗&#xff1f; 你又会如何应对呢&#xff1f; 今天勇宝就带着大家一…

温暖呵护,宝宝吐奶小贴士

引言 新生儿是我们生命中的宝贝&#xff0c;但在成长过程中&#xff0c;他们可能会经历各种各样的健康问题。其中&#xff0c;吐奶是较为常见的一种情况&#xff0c;让父母们倍感担忧。在这篇文章中&#xff0c;我们将深入探讨新生儿吐奶的注意事项&#xff0c;并分享一些温暖…

Mask Guided Matting via Progressive Refinement network

1.introduction 输入可以是trimap&#xff0c;粗略二进制分割图&#xff0c;低质量alpha&#xff0c; 2.MG Matting 2.1 Progressive refinement network 网络以图像和粗略mask作为输入&#xff0c;并输出抠图 &#xff0c;在解码过程中&#xff0c;RPN在每个特征级别产生一个…

怎么制作文件类型二维码?文件二维码如何加密?

现在将文件转二维码图片后&#xff0c;分享生成二维码来扫码查看或者下载文件的方式&#xff0c;在很多的场景中都有应用。这个方法的优势在于&#xff0c;成本低而且安全性高&#xff0c;有利于用户快速获取内容的速度&#xff0c;有效提高用户体验&#xff0c;而且日常使用的…

《Decoupling Representation and Classifier for Long-Tailed Recognition》阅读笔记

论文标题 《Decoupling Representation and Classifier for Long-Tailed Recognition》 用于长尾识别的解耦表示和分类器 作者 Bingyi Kang、Saining Xie、Marcus Rohrbach、Zhicheng Yan、 Albert Gordo、Jiashi Feng 和 Yannis Kalantidis 来自 Facebook AI 和 新加坡国…

JVM 有哪些垃圾回收器

引言&#xff1a; 如果说垃圾收集算法是内存回收的方法论&#xff0c;那么垃圾收集器就是内存回收的具体实现。下图展示了 7种作用于不同分代的收集器&#xff0c;其中用于回收新生代的收集器包括Serial、PraNew、Parallel Scavenge&#xff0c;回收老年代的收集器包括Serial …

1906_ AMBA_高级MCU总线架构

1906_ AMBA_高级MCU总线架构 全部学习汇总&#xff1a; g_arm_cores: ARM内核的学习笔记 (gitee.com) 在看内核相关的文件的时候看到了AMBA这个缩写&#xff0c;查了一下具体的概念。这个其实是一个总线架构&#xff0c;应该是ARM设计的。我找到了相关的介绍网页&#xff1a; A…

了解GPT:ChatGPT的终极指南

在人工智能&#xff08;AI&#xff09;的世界里&#xff0c;有一颗冉冉升起的新星正在革命性地改变我们与机器的交互方式&#xff1a;ChatGPT。在本文中&#xff0c;我们将深入研究什么是ChatGPT&#xff0c;为什么底层技术GPT如此强大&#xff0c;以及它是如何实现其卓越功能的…

激光打标机在塑料行业的高精度标记

随着科技的不断发展&#xff0c;激光打标机在塑料行业中的应用越来越广泛。这种高精度的标记技术为塑料产品提供了持久、清晰、可追溯的标识&#xff0c;满足了生产过程中的各种需求。 首先&#xff0c;激光打标机具有高精度的标记能力。这种技术利用激光束在塑料表面进行刻划&…