ChatGPT | Word表格整体输出

news2025/1/16 19:03:37

 本文来自欧巴Godwin的博客 ,引用必须注明出处!

用LangChain读取Word和PDF的文字内容是好的,但如果内容包含表格则读取出来的内容完全没法看。用ChatGPT往往是做企业知识库,所以会出现一个场景,即员工想让ChatGPT讲解包含表格的内容。

要达到效果,本文的做法是:

1、用pandoc把Doc文档转为MarkDown而且是GitHub模式,是重点,因为MarkDown可以作为文本被embedding并且输出内容包含原汁原味的表格<Table>标签

2、用"\n## "作为MarkDown文件的切割符,用TXTLoader读取MD文件并embedding

3、这里只用embedding而不用ChatGPT,本文只做整体表格输出,不做表格多维度内容总结

直接贴出Doc表格和embedding输出的MarkDown表格对比:

1、先贴出pandoc的命令,用pandoc把Doc转为MD文件:

pandoc -s test.docx -t gfm -o test.md

2、贴出Python源码:

import os
from langchain.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Chroma

from langchain.document_loaders.pdf import PDFMinerLoader
from langchain.document_loaders import TextLoader
from langchain.document_loaders import UnstructuredMarkdownLoader

# 1、把MD文件当做TXT加载
loader = TextLoader(".\\单文件\\test.md","UTF-8")
pages = loader.load_and_split()

# 2、拆分文件
text_splitter = CharacterTextSplitter(
    separator = "\n## ",
    chunk_size = 500, #chunk_size = 1000,
    chunk_overlap = 0
)

# 切割加载的 document
split_docs = text_splitter.split_documents(pages)
print(f'documents:{len(split_docs)}')
#print("拆分后的文档:" + str(split_docs))

# 3、将文件embedding
os.environ["OPENAI_API_TYPE"] = "azure"
os.environ["OPENAI_API_KEY"] = "xxxxxxxxxxxx"
os.environ["OPENAI_API_BASE"] = "https://yyyyyyyyyyy.openai.azure.com/"
embeddings = OpenAIEmbeddings(model="text-embedding-ada-002", deployment="lk-text-embedding-ada-002", chunk_size=1)

print("开始embedding")

# 4、将拆分后的文本embeddings后存储到Vector数据库
vectordb = Chroma.from_documents(split_docs, embedding=embeddings, persist_directory="./")
vectordb.persist()

result_list=vectordb.search("岗位设置是什么",'similarity')
print(result_list[0])

3、运行返回的内容,把内容贴到txt文件另保存为.md,再上传到有道云笔记这类支持MD格式的软件即可看到上图MD格式内容:

page_content='岗位设置\n\n根据项目研发过程主要分为需求整理、项目研发、生产发布三个阶段。明确工作职责,逐步实现产品经理、项目经理、软件工程师师、测试工程师、运维工程师的岗位设置。\n\n<table>\n<colgroup>\n<col style="width: 16%" />\n<col style="width: 56%" />\n<col style="width: 27%" />\n</colgroup>\n<thead>\n<tr class="header">\n<th><strong>岗位</strong></th>\n<th><strong>工作内容</strong></th>\n<th><strong>责任</strong></th>\n</tr>\n</thead>\n<tbody>\n<tr class="odd">\n<td>产品经理</td>\n<td><p>1、负责分析需求、整理需求,编写需求文档。</p>\n<p>2、绘制界面原型demo等,设计功能使用的具体描述、行为者、前置条件、后置条件、UI描述、业务流程/子流程/分支流程,界面
说明等,完成大部分的前端设计,小部分的后端设计。</p>\n<p>3、对项目组成员详细讲解需求。</p>\n<p>4、项目过程中维护和跟踪需求状态。</p></td>\n<td><p>1、对产品需求的真实
度负责。</p>\n<p>2、对产品整体风格负责。</p>\n<p>3、对项目整体设计流程负责。</p>\n<p>4、对需求的生命周期负责。</p></td>\n</tr>\n<tr class="even">\n<td>项目经理</td>\n<td><p>1、选定项目组成员,成立项目组,安排任务分工。</p>\n<p>2、制定研发主计划,包括需求,设计,编码,测试这几个阶段的计划。</p>\n<p>3、评估项目研发投入的资源。</p>\n<p>4、制定项目组开发进度表, 对组内人员工作进度监控。</p>\n<p>5、对文档的质量进行检查、把关。</p>\n<p>6、组织需求评审、技术评审等会议。</p></td>\n<td><p>1、对项目资源
有效使用负责。</p>\n<p>2、对各岗位沟通协调工作负责。</p>\n<p>3、对项目的进度负责。</p>\n<p>4、对系统总体设计、详细设计文档质量负责。</p>\n<p>5、对项目组会议质量负责。</p></td>\n</tr>\n<tr class="odd">\n<td>软件工程师</td>\n<td><p>1、负责把产品需求分解为研发任务。</p>\n<p>2、负责系统的模块设计。</p>\n<p>3、负责模块的代码编写、维护
。</p>\n<p>4、负责技术文档的编写、维护。</p>\n<p>5、负责与测试工程师的交互,处理测试工程师的问题。</p>\n<p>6、对项目组成员进行技术指导。</p></td>\n<td><p>1、对研发任
务的有效性负责。</p>\n<p>2、对模块设计的有效性负责。</p>\n<p>3、对模块的开发效率和代码质量负责。</p>\n<p>4、对技术文档的完整性、实时性、可读性负责。</p></td>\n</tr>\n<tr class="even">\n<td>测试工程师</td>\n<td><p>1、根据需求分析和系统总体设计,编写测试文档和测试用例。</p>\n<p>2、对系统的功能、性能、异常进行测试。</p>\n<p>3、编写测试报告。</p>\n<p>4、组织SIT、UAT等各类测试活动。</p></td>\n<td><p>1、对测试的质量负责。</p>\n<p>2、对测试报告负责。</p>\n<p>3、对各类测试活动的质量负责。</p></td>\n</tr>\n<tr class="odd">\n<td>运维工程师</td>\n<td><p>1、保障线上环境的正常运行,处理线上的各种问题;</p>\n<p>2、监控线上系统,分析和预防线上系统出现问题;</p>\n<p>3、构建自动化运维平台,提高运维效率;</p>\n<p>4、规范运维流程,定期提交汇总报告;</p>\n<p>5、\n周期做数据备份,测试数据备份的正确性和完整性,以增强服务器的安全性。</p></td>\n<td><p>1、对线上环境的稳定性负责。</p>\n<p>2、对服务器的安全性负责。</p>\n<p>3、对数据备份的正确性和完整性负责。</p></td>\n</tr>\n</tbody>\n</table>' metadata={'source': '.\\单文件\\test.md'}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/678541.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2、数据库操作语句:多表查询(表employ、department、location)

目录 1、多表查询连接条件 1&#xff09;在employ、department两张表中查询 2&#xff09;若查询语句中出现了多个表中都存在的字段&#xff0c;必须指明此字段所在的表。 3&#xff09;如果表名比较长&#xff0c;SQL语句中多次使用表名&#xff0c;可以给表起别名&#xf…

chatgpt赋能python:Python实现Fibonacci数列

Python实现Fibonacci数列 Fibonacci数列是一个非常经典的数列&#xff0c;定义如下&#xff1a; F ( 0 ) 0 , F ( 1 ) 1 F(0)0, F(1)1 F(0)0,F(1)1 F ( n ) F ( n − 1 ) F ( n − 2 ) F(n)F(n-1)F(n-2) F(n)F(n−1)F(n−2) 也就是说&#xff0c;第n个数等于前两个数之和…

开环模块化多电平换流器仿真(MMC)N=6

模型简介&#xff1a; 运行环境MATLAB2021a 开环模块化多电平换流器仿真&#xff08;MMC&#xff09;N&#xff1d;6&#xff0c;连接负载&#xff0c;采用载波移相调制。 可以得到换流器输出N&#xff0b;1&#xff1d;7电平的相电压波形。可考虑线路阻抗。 子模块采用半桥结…

chatgpt赋能python:用Python实现网络工具——Ping

用Python实现网络工具——Ping 网络是现代社会不可或缺的一部分&#xff0c;而网络工具也是每个程序员的必备技能之一。其中&#xff0c;Ping是最常用的网络工具之一&#xff0c;主要用于测试两台计算机之间的网络连接质量。今天&#xff0c;我们将着重讨论如何用Python实现Pi…

【初识C语言(5)】C语言关键字+define定义常量和宏

文章目录 1. 常见关键字2. 关键字 typedef3. 关键字 static3.1 修饰局部变量3.2 修饰全局变量3.3 修饰函数 4. define 定义常量和宏 1. 常见关键字 C语言提供了丰富的关键字&#xff0c;这些关键字都是语言本身预先设定好的&#xff0c;用户自己是不能创造关键字的。 这里先主要…

SD/StableDiffusion模型,ai绘画部署教程,谷歌云端零成本部署,支持中文

目录 前言 准备前提 说明 开始搭建 1、第一步&#xff0c;下载ipynb脚本文件 2、第二步&#xff0c;上传一键脚本文件到谷歌云盘 3、选择该.ipynb文件--右键--打开方式--关联更多应用 4、输入框搜索Colaboratory找到该应用&#xff0c;安装 5、安装过程中&#xff0c;…

chatgpt赋能python:Python的pow()函数-实现快速幂运算

Python的pow()函数 - 实现快速幂运算 Python是一门高级编程语言&#xff0c;具有简单易学、功能强大、代码可读性高等特点。在Python的内置函数中&#xff0c;有一个很有用的函数叫做pow()。pow()函数可以对数字进行快速幂运算&#xff0c;其实现方法很简单&#xff0c;但是在…

chatgpt赋能python:Python画轨迹图:认识、用法与优势

Python画轨迹图: 认识、用法与优势 Python的数据可视化能力十分强大。画图工具虽然千千万&#xff0c;但其中&#xff0c;轨迹图是同时准确又美观的图形表现。本文将向读者介绍Python画轨迹图的好处、如何使用以及如何在项目合适的地方使用轨迹图。 了解Python轨迹图 为了更…

chatgpt赋能python:Python绘制波浪线教程

Python绘制波浪线教程 Python是一种高级编程语言&#xff0c;它广泛应用于各种领域&#xff0c;如数据分析、Web开发、自动化操作以及人工智能等等。在这篇文章中&#xff0c;我们将介绍如何使用Python来绘制漂亮的波浪线。 简介 绘制波浪线是一种在艺术设计、信息图表、数据…

MySQL压测实战

写作目的 最近看到一句话是MySQL的TPS是4000&#xff0c;这句话是不严谨的&#xff0c;因为没有说服务器的配置。所以自己买了个服务器做了一个压测。希望自己对数据有一个概念。 注意&#xff1a;服务器不同结果不同&#xff0c;结果不具有普适性。 服务器配置 配置参数CPU…

MySQL数据库操作篇2(表的增删查改约束)

在数据类型那篇文章里&#xff0c;笔者曾经提到过约束条件&#xff0c;但也只是简单的提了提&#xff0c;并没有展开来说&#xff0c;约束条件是MySQL为确保数据正确性&#xff0c;安全性&#xff0c;以及倒逼程序员规范操作的一大利器&#xff0c;这篇文章笔者详细谈谈有哪些约…

0019-TIPS-2019-tokyowesterns-gnote : switch(jump) Doubule Fetch

漏洞源码 #include <linux/module.h> #include <linux/kernel.h> #include <linux/init.h> #include <linux/fs.h> #include <linux/proc_fs.h> #include <linux/string.h> #include <linux/slab.h> #include <asm/uaccess.h>…

chatgpt赋能python:Python绘制车辆轨迹图

Python绘制车辆轨迹图 在现代交通中&#xff0c;车辆轨迹图是一个广泛应用的技术&#xff0c;它可以被用于道路交通管理&#xff0c;行车安全评估等领域。Python是一种强大的编程语言&#xff0c;它提供了许多绘制数据可视化图表的库。本文将介绍如何使用Python和Matplotlib库…

10.事务消息

4.6 事务消息 4.6.1 流程分析 上图说明了事务消息的大致方案&#xff0c;其中分为两个流程&#xff1a;正常事务消息的发送及提交、事务消息的补偿流程。 1)事务消息发送及提交 (1) 发送消息(half消息)。 (2) 服务端响应消息写入结果。 (3) 根据发送结果执行本地事务(如果写入失…

Golang -> Go 语言快速开发入门

Go 语言快速开发入门 开发一个 hello.go 程序Golang 执行流程分析两种执行流程的方式区别:编译和运行说明 Go 程序开发的注意事项注释行注释多行注释 开发一个 hello.go 程序 package mainimport "fmt"func main() {fmt.Print("hello") }输出: hello对上图…

Cesium 入门

文章目录 一、了解 Cesium二、创建第一个 Cesium 地球三、案例1. Cesium 查看器、场景、实体、数据源介绍2. Cesium 的坐标与转换3. Cesium 相机系统方法一&#xff1a;setView方法二&#xff1a;flyTo方法三&#xff1a;lookAt方法四&#xff1a; viewBoundingSphere 四、案例…

【Leetcode60天带刷】day27回溯算法——39. 组合总和,40.组合总和II,131.分割回文串

​ 题目&#xff1a; 39. 组合总和 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target &#xff0c;找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 &#xff0c;并以列表形式返回。你可以按 任意顺序 返回这些组合。 candidates 中的 同一…

Redis 实战:逐步指南,让你轻松在 Linux 上安装与部署

目录 前言为什么会出现 Redis&#xff1f;磁盘、内存数据库缓存中间件 安装Redis5Redis6 使用总结 前言 Redis 中文网站&#xff1a;http://redis.cn/ Redis 是一个开源&#xff08;BSD 许可&#xff09;的&#xff0c;内存中的数据结构存储系统&#xff0c;它可以用作数据库…

【编译、链接、装载十二】动态链接2

【编译、链接、装载十二】动态链接2 四、延迟绑定&#xff08;PLT&#xff09;五、动态链接相关结构1 “.interp”段2 “.dynamic”段3 .动态符号表——dynsym、动态符号字符串表——.dynstr4、动态链接重定位表 六、动态链接的步骤和实现1、动态链接器自举2、装载共享对象3、重…

2.10 高性能异步IO机制:io_uring

一、io_uring的引入 为了方便说明io_uring的作用&#xff0c;先举一个通俗点的例子 1、通过异步提高读写的效率 假设有一批数量很大的货&#xff0c;需要分批次运到厂里处理。这个时候就有两种方式&#xff1a; 1&#xff09;同步方式&#xff1a;运送一批到厂里&#xff0c…