使用 Flask 快速构建 基于langchain 和 chatGPT的 PDF摘要总结

news2024/10/1 17:26:59

简介

这里不对 langchain 和 chatGPT 进行介绍,仅对实现过程进行整理

环境

Python >=3.8
Flask2.2.3
Jinja2
3.1.2
langchain0.0.143
openai
0.27.4

实现 总结功能

使用 langchain 和 openai 接口实现总结功能
实现逻辑:通过text_splitter 将pdf 分块,送入 langchain 的summarize_chain中进行处理

同样也可以使用 OpenAIEmbeddings 来实现,文档地址:langchain 官方文档

创建文件:summarize.py

from langchain import PromptTemplate
from langchain.callbacks import get_openai_callback
from langchain.chains.summarize import load_summarize_chain
from langchain.text_splitter import RecursiveCharacterTextSplitter

def summarize_docs(docs, doc_url, llm):
    print(f'You have {len(docs)} document(s) in your {doc_url} data')
    print(f'There are {len(docs[0].page_content)} characters in your document')

    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
    split_docs = text_splitter.split_documents(docs)
    print(f'You have {len(split_docs)} split document(s)')

    prompt_template = """Write a concise summary of the following:

    {text}

    CONCISE SUMMARY IN CHINESE:"""
    PROMPT = PromptTemplate(template=prompt_template, input_variables=["text"])
    chain = load_summarize_chain(llm, chain_type="map_reduce", verbose=False, return_intermediate_steps=True,
                                 map_prompt=PROMPT, combine_prompt=PROMPT)

    response = ""
    with get_openai_callback() as cb:
        response = chain({"input_documents": split_docs}, return_only_outputs=True)
        print(f"Total Tokens: {cb.total_tokens}")
        print(f"Prompt Tokens: {cb.prompt_tokens}")
        print(f"Completion Tokens: {cb.completion_tokens}")
        print(f"Successful Requests: {cb.successful_requests}")
        print(f"Total Cost (USD): ${cb.total_cost}")
    return response

创建接口

使用 Flask 框架创建简单的接口
创建文件server.py

import os

from flask import Flask, request, make_response, render_template
from langchain import OpenAI
from langchain.document_loaders import PyPDFLoader

from summarize import summarize_docs

app = Flask(__name__)

@app.route('/summarize', methods=['POST'])
def summarize():
    index_path = "./upload"
    if 'file' not in request.files:
        return "Please send a POST request with a file", 400
    uploaded_file = request.files["file"]
    filename = uploaded_file.filename
    filepath = os.path.join(index_path, os.path.basename(filename))

    uploaded_file.save(filepath)
    llm = OpenAI(temperature=0, openai_api_key=OPENAI_API_KEY, model_name="text-davinci-003",
                 openai_api_base=OPENAI_API_BASE)
    loader = PyPDFLoader(filepath)
    pages = loader.load_and_split()
    result = summarize_docs(pages, filepath, llm)
    return make_response(str(result.get("output_text"))), 200

if __name__ == '__main__':
    if not os.path.exists('./upload'):
        os.makedirs('./upload')
        
    os.environ["OPENAI_API_KEY"] = "sk-XXXXXXXXXXXXXXXXXXXXXXXXX"
    OPENAI_API_KEY = os.environ['OPENAI_API_KEY']
    OPENAI_API_BASE = 'https://XXXX/v1'
    app.run(port=19100, host='127.0.0.1')

创建页面

server.py 中添加路由地址

@app.route('/')
def index():
    msg = "welcome to pdf summarize."
    return render_template("web.html", data=msg)

创建目录 templates, 并创建 html 文件 web.html:

<!DOCTYPE html>
<html>
  <head>
    <meta charset="UTF-8">
    <title>文件上传</title>
    <style>
      body {
        font-family: Arial, sans-serif;
        margin: 0;
        padding: 0;
        background-color: #f5f5f5;
      }
      .container {
        max-width: 600px;
        margin: 0 auto;
        padding: 20px;
        background-color: #fff;
        border-radius: 10px;
        box-shadow: 0 0 10px rgba(0, 0, 0, .2);
      }
      h1 {
        margin-top: 0;
        font-size: 32px;
        color: #333;
        text-align: center;
      }
      form {
        display: flex;
        flex-direction: column;
        align-items: center;
      }
      input[type="file"] {
        margin-bottom: 20px;
        font-size: 16px;
        color: #333;
        padding: 10px;
        border: 1px solid #ccc;
        border-radius: 5px;
        background-color: #fff;
        box-shadow: 0 0 5px rgba(0, 0, 0, .1);
      }
      button {
        padding: 10px;
        background-color: #4CAF50;
        color: #fff;
        border: none;
        border-radius: 5px;
        cursor: pointer;
        transition: background-color .2s;
      }
      button:hover {
        background-color: #3e8e41;
      }
      .result {
        margin-top: 20px;
        padding: 20px;
        background-color: #f1f1f1;
        border-radius: 5px;
        white-space: pre-wrap;
      }
      .progress {
        margin-top: 20px;
        width: 100%;
        height: 20px;
        background-color: #f1f1f1;
        border-radius: 5px;
        overflow: hidden;
        box-shadow: 0 0 5px rgba(0, 0, 0, .1);
      }
      .bar {
        width: 0;
        height: 100%;
        background-color: #4CAF50;
        transition: width .2s;
      }
    </style>
  </head>
  <body>
    <div class="container">
      <h1>文件上传</h1>
      <form id="upload-form" method="POST" action="http://127.0.0.1:5000/summarize" enctype="multipart/form-data">
        <input type="file" name="file">
        <button type="submit">生成摘要</button>
      </form>
      <div class="progress">
        <div class="bar"></div>
      </div>
      <h2>返回结果</h2>
      <div>目前响应时间较长,700k 文件响应时间为22秒,请耐心等待</div>
      <div class="result">
        <div id="result-text"></div>
      </div>
      <div>页面生成 power by openai chatGPT-3.5</div>
    </div>
    <script>
      const form = document.querySelector('#upload-form');
      const progressBar = document.querySelector('.bar');
      form.addEventListener('submit', async (event) => {
        event.preventDefault();
        const formData = new FormData(form);
        const xhr = new XMLHttpRequest();
        xhr.upload.addEventListener('progress', (event) => {
          const percent = (event.loaded / event.total) * 100;
          progressBar.style.width = percent + '%';
        });
        xhr.onreadystatechange = () => {
          if (xhr.readyState === XMLHttpRequest.DONE && xhr.status === 200) {
            progressBar.style.width = '0';
            document.querySelector('#result-text').textContent = xhr.responseText;
          }
        };
        xhr.open(form.method, form.action);
        xhr.send(formData);
      });
    </script>
  </body>
</html>

运行展示

完成后整体项目结构如下:
在这里插入图片描述
运行效果如下:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/437567.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode 501: 二叉搜索树中的众数 | C++语言版

LeetCode 501. 二叉搜索树中的众数 | C语言版 LeetCode 501. 二叉搜索树中的众数题目描述解题思路思路一&#xff1a;使用迭代代码实现运行结果参考文章&#xff1a; 思路二&#xff1a;减少遍历节点数代码实现运行结果参考文章&#xff1a; LeetCode 501. 二叉搜索树中的众数 …

Edius抠像过程(实践笔记)

最近的工作有点烦&#xff0c;一个月左右的时间全是在帮别人做视频的过程&#xff08;在我所在的行业里&#xff0c;就是打杂&#xff09; 因为自己不专业&#xff0c;所有的操作都是现学现用&#xff0c;前几个视频还好说&#xff0c;随便剪剪&#xff0c;就是看他们本人录的…

水务行业怎么运用智能配电

摘要&#xff1a;在构建智慧水务和“双碳”时代背景下&#xff0c;智能配电系统在水务行业中发挥日益突出的重要作用。本文首先回顾了智能配电系统在水务行业的发展历程&#xff0c;并对其应用现状进行了分析&#xff0c;进而展望了智能配电系统在水务行业的发展趋势。 关键词&…

走进小程序【五】微信小程序架构之【逻辑层】详解

文章目录 &#x1f31f;前言&#x1f31f;小程序架构&#x1f31f;逻辑层 App Service&#x1f31f;注册小程序&#x1f31f;注册页面&#x1f31f;使用 Page 构造器注册页面&#x1f31f;在页面中使用 behaviors&#x1f31f;使用 Component 构造器构造页面 &#x1f31f;页面…

信创实力认证,创邻科技荣获“2023爱分析·信创产品及服务创新奖”

近日&#xff0c;数字化市场研究咨询机构爱分析正式发布“2023爱分析信创产品及服务创新奖”评选结果。经过申报、初评、调研、终评多轮角逐&#xff0c;创邻科技凭借自研产品Galaxybase国产原生高性能图平台以及国产化替代方案成功获评“2023爱分析信创产品及服务创新奖”。 据…

KDZD606绝缘服试验装置

一、产品概述 KDZD606绝缘服试验装置是按照国家电力公司关于颁发DL/T 976-2017《带电作业用工具、装置和设备预防性试验规程》的要求的基础上研制而成&#xff0c;本产品各项指标均符合国标的要求。可以按DL/T 976-2017《带电作业用工具、装置和设备预防性试验规程》要求对绝缘…

Nginx的漏洞浮现

本文参考https://vulhub.org/#/environments/nginx/nginx_parsing_vulnerability/ 环境搭建均是采用docker 拉取环境请移步到参考。 一、Nginx的配置错误案列 1. CRLF注入漏洞 配置错误文件error1.conf rootubuntu-virtual-machine:/vulhub/vulhub-master/nginx/insecure-confi…

「解析」Pytorch 自动计算 batchsize

日志是一个十分必要的操作&#xff0c;有助于后期分析实验结果&#xff0c;特别是在多台不同环境下训练&#xff0c;为了区分&#xff0c;还是十分有必要记录相关平台信息的&#xff0c;比如 hostname&#xff0c;Python版本信息&#xff0c;Pytorch版本信息等&#xff01; im…

SpringSecurity定义多个过滤器链

在Spring Security中可以定义多个过滤器链&#xff0c;一个WebSerityConfigurerAdapter的实例就可以配置一个过滤器链&#xff0c;我们只需要配置多个WebSerityConfigurerAdapter的实例即可 可以看到&#xff0c;当请求到达 FilterChainProxy 之后&#xff0c;FilterChainProx…

什么是 CDN

CDN 是一种用来分发内容的网络拓扑结构&#xff0c;在彻底搞明白它之前&#xff0c;我们需要先来理解另外两个名词。 1、节点 用户使用CDN网络前&#xff0c;CDN提供商会在全国/全球部署多个节点。这里的节点可以看做机房&#xff0c;或者服务器集群&#xff0c;专业的称呼是…

瑞吉外卖项目——前后端分离

前后端分离开发 介绍 前后端分离开发&#xff0c;就是在项目开发过程中&#xff0c;对于前端代码的开发由专门的前端开发人员负责&#xff0c;后端代码则由后端开发人员负责&#xff0c;这样可以做到分工明确、各司其职&#xff0c;提高开发效率&#xff0c;前后端代码并行开…

Compose 学习总结

ompose发布正式版已经有一段时间了。趁最近比较闲&#xff0c;抓紧学习一波。 学习过程中&#xff0c;主要以实战项目中常用技术为目标。下面是项目地址&#xff0c;会长期更新&#xff0c;希望能给正在学习Compose的小伙伴一点参考。同时您有什么好的建议&#xff0c;也可以提…

嗖的一下!3分钟用ChatGPT生成海南旅游思维导图!

大家好&#xff0c;我是菜鸟哥&#xff01; 五一长假即将来临&#xff0c;很多小伙伴都要准备出去玩了&#xff01;旅游肯定要做攻略啊&#xff0c;比如热门的景点海南三亚&#xff0c;北京&#xff0c;上海&#xff0c;成都这些都是打卡的网红景点&#xff01;小编比较喜欢去海…

IIC协议相关

一.IIC协议初识 IIC(集成电路总线)&#xff0c;半双工同步通信方式 *特点 1.简单性和有效性 由于接口直接在组件之上&#xff0c;因此IIC总线占用的空间特别小&#xff0c;减少了电路板的空间和芯片管脚的数量&#xff0c;降低了互联成本&#xff0c;总线的长度可高达25英尺…

Figma转Sketch的3种免费又快捷的方法!

Figma和Sketch是UI设计师常用的两款软件。Figma属于在线协作设计工具&#xff0c;而Sketch是一款本地应用程序。它们都有许多优点&#xff0c;深受许多设计师的喜爱。然而&#xff0c;在实际工作中&#xff0c;有时需要将这两种文件进行转换&#xff0c;例如将需要在Sketch中使…

AI绘画——Night Sky YOZORA Model 模型 ——“实现终极图像质量和大图像尺寸(>1536 x 1024)”

目录 Night Sky YOZORA Model 模型 ——“实现终极图像质量和大图像尺寸&#xff08;>1536 x 1024&#xff09;”由YozoRaAru培训 如果你需要更好的色彩表现&#xff0c;我推荐你试一下Color Box 省流版介绍&#xff1a;一个字“炫”&#xff0c;tag也是越炫越好 以下是…

javaweb830在线答疑系统dzkfA1A5程序

2&#xff0e;系统用户管理&#xff1a;不管是超级管理员还是普通管理员都需要管理系统用户&#xff0c;包括普通管理员的添加、删除、修改、查询&#xff0c;修改管理员的登录密码&#xff0c;新添加的管理员用户可以登录系统。 3&#xff0e;注册用户管理&#xff1a;游客在前…

多因子优化,多任务优化,多模式优化之间的区别

最近几年在进化计算这个圈子里多任务优化Multitasking很火&#xff0c;其中包含多因子Multifactorial Evolutionary, 多任务 Multitasking Evolutionary, 和多模式进化 Multiform Evolutionary。 今天就来讲讲他们之间的区别。 多因子优化 在“Enhancing Evolutionary Multi…

CCF-CSP真题《202303-1 田地丈量》思路+python,c++满分题解

想查看其他题的真题及题解的同学可以前往查看&#xff1a;CCF-CSP真题附题解大全 试题编号&#xff1a;202303-1试题名称&#xff1a;田地丈量时间限制&#xff1a;1.0s内存限制&#xff1a;512.0MB问题描述&#xff1a; 问题描述 西西艾弗岛上散落着 n 块田地。每块田地可视为…

HTTP与HTTPS详解

一、HTTP的概念 HTTP是超文本传输协议&#xff0c;是一种应用层协议&#xff0c;是基于为浏览器/服务器间提供统一的信息交换格式而出现的&#xff0c;其发展历程为HTTP/1.0、HTTP/1.1、HTTP/2、HTTP/3。 在HTTP/3之前&#xff0c;HTTP都是基于TCP传输的。 二、HTTP报文格式 …