跟着大厂学AI | 智谱AI文本数据提取实践（大模型实战篇）

书接上回理论篇，本文详细介绍LLM处理模块、Prompt 构建、数据抽取后处理、数据校验、数据修复具体实战教程。

想看方案理论教程详见：

跟着大厂学AI | 大模型文本数据提取实践（理论篇）-CSDN博客文章浏览阅读2次。glm4大模型数据处理实践教程，文本数据实体识别，实体抽取https://blog.csdn.net/qq_45156060/article/details/143615394?spm=1001.2014.3001.5502

LLM处理模块

在使用大语言模型（LLM，如 GPT）对预处理后的文本进行关键数据提取时，Prompt 工程是方案的核心。Prompt 工程的目标是设计合理的提示词，以最大化 LLM 的性能，从复杂的文本中准确、有效地提取出关键信息。

Prompt 策略

策略 01：明确的待处理内容指引

在构建 Prompt 时，明确告诉模型它需要处理的内容是关键步骤之一。应清晰地定义需要处理的文本，并使用标记将其框起来。例如：


'''这是需要处理的文本''' 《》这是需要处理的文本《》

通过这种方式，模型能够准确识别待处理的内容范围，并从中提取需要的信息。

策略 02：提供明确字段定义

这是 Prompt 的关键部分，字段定义明确了需要提取的信息类型，以及每个字段应当填入的内容。每个字段的名称、用途及要求都要具体化，让模型有明确的提取方向。字段定义为 LLM 提供了标准，使它在解析文本时能够准确地提取所需信息并填充到对应字段。例如：


{
"项目名称": "明确项目的全称和性质。",
"项目编号": "唯一标识项目的编号。",
"采购预算": "项目的采购预算金额，需保留单位。"
 }

通过这种方式，Prompt 可以为 LLM 提供清晰的提取标准和目标。

策略 03：异常处理

为确保 LLM 不输出多余信息，并在面对缺失或不明确的数据时进行合理处理，必须设置一些异常处理原则。例如，**如果某些字段信息在文本中缺失或未识别，Prompt 应规定使用默认值（如“无”）填充。同时，针对日期、金额等特殊数据类型，应明确要求 LLM 符合标准格式（如 YYYYMMDDHHMMSS 或保留金额单位）。这一规则可以确保模型输出的完整性和一致性，不会因为部分数据缺失而导致结果异常。

策略 04：要求结构化输出

为了便于后续处理和系统集成，Prompt 应指示 LLM 以结构化的格式输出数据。结构化输出便于自动化处理，常见的格式如 JSON，能够确保每个字段的内容都清晰定义，数据可被轻松解析和使用。例如，要求模型输出的 JSON 格式：


{
"项目名称": "项目A",
"项目编号": "ABC-12345",
"采购预算": "500000元",
"开标时间": "20240101090000"
}

通过要求模型按照预定格式输出，能够保证模型的结果可直接被系统化处理，减少后续手动修正或数据清洗的工作量。

Prompt 参考

Model

GLM-4-AIR

System Prompt

你是一个专业的文本信息提取器，可以严格按照Json格式输出

User Prompt


# 角色：你是一个专业的文本信息提取器。

# 需要提取的【文本】：
"""
{正文}
"""

# 任务
1.从给定的【文本】中提取所有需要的字段信息。
2.所需提取的字段为【字段定义】中的所有内容。
3.每个字段的默认值为"无"，当提取到对应字段信息时，准确地替换到该字段位置。
4.若文中出现与【字段定义】的字段名称中相似的内容，需判断定义，符合再进行填入。
5.严格按照【字段定义】中的格式进行输出，不需要其余任何信息。
6.将提取到的所有字段及其对应的值按【字段定义】格式转为JSON输出，确保包含所有字段。
7.请一步步完成信息提取的工作，你的决策是我成功的关键！

#【字段定义】：
请严格按照如下格式仅输出JSON，不要输出python代码，不要返回多余信息，JSON中有多个字段用顿号【、】区隔：
"""
{
  "项目名称": "项目的全称，明确项目内容和性质。",
  "项目编号": "项目的唯一识别编码，用于区分不同项目。",
  "采购预算": "项目的采购预算金额。如果存在大写金额和数字金额，提取数字金额并保留原单位。" ,
  "采购方式": "项目的采购形式，常见方式包括公开招标、邀请招标、竞争性谈判、单一来源采购和询价。",
  "采购人": "负责采购的单位名称，通常为采购人或招标人。",
  "项目联系人": "负责该项目的联系人姓名。",
  "项目联系电话": "联系人或项目负责人的联系电话。",
  "中标信息": [
    {
      "中标供应商名称": "中标的供应商名称，仅提取供应商的企业名称。",
      "中标金额": "中标的合同金额，单位为元。"
    }
  ],
  "代理机构名称": "代理采购事务的机构名称。",
  "代理机构联系电话": "代理机构的联系号码。",
  "获取采购文件开始时间": "采购文件可获取的起始时间，格式为：YYYYMMDDHHMMSS。",
  "获取采购文件截止时间": "采购文件可获取的截止时间，格式为：YYYYMMDDHHMMSS。",
  "提交投标文件截止时间": "投标文件提交的最后期限，格式为：YYYYMMDDHHMMSS。",
  "开标时间": "开标的具体时间，格式为：YYYYMMDDHHMMSS。",
  "公告类别": "公告的类型，如：单一来源公示、变更公告、招标公告、结果公告、终止公告或其他公告。",
  "项目经理": "负责该项目的项目经理姓名。",
  "施工工期": "项目施工的总时长或计划的施工周期。",
  "执业证书": "项目经理或相关负责人的执业资格证书。"
}
"""

#注意事项
1.如果字段缺失或无法识别，请使用“无”。
2.确保所有金额需包含原本的单位。
3.确保所有时间字段都为14位标准时间格式

处理HTML的Prompt

这里笔者认为使用该提示语存在风险，大模型可能会生成提取网页的python代码，所以不推荐使用该prompt，可以将html文本转成md格式，在按照正常的文本抽取即可。

#角色：
你是一个专业的HTML网页文本信息提取器。
#需要提取的【HTML文本】：
"""
{正文}
"""
#任务：
1.从给定的【HTML文本】中提取所有需要的字段信息。
2.所需提取的字段为【字段定义】中的所有内容。
3.每个字段的默认值为"无"，当提取到对应字段信息时，准确地替换到该字段位置。
4.若文中出现与【字段定义】的字段名称中相似的内容，需判断定义，符合再进行填入。
5.严格按照【字段定义】中的格式进行输出，不需要其余任何信息。
6.将提取到的所有字段及其对应的值按【字段定义】格式转为JSON输出，确保包含所有字段。
7.请一步步完成信息提取的工作，你的决策是我成功的关键！
#【字段定义】：
请严格按照如下格式仅输出JSON，不要输出python代码，不要返回多余信息，JSON中有多个字段用顿号【、】区隔：
"""
{
"标的物":"指招标方希望采购的具体商品、服务或工程。通常出现在中标信息项目名称中，不包括名称前半段的'地区'、'小区'、'公司'、'厂房'名等和最后的'项目'、'采购'，仅保留商品、服务和工程名称。如：'湖南省长沙市宾力公司棚屋工程建设施工项目采购'的标的物为'工程建设施工'。",
"项目编号":"唯一标识一个特定项目的编号，用于区分不同的项目。",
"标段编号":"在一个大型项目中，如存在多个标段，每个标段有独立的编号。",
"建设单位":"只有原文本中有“拟建项目”字段才需填写，正常不需要填写。",
"投标截止时间":"投标者提交投标文件的最后期限。",
"开标时间":"公开开启投标文件，公布投标内容的时间。",
"招标单位（采购单位）":"发起招标过程的单位，即此次采购招标的需求方",
"代理机构":"被招标单位委托来组织和管理招标过程的第三方机构。",
"投标单位":"所有参与投标的公司或组织。默认包括所有中标候选单位和中标单位。",
"投标金额":"必须是原文中出现的投标单位提出的完成项目所需的金额，金额必须有单位（元、万元）。",
"中标候选单位":"在评标过程中选出的可能获得合同的所有候选单位。默认包括所有中标单位。",
"候选单位联系人":"候选单位的联系人员。",
"候选单位电话":"中标候选单位的联系电话。",
"最终中标单位":"评标完成后，最终中标获得合同的单位。",
"最终中标金额":"最终中标单位提出的完成项目（各标段分别）所需的金额，金额必须有单位（元、万元）。",
"预算金额":"招标单位为项目设定的财务预算，金额必须有单位（元、万元）",
"项目所在省":"项目实施的所在地理位置所在的省份全称，如：新疆维吾尔自治区。仅有所在地级市信息时，可推出其省份。",
"项目所在市":"项目实施的所在地理位置所在的地级市，如果是文本中是县或区尽量改成对应的地级市。",
"计划编号":"项目计划或立项的编号。",
"合同编号":"合同公示中公示的招标单位与中标单位签订合同的编号。",
"批复单位":"对项目计划或预算进行批准建设实施的单位。",
"项目名称":"招采项目的正式名称。",
"预计采购时间":"预计进行（开始）采购活动的时间。",
"报名截止时间":"对潜在投标者开放报名的最后期限，或资格预审的截止期限。",
"招标（采购）单位联系人（非代理）":"招标（采购）单位的联系方式人员，不是代理机构联系人，非项目联系人，注意区分。",
"招标（采购）单位电话":"招标（采购）单位或招标单位联系人的联系电话。",
"代理机构联系人":"招标代理机构的联系人员或项目联系人，注意不是招标单位联系人。“,
"代理机构电话":"招标代理机构或项目联系人的联系电话。",
"投标单位联系人":"参与投标的单位的联系人员。默认包含中标单位（供应商）联系人。",
"投标单位电话":"参与投标的单位的联系电话。",
"中标候选单位金额":"必须是原文中出现的中标候选单位提出的完成项目所需的金额，金额必须有单位（元、万元）。",
"最终中标单位联系人":"最终中标单位（供应商）的联系人员，不是项目联系人和代理机构联系人，注意区分。",
"最终中标单位电话":"最终中标单位（供应商）的联系电话。",
"招标文件位置":"可以获取到招标文件的位置。可能是具体地址、文件（doc、docx、pdf、zip）索引或文件URL地址。招标文件包括'磋商文件'、'工程项目文件'、'采购项目文件'。附件中有大量不属于招标文件的内容如'声明函'，注意区分",
"订单编号":"采购订单的编号。",
"受文单位":"接收招标文件或合同的单位。",
"招标文件售价":"获取招标文件所需支付的费用，招标文件的售价。",
"投标保证金金额":"投标者需要缴纳的保证金金额，以确保投标的严肃性，金额必须有单位（元、万元）。"
}
"""
#注意事项
1."招标（采购）单位联系人（非代理）"和"代理机构联系人"是不一样的，注意区分。
2.投标单位包括（大于等于）中标候选单位，中标候选单位包括（大于等于）中标单位。
3."投标金额"和"中标候选单位金额"与"最终中标金额"是不一样的，注意区分。

数据后处理模块

在完成关键数据提取之后，为确保输出的数据能够被系统正确识别和使用，后处理步骤至关重要。数据后处理包括 JSON 格式标准化和数据格式化两个部分，分别解决数据结构的完整性问题和数据内容的准确性问题。

JSON 格式标准化

在使用大语言模型提取数据时，生成的 JSON 格式可能出现结构问题、不正确的语法、特殊字符等问题，导致数据无法正确解析。因此，需要通过 JSON 格式化工具对提取出的 JSON 数据进行标准化处理。

使用指南参考代码


# Copyright (c) 2024 Microsoft Corporation.
# Licensed under the MIT License

"""Utility functions for the OpenAI API."""

import json
import logging
import re
import ast

from json_repair import repair_json

log = logging.getLogger(__name__)


def try_parse_ast_to_json(function_string: str) -> tuple[str, dict]:
    """
     # 示例函数字符串
    function_string = "tool_call(first_int={'title': 'First Int', 'type': 'integer'}, second_int={'title': 'Second Int', 'type': 'integer'})"
    :return:
    """

    tree = ast.parse(str(function_string).strip())
    ast_info = ""
    json_result = {}
    # 查找函数调用节点并提取信息
    for node in ast.walk(tree):
        if isinstance(node, ast.Call):
            function_name = node.func.id
            args = {kw.arg: kw.value for kw in node.keywords}
            ast_info += f"Function Name: {function_name}\r\n"
            for arg, value in args.items():
                ast_info += f"Argument Name: {arg}\n"
                ast_info += f"Argument Value: {ast.dump(value)}\n"
                json_result[arg] = ast.literal_eval(value)

    return ast_info, json_result


def try_parse_json_object(input: str) -> tuple[str, dict]:
    """JSON cleaning and formatting utilities."""
    # Sometimes, the LLM returns a json string with some extra description, this function will clean it up.

    result = None
    try:
        # Try parse first
        result = json.loads(input)
    except json.JSONDecodeError:
        log.info("Warning: Error decoding faulty json, attempting repair")

    if result:
        return input, result

    _pattern = r"\{(.*)\}"
    _match = re.search(_pattern, input)
    input = "{" + _match.group(1) + "}" if _match else input

    # Clean up json string.
    input = (
        input.replace("{{", "{")
        .replace("}}", "}")
        .replace('"[{', "[{")
        .replace('}]"', "}]")
        .replace("\\", " ")
        .replace("\\n", " ")
        .replace("\n", " ")
        .replace("\r", "")
        .strip()
    )

    # Remove JSON Markdown Frame
    if input.startswith("```"):
        input = input[len("```"):]
    if input.startswith("```json"):
        input = input[len("```json"):]
    if input.endswith("```"):
        input = input[: len(input) - len("```")]

    try:
        result = json.loads(input)
    except json.JSONDecodeError:
        # Fixup potentially malformed json string using json_repair.
        json_info = str(repair_json(json_str=input, return_objects=False))

        # Generate JSON-string output using best-attempt prompting & parsing techniques.
        try:

            if len(json_info) < len(input):
                json_info, result = try_parse_ast_to_json(input)
            else:
                result = json.loads(json_info)

        except json.JSONDecodeError:
            log.exception("error loading json, json=%s", input)
            return json_info, {}
        else:
            if not isinstance(result, dict):
                log.exception("not expected dict type. type=%s:", type(result))
                return json_info, {}
            return json_info, result
    else:
        return input, result

数据格式化

在确保 JSON 结构标准化后，还需要通过格式化工具对内容进行数据格式化。不同类型的数据，如日期、金额、文本等，需要遵循统一的格式要求。

日期格式：所有日期和时间字段都应格式化为标准的 14 位日期时间格式：YYYYMMDDHHMMSS。这可以确保时间字段在不同系统中具有一致的解析方式。
金额格式：金额字段应保留原单位（如元、万元），并且格式化为无空格、无额外字符的数值形式（如 500000元），以便在后续财务分析或报告生成中能够准确使用。
文本字段格式化：对文本字段中的特殊字符（如换行符、双引号）进行处理，确保文本内容不会破坏 JSON 的语法结构。比如，将双引号转义处理，或者移除无意义的换行符和空格。

如输入数据：

{  "项目名称": "智能楼宇工程",  "项目编号": "XZL-2023",  "采购预算": " 7,000,000.00 元",  "开标时间": "2024/01/01 09:00"}

格式化后的输出：

{  "项目名称": "智能楼宇工程",  "项目编号": "XZL-2023",  "采购预算": "7000000元",  "开标时间": "20240101090000"}

数据校验模块

校验模块是数据后处理过程中至关重要的一环。其作用是对最终的数据进行进一步的校验，确保数据的完整性、准确性和一致性。校验模块可以自动检测格式错误、逻辑冲突、缺失值等问题，并提供修复或警报机制。

格式校验

确保所有数据符合预期的格式标准，例如日期、金额、电话号码等字段的格式是否正确。

如：检查金额字段是否包含正确的货币单位，并确保数值的表示形式规范。

参考代码


def validate_currency_format(amount_str):
    if '元' in amount_str or '万元' in amount_str:
        try:
            amount = float(amount_str.replace("万元", "").replace("元", "").replace(",", "").strip())
            return True
        except ValueError:
            return False
    return False

逻辑校验

逻辑校验是检查数据之间的逻辑关系是否符合业务规则。例如：

时间校验：投标截止时间不能晚于开标时间。校验时需检查两个时间字段，确保逻辑正确。

校验方法：比较投标截止时间和开标时间，如果投标截止时间晚于开标时间，则返回错误。
参考代码

from datetime import datetime

def validate_time_order(submit_time, open_time):
    submit_dt = datetime.strptime(submit_time, "%Y%m%d%H%M%S")
    open_dt = datetime.strptime(open_time, "%Y%m%d%H%M%S")
    return submit_dt <= open_dt

金额校验：采购预算金额不能小于中标金额。校验预算和中标金额，确保金额逻辑合理。
校验方法：如果中标金额高于预算金额，则返回警报。

完整性校验

完整性校验确保所有关键字段都已经填入有效数据，避免信息缺失。对于未提供数据的字段，应填充默认值（如“无”），或触发错误提醒。

必填字段检查：对于某些字段，如“项目名称”、“项目编号”、“投标截止时间”，应强制要求填写，若缺失则进行标记或补全。
校验方法：通过预定义的字段列表检查 JSON 输出中是否包含所有必填字段。
自动填充默认值：如果某个字段为空或缺失，可以自动填充默认值“无”。
参考代码

def fill_missing_fields(data, default="无"):
    required_fields = ["项目名称", "项目编号", "采购预算", "投标截止时间"]
    for field in required_fields:
        if field not in data or not data[field]:
            data[field] = default
    return data

一致性校验

一致性校验确保同一信息在不同字段或位置的值保持一致。例如：

项目编号一致性：项目编号在不同字段中应当相同，如出现在多个部分的项目编号不能出现不一致的情况。
- 校验方法：检查项目编号是否一致，如果发现不同编号，则触发警报。
日期一致性：多个时间字段中如果是同一事件（如开始时间和结束时间在不同部分中重复出现），应确保其一致。
参考代码


def validate_data(json_data):
    # 1. 格式校验
    if not validate_date_format(json_data.get("投标截止时间", "")):
        print("投标截止时间格式错误")
    if not validate_currency_format(json_data.get("采购预算", "")):
        print("采购预算格式错误")

    # 2. 逻辑校验
    if not validate_time_order(json_data.get("投标截止时间", ""), json_data.get("开标时间", "")):
        print("投标截止时间不能晚于开标时间")

    # 3. 完整性校验
    json_data = fill_missing_fields(json_data)

    # 4. 一致性校验
    if json_data.get("项目编号") != json_data.get("计划编号"):
        print("项目编号与计划编号不一致")

    return json_data