【NLP】使用 SpaCy、ollama 创建用于命名实体识别的合成数据集

news2024/11/8 9:23:09

命名实体识别 (NER) 是自然语言处理 (NLP) 中的一项重要任务,用于自动识别和分类文本中的实体,例如人物、位置、组织等。尽管它很重要,但手动注释大型数据集以进行 NER 既耗时又费钱。受本文 ( https://huggingface.co/blog/synthetic-data-save-costs#31-prompt-an-llm-to-annotate-your-data ) 的启发,我们讨论了一种创新方法,使用 qwen2.5:7b 生成的合成数据来有效应对这些挑战。通过使用合成数据,我们可以有效地训练 NER 模型,以从大量文本语料库(例如金融新闻文章)中提取有意义的信息。

在本教程中,我们将演示如何使用 SpaCy 构建 NER 管道,SpaCy 是一个流行的开源 NLP 库,以其速度和效率而闻名。SpaCy 广泛用于标记化、词性标记和命名实体识别等任务,尤其擅长在 CPU 上快速处理文本。其强大的架构使其无需专门的硬件即可处理大量数据,使其成为许多实际应用的理想选择。

我们将使用 SmoothNLP金融新闻数据集 进行案例研究,展示合成数据如何显著提高 NER 模型的性能并降低与传统数据注释方法相关的成本。通过将合成数据与 SpaCy 集成,我们旨在创建可扩展且准确的 NER 解决方案来处理大规模新闻数据集。

我们的方法

为了克服传统方法的局限性,我们利用合成数据生成在新闻文章中进行 NER。以下是我们流程的分步概述:

步骤 1:数据收集

数据下载地址

步骤 2:使用ollama加载 qwen2.5-7b

1、下载ollama

ollama下载地址(以windows版为例)

2、下载qwen2.5-7b模型

ollama pull qwen2.5

如下图所示为下载完成

我们使用langchain_ollama来启用语言模型 qwen2.5-7b 来注释收集的数据。以下是如何加载模型:

from langchain_ollama import OllamaLLM

model = OllamaLLM(model="qwen2.5:7b")
model.invoke("你是谁")

这里发生了什么事?

  • qwen2.5-7b模型:我们加载一个大型预先训练的 Qwen模型

步骤 3:准备数据集

1.设置模型后,我们加载样本数据并准备数据集以供处理:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
import pandas as pd
from tqdm import tqdm
from pydantic import BaseModel, Field, ValidationError
from typing import List
from datasets import Dataset
import spacy
from spacy.tokens import DocBin, Span
import re
import json

nlp = spacy.load('zh_core_web_sm')



financial_news_sample = pd.read_excel("./SmoothNLP金融新闻数据集样本20k.xlsx")
financial_news_sample.head()

数据如图所示 

 2.合并标题和内容

financial_news_sample['text'] = financial_news_sample['title'].str.cat(financial_news_sample['content'], sep='\n')
financial_news_sample.head()

news_texts = [text for text in list(financial_news_sample["text"]) if type(text)==str][-100:]
dataset = Dataset.from_dict({"text": news_texts})

步骤 4:使用 SpaCy 对文本进行标记

我们使用 SpaCy 对文本数据进行标记。标记化是将文本拆分为单个单词或子单词的过程。

def tokenize_with_spacy(texts):
    tokenized_texts = []
    token_offsets_list = []

    for text in texts:
        if isinstance(text, str):
            doc = nlp(text)
            tokens = [token.text for token in doc]
            token_offsets = [(token.idx, token.idx + len(token.text)) for token in doc]
            tokenized_texts.append(tokens)
            token_offsets_list.append(token_offsets)
        else:
            raise ValueError(f"Expected a string but got {type(text)}")

    return tokenized_texts, token_offsets_list

第 5 步:准备 Qwen 的输入

def prepare_qwen_input(tokenized_texts):
    return [" ".join(tokens) for tokens in tokenized_texts]

步骤 6:查询我们的 Qwen 的提示

接下来,我们创建一个查询 LLM 的系统提示。由于我们想从新闻文章中提取结构化信息,因此我们要求 LLM 以 JSON 格式响应。我们还包含示例输入和输出,以指导模型正确构建其响应。

system_prompt="""
你是一个在自然语言处理和信息提取方面受过训练的高级人工智能。你的任务是阅读以下新闻文章,并提取文中提到的所有人名。对于识别的每个人名,提供具有以下结构的JSON输出:

[
{"entity_type":"人名","entity_value":"内容中的人名"}
]
确保提取人名的确切字符串,而不进行任何更正或转换。不要提供任何解释。仅使用JSON结构化数据进行响应。


###示例1:
输入:
李明远当选陕西省西安市市长
新华社西安2月19日电 西安市第十六届人民代表大会第四次会议2月18日选举李明远为西安市人民政府市长。

输出:
[
{"entity_type":"人名","entity_value":"李明远"},
]


###示例2:
输入:
原央行征信中心主任王煜调任中国金融培训中心主任
中国金融培训中心官网显示,原中国人民银行征信中心主任王煜已出任该中心主任。
王煜毕业于五道口央行研究生部,在央行体系工作多年,先后出任过央行货币政策司副司长、央行货币政策委员会秘书长,随后王煜进入征信领域,先后出任央行征信管理局局长、中国人民银行征信中心主任。(澎湃)

输出:
[
{"entity_type":"人名","entity_value":"王煜"}
]


###示例3:
输入:
人民大学教授叶林:完善法制体系  提高我国期货市场核心竞争力
    本报见习记者 王宁
    中国期货市场经过二十多年的探索发展,已经成为金融体系的重要组成部分,为宏观决策部门预研预判经济形势、微观企业进行风险管理提供了有力支持。随着期货市场各项创新以及国际化业务的深入推进,需要的法律支持也越来越多,“尽快出台《期货法》”的呼声越来越高。
    法治强,则市场兴。如今,中国期货市场已经开启了多元、开放的新时代,这对中国期货市场的法律制度体系提出了更高要求。近日,记者采访了中国人民大学教授叶林,深入解读我国期货市场立法的探索、困境及出台《期货法》的重要意义。
    记者:目前我国期货市场的有关法律法规都有哪些,相较国际期货市场的主要差距是什么?
    叶林:二十多年来,我国期货市场法制建设取得了显著的进步,逐渐摸索出了一条适应期货市场发展需要、符合期货市场规律、有中国特色的期货市场法制建设道路。2007年3月,国务院颁布了《期货交易管理条例》,2012年10月、2013年7月、2016年2月和2017年3月进行了四次修订。目前初步形成了以《期货交易管理条例》、最高人民法院司法解释为支撑,以部门规章和规范性文件为配套,以期货交易所、期货业协会自律规则为补充的期货市场法规体系。这一制度体系对于规范期货市场的稳定运行起到了积极作用,但是相较域外期货市场法制而言,存在法律位阶较低、民事规范不完整、跨境监管与协作规范缺失等问题,法律制度并不完备。

输出:

[
{"entity_type":"人名","entity_value":"叶林"},
{"entity_type":"人名","entity_value":"王宁"} 
]

请使用相同的格式继续执行任务。
"""

JSON 是一种轻量级的结构化数据格式,易于通过编程进行解析,因此非常适合自动化和一致性至关重要的机器学习流程。使用 JSON 可以明确定义提取的实体,确保每个识别的实体都遵循标准结构(具有“entity_type”和“entity_value”等字段)。此结构简化了下游任务(例如验证和存储),并确保输出可以轻松集成到其他处理工具或库中。

在提示中提供示例是有益的,因为它有助于指导语言模型理解所需的输出格式和结构。示例充当“指令调整”的一种形式,向模型展示如何以特定方式响应,从而降低生成的输出中出现错误和不一致的可能性。在我们的案例中,使用多个输入文本示例与相应的 JSON 输出配对,向模型展示如何一致地识别和格式化城市名称。这提高了模型响应的可靠性,尤其是在应用于多样化和复杂的现实世界数据时。

步骤 7:从模型响应中提取实体

系统提示准备好后,我们定义一个函数来从模型的输出中提取实体:

def extract_json_from_response(response):
    try:
        if isinstance(response, list):
            return response
        match = re.search(r'(\[.*)', response, re.DOTALL)
        if match:
            json_content = match.group(0).strip()
            if not json_content.endswith(']'):
                json_content += ']'
            return json.loads(json_content)
    except json.JSONDecodeError as e:
        print(f"Failed to decode JSON: {e}")
        return []

此函数在响应中查找 JSON 格式的数据并提取它,确保即使响应结构不正确,我们的管道仍然保持稳健。

步骤 8:实体提取的批处理

然后我们设置批处理来有效地处理大型数据集:

rom loguru import logger

def predict_entities_in_batches(test_dataset, model, system_prompt, batch_size=1):
    extracted_entities = []
    for i in tqdm(range(0, len(test_dataset), batch_size), desc="Processing batches"):
        batch_texts = test_dataset[i:i + batch_size]["text"]
        batch_prompts = [system_prompt+text for text in batch_texts]
        logger.info(batch_prompts)
        results = [model.invoke(batch_prompt) for batch_prompt in batch_prompts]
        for result in results:
            generated_text = result
            logger.info(f"result::{result}")
            assistant_response = generated_text
            if assistant_response:
                entities = extract_json_from_response(assistant_response)
                logger.info(f'entities::{entities}')
                extracted_entities.append(entities)
            else:
                extracted_entities.append(None)
    return extracted_entities


processed_data = predict_entities_in_batches(dataset, model, system_prompt)

当处理 Qwen2.5 等大型模型和大量数据集时,高效的内存管理至关重要。批处理是一种策略,它通过将数据集划分为较小的块或批次并按顺序处理每个批次来帮助管理内存使用量。这种方法可以防止系统内存耗尽,因为整个数据集不需要一次加载到内存中。它还允许通过根据可用硬件调整批处理大小来更好地控制计算资源(例如 GPU 内存)。

使用批处理还可以优化并行性,其中模型可以在一个批次内同时生成多个数据点的输出。这可以加快处理速度而不会使系统内存过载,从而可以处理数据集(如 SmoothNLP金融新闻数据集)。此外,在批次之间清除内存缓存有助于防止内存碎片化(在处理非常大的数据集时可能会发生这种情况),从而保持性能稳定性。总体而言,批处理可确保计算效率和资源管理之间的平衡,从而实现机器学习管道中大型数据集的可扩展处理。

步骤 9:验证和错误处理

我们使用 Pydantic 模型验证提取的实体,确保数据符合预期格式:

from validators import validator


class EntityList(BaseModel):

    def validate_entity_type(entities):
        entities_last = []
        try:
            for entitie in entities:
                if entitie['entity_type'] != '人名':
                    raise ValueError(f"{v} is not a valid entity type")
                else:
                    entities_last.append(entitie)
        except:
            pass
        return entities_last

validated_data = []
for i, entities in enumerate(processed_data):
    try:
        validated_output = EntityList.validate_entity_type(entities=entities)
        validated_data.append({"text": dataset[i], "entities": validated_output})
    except ValidationError as e:
        print("Validation error:", e)
        validated_data.append({"text": dataset[i], "entities": None})

这可确保仅接受有效的实体类型(例如city_names)。如果实体类型与预期格式不匹配,则会引发错误。

步骤 10:准备 SpaCy 模型训练的数据

最后,我们使用 SpaCy 的DocBin来存储处理后的数据,包括实体跨度:

def create_spans(doc, entities):
    """Creates spaCy spans for detected entities in the text."""
    spans = []
    warnings = []
    for entity in entities:
        entity_value = entity.get('entity_value', '').strip()
        entity_type = entity.get('entity_type', '')
        if not entity_value:
            warnings.append(f"Skipping empty entity for type: '{entity_type}'")
            continue
        start = 0
        while True:
            start = doc.text.find(entity_value, start)
            if start == -1:
                break
            end = start + len(entity_value)
            span = doc.char_span(start, end, label=entity_type, alignment_mode="contract")
            if span:
                spans.append(span)
            else:
                warnings.append(f"Could not create span for entity: '{entity_value}' at position {start}-{end}")
            start = end
    return spans, warnings


def filter_overlapping_spans(spans):
    """Filters out overlapping spans, keeping non-overlapping spans."""
    filtered_spans = []
    for span in sorted(spans, key=lambda x: (x.start, -x.end)):
        if all(span.start >= s.end or span.end <= s.start for s in filtered_spans):
            filtered_spans.append(span)
    return filtered_spans
def process_data(data_list):
    doc_bin = DocBin(store_user_data=True)
    for item in tqdm(data_list, desc="Processing Data", unit="doc"):
        text = item.get('text', '')
        if not text.strip():
            continue
        entities = item.get('entities', {}).get('entities', [])
        doc = nlp(text)
        spans, warnings = create_spans(doc, entities)
        doc.ents = filter_overlapping_spans(spans)
        if warnings:
            doc._.warnings = warnings
        doc_bin.add(doc)
    return doc_bin

结论

合成数据与 Qwen 等高级语言模型的集成对降低命名实体识别 (NER) 任务的成本和提高可扩展性具有重大影响。生成合成数据可以创建大型注释数据集,而无需耗时且昂贵的手动标记过程,从而可以快速训练用于各种 NER 应用程序的模型。大型语言模型 (LLM) 通过利用上下文理解从文本中提取有意义的信息,提供了一种注释这些数据集的有效方法。合成数据生成和 LLM 相结合,为开发高性能 NER 系统提供了一种可扩展的解决方案,能够处理来自 SmoothNLP金融新闻数据集 的大规模文本语料库,例如新闻文章。这种方法不仅可以降低注释成本,还可以确保即使在数据需求很大的情况下也可以大规模训练和部署模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2235716.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据集】【YOLO】【目标检测】道路裂缝数据集 5466 张,YOLO/VOC格式标注!

数据集介绍 【数据集】道路裂缝数据集 5466 张&#xff0c;目标检测&#xff0c;包含YOLO/VOC格式标注。数据集中包含一种分类&#xff0c;检测范围城市道路裂缝、高速道路裂缝、乡村道路裂缝。 戳我头像获取数据&#xff0c;或者主页私聊博主哈~ 一、数据概述 道路裂缝检测…

C++用string实现字符串相加

. - 力扣&#xff08;LeetCode&#xff09; -》》》》》题目链接 实现思路&#xff1a;计算数字符串长度并用数组的方式计算出字符位置&#xff0c;用字符的ask码‘0’计算出字符本身。 class Solution { public:string addStrings(string num1, string num2) {string str;int…

easyexcel实现自定义的策略类, 最后追加错误提示列, 自适应列宽,自动合并重复单元格, 美化表头

easyexcel实现自定义的策略类, 最后追加错误提示列, 自适应列宽,自动合并重复单元格, 美化表头 原版表头和表体字体美化自动拼接错误提示列自适应宽度自动合并单元格使用Easyexcel使用poi导出 在后台管理开发的工作中,离不开的就是导出excel了. 如果是简单的导出, 直接easyexce…

brainpy 动力学编程基础

文章参考&#xff1a; 《神经计算建模实战——基于brainpy》 吴思 【brainpy学习笔记】基础知识2(动力学模型的编程基础)-CSDN博客 Brainpy手册 文章目录 积分器&#xff1a;定义ODE函数数值积分方法 更新函数和动力系统计算介绍什么是brainpy.DynamicalSystem&#xff1f;如…

高级图像处理工具

图像处理-高级 1、功能概览 随着社交媒体的普及和个人创作需求的增长&#xff0c;图像处理成为了日常生活中不可或缺的一部分。无论是专业的设计师还是爱好者&#xff0c;都需要一款强大的工具来帮助他们完成各种任务。今天&#xff0c;我们将介绍一款基于Python开发的高级图…

【Zookeeper集群搭建】安装zookeeper、zookeeper集群配置、zookeeper启动与关闭、zookeeper的shell命令操作

目录 一、安装Zookeeper 二、配置Zookeeper集群 三、Zookeeper服务的启动与关闭 四、Zookeeper的shell操作 前情提要&#xff1a;延续上篇【Hadoop和Hbase集群配置】继续配置Zookeeper&#xff0c;开启三台虚拟机Hadoop1、Hadoop2、Hadoop3&#xff0c;进入终端&#xff0c…

Transformer和BERT的区别

Transformer和BERT的区别比较表&#xff1a; 两者的位置编码&#xff1a; 为什么要对位置进行编码&#xff1f; Attention提取特征的时候&#xff0c;可以获取全局每个词对之间的关系&#xff0c;但是并没有显式保留时序信息&#xff0c;或者说位置信息。就算打乱序列中token…

Python爬虫如何处理验证码与登录

Python爬虫如何处理验证码与登录 Python 爬虫在抓取需要登录的网站数据时&#xff0c;通常会遇到两个主要问题&#xff1a;登录验证和验证码处理。这些机制是网站用来防止自动化程序过度抓取数据的主要手段。本文将详细讲解如何使用 Python 处理登录与验证码&#xff0c;以便进…

《深入浅出Apache Spark》系列②:Spark SQL原理精髓全解析

导读&#xff1a;SQL 诞生于 20 世纪 70 年代&#xff0c;至今已有半个世纪。SQL 语言具有语法简单&#xff0c;低学习门槛等特点&#xff0c;诞生之后迅速普及与流行开来。由于 SQL 具有易学易用的特点&#xff0c;使得开发人员容易掌握&#xff0c;企业若能在其计算机软件中支…

JS实现,防抖节流 + 闭包

防抖&#xff08;Debounce&#xff09; 防抖是指短时间内大量触发同一事件&#xff0c;只会在最后一次事件完成后延迟执行一次函数。 防抖的典型应用场景是输入框的搜索建议功能&#xff0c;用户输入时不需要每次输入都去查询&#xff0c;而是在用户停止输入一段时间后才进行…

安卓编程最方便的读写资料类SharedPreferences,多个APP共享

本文介绍Android平台进行数据存储的五大方式,分别如下: 1 使用SharedPreferences存储数据 2 文件存储数据 3 SQLite数据库存储数据 4 使用ContentProvider存储数据 5 网络存储数据 下面详细讲解这五种方式的特点 第一种&#xff1a; 使用SharedPreferences存储数据 …

数据分析:转录组差异fgsea富集分析

文章目录 介绍加载R包数据链接导入数据数据预处理DE testing: 2BP vs no-BP比较limma-voomLoad steroid dataIn No-BP patientsIn 2BP patientsCompare gene expression vs bacterial mass其他系统信息介绍 转录组差异fgsea富集分析是一种基于基因集的富集分析方法,它关注的是…

Day13杨辉三角

给定一个非负整数 numRows&#xff0c;生成「杨辉三角」的前 numRows 行。 在「杨辉三角」中&#xff0c;每个数是它左上方和右上方的数的和。 class Solution {public List<List<Integer>> generate(int numRows) {List<List<Integer>> res new Arra…

Avalonia11如何优雅的跨组件通信

背景&#xff1a; 官网只介绍了推荐适用ReactiveUI&#xff0c;没有过多的案例介绍&#xff0c;对于初入桌面应用开发的小白极其不友好。 本文介绍在Avalonia应用中通过ReactiveUI中的MessageBus进行跨组件通信. 假设需求案例&#xff1a; MainWindowViewModel中发送消息&a…

【开发实战】彻底了解 ThreadLocal

👉博主介绍: 博主从事应用安全和大数据领域,有8年研发经验,5年面试官经验,Java技术专家,WEB架构师,阿里云专家博主,华为云云享专家,51CTO 专家博主 ⛪️ 个人社区:个人社区 💞 个人主页:个人主页 🙉 专栏地址: ✅ Java 中级 🙉八股文专题:剑指大厂,手撕 J…

基于开源 AI 智能名片、S2B2C 商城小程序的用户获取成本优化分析

摘要&#xff1a;本文围绕用户获取成本&#xff08;CAC&#xff09;这一关键指标展开深入剖析&#xff0c;详细阐述其计算方式&#xff0c;并紧密结合开源 AI 智能名片与 S2B2C 商城小程序的独特性质&#xff0c;从多个维度探讨如何通过挖掘新的获客渠道、巧妙运用私域流量池等…

KV260 - PYNQ 主目录 - U盘挂载

目录 1. 简介 2. 具体操作 2.1 查看 USB 设备 2.2 查看 U 盘设备节点 2.3 挂载 U 盘到指定目录 2.4 查看挂载状态 2.5 卸载 U 盘 3. 总结 1. 简介 在 KV260 使用 Jupyter Lab 可以非常方便开发各种应用。有时不方便在 PC 端连接 U 盘&#xff0c;那么可以把 U 盘连在 …

金媒婚恋相亲系统10.4择爱开源旗舰版支持微信小程和抖音小程序上架

最近大家应该注意到了&#xff0c;金媒婚恋相亲系统已经更新至最新的10.4版本了&#xff01;本人作为商业用户也已经更新至最新的旗舰版了&#xff0c;更新的内容是啥&#xff01;这个官方都有列出&#xff0c;一个方面就是更新了多端的登录逻辑和UI 和后台CRM及很多细节的优化…

用环形数组实现队列(多种高级方法,由浅入深)

同普通数组实现的队列相比&#xff0c;普通数组的头结点和尾节点都是固定的&#xff0c;在进行移除的时候如果移除了一个节点&#xff0c;后面所有节点都需要进行移除操作&#xff0c;需要的时间复杂度更高 在环形数组中&#xff0c;确定了头尾指针的环形数组很好地解决了这一…

【毫米波雷达(七)】自动驾驶汽车中的精准定位——RTK定位技术

一、什么是RTK&#xff1f; RTK&#xff0c;英文全名叫做Real-time kinematic&#xff0c;也就是实时动态。这是一个简称&#xff0c;全称其实应该是RTK&#xff08;Real-time kinematic&#xff0c;实时动态&#xff09;载波相位差分技术。 二、RTK的组装 如上图所示&#x…