基于 BERT 的自定义中文命名实体识别实现

news2025/1/23 6:12:58

基于 BERT 的自定义中文命名实体识别实现

在自然语言处理中,命名实体识别(Named Entity Recognition,NER)是一项重要的任务,旨在识别文本中的特定实体,如人名、地名、组织机构名等。本文将介绍如何使用 BERT 模型实现自定义中文命名实体识别,并提供详细的代码分析和解读。

一、项目背景

命名实体识别在许多领域都有广泛的应用,如信息提取、问答系统、机器翻译等。传统的命名实体识别方法通常基于规则或统计模型,但随着深度学习的发展,基于神经网络的方法已经成为主流。BERT(Bidirectional Encoder Representations from Transformers)是一种强大的预训练语言模型,它在许多自然语言处理任务中都取得了优异的成绩。

二、技术选型

  1. 框架选择:我们使用 PyTorch 作为深度学习框架,它具有灵活、高效的特点,并且提供了丰富的工具和库。
  2. 模型选择:选择 BERT 作为基础模型,BERT 是一种基于 Transformer 架构的预训练语言模型,它可以学习到丰富的语言表示,适用于各种自然语言处理任务。
  3. 标注方法:采用 BIO 标注方法,即将每个实体的第一个词标注为“B_实体类型”,其余词标注为“I_实体类型”,非实体词标注为“O”。

三、代码结构

  1. dataset.py:定义了一个名为NERDataset的数据集类,用于加载和处理命名实体识别数据。该类接受文件路径、tokenizer和标签映射作为参数,并实现了__len____getitem__方法,以便在训练和评估过程中使用。
  2. data_processing.py:主要用于数据预处理,包括读取标签列表、创建标签映射、创建数据集对象并保存为.pt文件。
  3. train_model.py:实现了模型的训练过程,包括加载数据、定义模型、优化器,进行多个 epoch 的训练,并保存训练好的模型。
  4. evaluate_model.py:用于评估模型性能,通过计算验证集上的损失和准确率来评估模型的性能。
  5. predict.py:用于对新文本进行预测,提取其中的命名实体。

四、数据集准备和数据标注

  1. train.txt:训练数据集。
  2. test.txt:测试训练集。
  3. 数据标注,BIO数据标注法。
    数据标注

五、代码实现

1. dataset.py


import torch
from torch.utils.data import Dataset
from transformers import BertTokenizer

class NERDataset(Dataset):
    def __init__(self, file_path, tokenizer, label_map, max_len=128):
        self.tokenizer = tokenizer
        self.label_map = label_map
        self.max_len = max_len
        self.texts, self.labels = self._read_file(file_path)

    def _read_file(self, file_path):
        texts, labels = [], []
        with open(file_path, 'r', encoding='utf-8') as file:
            words, tags = [], []
            for line in file:
                if line.strip() == "":
                    if words:
                        texts.append(words)
                        labels.append(tags)
                        words, tags = [], []
                else:
                    parts = line.strip().split()
                    if len(parts) == 2:
                        word, tag = parts
                        words.append(word)
                        tags.append(tag)
                    else:
                        print(f"Skipping line: {
     line.strip()}")
            if words:
                texts.append(words)
                labels.append(tags)
        return texts, labels

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        words = self.texts[idx]
        tags = self.labels[idx]
        inputs = self.tokenizer(words, is_split_into_words=True, truncation=True, padding='max_length', max_length=self.max_len, return_tensors="pt")
        labels = [self.label_map[tag] for tag in tags]
        labels += [self.label_map['O']] * (self.max_len - len(labels))
        inputs["labels"] = torch.tensor(labels

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2160758.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

乐(智)尚代驾~~--------Day5----司机认证篇~

前言: Hello亲爱的uu们,在读过了一个愉快的周末后(摸鱼了一会),我又回来更新啦,感谢uu们的阅读,话不多说~ 司机认证 当司机点击开始接单的时候,会先判断该司机有没有通过认证&…

跨平台数据库工具DataGrip v2024.2全新发布——增加智能刷新功能

DataGrip 是一个跨平台的数据库工具可在Windows,OS X 和 Linux上使用。同时支持多种数据库,包含了SQL Server,Oracle,PostgreSQL,MySQL,DB2,Sybase,SQLite,Derby&#xf…

DQL学习

一、基础查询 1.查询多个字段 select 字段列表 from 表名; select * from 表名;-- 查询所有数据 但不建议使用!!!! 2.去除重复记录 select DISTINCT 字段列表 from 表名; 3.起别名 as;as也可以省略但中间要加空…

导入时,文档模板不被下载

问题描述 提示:这里描述项目中遇到的问题: 这是个SSM项目,以前经常遇到这个问题,今天有幸记录下来 [ERROR][o.a.s.r.StreamResult] Can not find a java.io.InputStream with the name [downLoadFile] in the invocation stack…

目标检测系列(一)什么是目标检测

目录 一、相关名词解释 二、目标检测算法 三、目标检测模型 四、目标检测应用 五、目标检测数据集 六、目标检测常用标注工具 一、相关名词解释 关于图像识别的计算机视觉四大类任务: 分类(Classification):解决“是什么&…

【Linux 报错】“userdel: user xxxx is currently used by process xxx”

问题产生的原因: 多个用户后嵌套登陆导致删除某用户时,这个用户还没退出导致无法删除的问题。 例如:你在普通用户 A 的账户下,切换超级用户 root 执行删除普通用户 A 的账户,此时普通用户 A还在当前进程中运行&#…

管理员工绩效的 7 个最佳策略

管理员工绩效的 7 个最佳策略 您可以为您的公司做很多事情——伟大的想法、创新的产品和尖端技术。但归根结底,如果你想让你的组织取得成功,你需要一个高绩效的文化,拥有高绩效的员工。 赋予员工高水平绩效的最佳方式之一是通过员工绩效管理…

计算机的错误计算(一百零二)

摘要 探讨 的计算精度问题。 从计算机的错误计算(九十九)可知, 在IEEE 754-2019的列表中。因此,有必要分析其计算准确度。 例1. 已知 计算 若利用 Python的SciPy库中函数计算,则有: 若用Java的pow函…

Java设计模式全面解析

23大设计模式(即软件设计中的24种常用设计模式)源自《设计模式:可复用面向对象软件的基础》一书,由四位作者(Erich Gamma、Richard Helm、Ralph Johnson、John Vlissides)提出,通常也被称为“Go…

Java — LeetCode 面试经典150题(一)

双指针 125.验证回文串 题目 如果在将所有大写字符转换为小写字符、并移除所有非字母数字字符之后,短语正着读和反着读都一样。则可以认为该短语是一个 回文串 。 字母和数字都属于字母数字字符。 给你一个字符串 s,如果它是 回文串 ,返回…

代码随想录算法day39 | 动态规划算法part12 | 115.不同的子序列,583. 两个字符串的删除操作,72. 编辑距离

115.不同的子序列 相对于 392.判断子序列,本题有难度了,感受一下本题和 392.判断子序列 的区别。 力扣题目链接(opens new window) 给定一个字符串 s 和一个字符串 t ,计算在 s 的子序列中 t 出现的个数。 字符串的一个 子序列 是指&#xff…

企业如何选择合适的可观测产品

数字化进程的推进,使得不同企业对于数字化可观测产品提出了各种差异化的需求。本文先是具体分析了不同类型的企业对于可观测产品的直接需求和痛点,描述了可观测产品的所能提供的更丰富的实际应用场景。紧接着从开源产品,国外商业产品&#xf…

E33.【C语言】数据在内存中的存储练习集(未完)

1. 求下列代码的打印结果 #include <stdio.h> int main() {char a -1;signed char b -1;unsigned char c -1;printf("a%d,b%d,c%d", a, b, c);return 0; } 答案速查 分析 之前讲过,char在VS中默认为signed char,则a和b的打印结果应该是一样的 存储范围…

专属文生图助手——SD3+ComfyUI文生图部署步骤

SD3ComfyUI文生图部署步骤 我们使用DAMODEL来实现文生图的部署。 根据提供的操作步骤与代码段落&#xff0c;本文旨在介绍如何下载并部署 Stable Diffusion 3 模型&#xff0c;并通过 ComfyUI 架构实现基于 Web 界面的图像生成应用。本文将剖析各个步骤&#xff0c;并详细解释…

无人机之编程基础原理

无人机编程基础原理涉及多个方面&#xff0c;主要包括无人机的基本原理、飞行控制算法、编程语言及算法应用等。以下是对这些方面的详细阐述&#xff1a; 一、无人机基本原理 无人机的基本原理是理解其结构、飞行原理、传感器和控制系统等的基础。无人机通常由机身、动力系统&…

Linux网络之UDP与TCP协议详解

文章目录 UDP协议UDP协议数据报报头 TCP协议确认应答缓冲区 超时重传三次握手其他问题 四次挥手滑动窗口流量控制拥塞控制 UDP协议 前面我们只是说了UDP协议的用法,但是并没有涉及到UDP协议的原理 毕竟知道冰箱的用法和知道冰箱的原理是两个层级的事情 我们首先知道计算机网…

基于51单片机的自动清洗系统(自动洗衣机)

目录 一、主要功能 二、硬件资源 三、程序编程 四、实现现象 一、主要功能 基于AT89C52单片机&#xff0c;采用DS18B20温度传感器检测温度&#xff0c;通过LCD1602显示屏显示&#xff0c;并且按键 可以加减温度的上限&#xff1b; 点击清洗按键后&#xff0c;倒计时1分钟&…

61.【C语言】数据在内存中的存储

1.前置知识 整数在内存中以补码形式存储 有符号整数三种码均有符号位,数值位 正整数:原码反码补码 负整数:原码≠反码≠补码 2.解释 int arr[] {1,2,3,4,5}; VSx86Debug环境下,内存窗口输入&arr VSx64Debug环境下,内存窗口输入&arr 存放的顺序都一样,均是小端序…

探索组合模式:构建灵活的层次结构

组合模式是一种结构型设计模式&#xff0c;它允许你将对象组合成树形结构来表示“部分-整体”的层次结构。组合模式使得客户可以以一致的方式处理单个对象和组合对象。 一&#xff0c;组合模式的结构 组合模式主要包含以下几个部分&#xff1a; 组件&#xff08;Component&a…

Java练习-----时间工具类(JDK8之后)

目录 LocalDate/LocalTime/LocalDateTime类 ZoneDateTime和ZoneId Instant类 DateTimeFormatter类 &#xff1a;解析格式化时间 LocalDate/LocalTime/LocalDateTime类 package crrc.studytest1;import java.time.Duration; import java.time.LocalDateTime;public class Du…