3 命名实体识别调优化

news2025/1/12 20:57:57

     能走到这里说明你对模型微调有了一个基本的认识。那么开始一段命名实体的任务过程,下面使用huggingface官网的数据。

1 准备模型

下面的模型自己选择一个吧,我的内存太第一个模型跑不了。

https://huggingface.co/ckiplab/bert-base-chinese-ner/tree/main

2 准备数据

https://huggingface.co/datasets/peoples_daily_ner

3 训练

评估指标

https://huggingface.co/spaces/evaluate-metric/seqeval

import evaluate
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForTokenClassification, TrainingArguments, Trainer, DataCollatorForTokenClassification

# 如果可以联网,直接使用load_dataset进行加载
#ner_datasets = load_dataset("peoples_daily_ner", cache_dir="./data")
# 如果无法联网,则使用下面的方式加载数据集
from datasets import DatasetDict
ner_datasets = DatasetDict.load_from_disk("../data/ner_data/")
ner_datasets

tokenizer = AutoTokenizer.from_pretrained("/Users/user/studyFile/2024/nlp/bert_base_chinese_ner/")

# 借助word_ids 实现标签映射
def process_function(examples):
    tokenized_exmaples = tokenizer(examples["tokens"], max_length=128, truncation=True, is_split_into_words=True)
    labels = []
    for i, label in enumerate(examples["ner_tags"]):
        word_ids = tokenized_exmaples.word_ids(batch_index=i)
        label_ids = []
        for word_id in word_ids:
            if word_id is None:
                label_ids.append(-100)
            else:
                label_ids.append(label[word_id])
        labels.append(label_ids)
    tokenized_exmaples["labels"] = labels
    return tokenized_exmaples
tokenized_datasets = ner_datasets.map(process_function, batched=True)
tokenized_datasets

# 自己定义数据的类别个数
label_list = ner_datasets["train"].features["ner_tags"].feature.names


#model = AutoModelForTokenClassification.from_pretrained("../bert_base_chinese_ner/", num_labels=len(label_list))
import torch
model = AutoModelForTokenClassification.from_pretrained("../bert_base_chinese_ner/",num_labels=len(label_list),ignore_mismatched_sizes=True)
#model.num_labels = len(label_list)
#num_labels = len(label_list)
#model.classifier.out_proj.weight.data = torch.nn.functional.linear(model.classifier.weight, (model.classifier.weight.shape[0] / num_labels)) 
#model.classifier.out_proj.bias.data = model.classifier.bias
 

# 这里方便大家加载,替换成了本地的加载方式,无需额外下载
seqeval = evaluate.load("seqeval_metric.py")
seqeval

import numpy as np
# 自定义评估指标
def eval_metric(pred):
    predictions, labels = pred
    predictions = np.argmax(predictions, axis=-1)

    # 将id转换为原始的字符串类型的标签
    true_predictions = [
        [label_list[p] for p, l in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels) 
    ]

    true_labels = [
        [label_list[l] for p, l in zip(prediction, label) if l != -100]
        for prediction, label in zip(predictions, labels) 
    ]

    result = seqeval.compute(predictions=true_predictions, references=true_labels, mode="strict", scheme="IOB2")

    return {
        "f1": result["overall_f1"]
    }
    
args = TrainingArguments(
    output_dir="models_for_ner",
    per_device_train_batch_size=64,
    per_device_eval_batch_size=128,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    metric_for_best_model="f1",
    load_best_model_at_end=True,
    logging_steps=50,
    num_train_epochs=1
)

trainer = Trainer(
    model=model,
    args=args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    compute_metrics=eval_metric,
    data_collator=DataCollatorForTokenClassification(tokenizer=tokenizer)
)
trainer.train()

训练的过程太慢了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1618464.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

医学访问学者专栏—研究领域及工作内容

在国外访问学者申请中,医学领域的研究、教学及从业人员占有相当大的比例,这些医学访问学者的研究领域及工作内容都有哪些?本文知识人网小编就相关问题进行详细阐述,并附带案例说明。 一、在国外做医学访问学者可以从事哪些工作&am…

Win10 打开有些软件主界面会白屏不显示,其他软件都正常

环境: Win10专业版 英伟达4070 显卡 问题描述: Win10 打开有些软件主界面会白屏不显示,打开远程协助软件AIRMdesk,白色,其他软件都正常 解决方案: 网上说电脑没有接显示器独立显卡的关系导致 我是只有一台主机,没…

appium相关的知识

>adb shell dumpsys window | findstr mCurrentFocus adb devices # 实例化字典 desired_caps = dict() desired_caps[platformName] = Android desired_caps[platformVersion] = 9 # devices desired_caps[deviceName] = emulator-5554 # 包名 desired_caps[appPackage] …

DRF 查询(排序、过滤、分页)

查询(排序、过滤、分页) 【0】准备 (1)Q查询 详细内容可见:Django模型层-CSDN博客Django 的 Q 对象提供了一种在数据库查询中构造复杂查询的方法。当你想在单个查询中组合多个过滤条件,并且这些条件之间不仅仅是简单的 AND 关系…

MySQL8.0.36-社区版:二进制日志(4)

什么是二进制日志(binlog):记录了所有的ddl和dml语句,但是不包括查询类的 二进制日志的作用:1.灾难恢复,2.mysql主从复制 查看二进制日志状态 show variables like %log_bin%; 在mysql8中默认是开启的 | l…

TLV61048非同步升压BOOST转换器输入电压2.6-5.5V输出电流4A输出电压最高15V

推荐原因: 输入电压较低,输出电流可达3.5A SOT23-6封装 批量价格约0.70元 TLV61048引脚 TLV61048引脚功能 7 详细说明 7.1 概述 TLV61048是一款非同步升压转换器,支持高达 15 V 的输出电压和输入范围从 2.61 V 到 5.5 V。该TLV61048集成了…

C++ map和set的应用

1. 关联式容器 我们已经接触过STL中的部分容器,比如:vector、list、deque、 forward_list(C11)等,这些容器统称为序列式容器,因为其底层为线性序列的数据结构,里面存储的是元素本身。那什么是关联式容器?它…

如何用Java语言实现远程控制多路照明

如何用Java语言实现远程控制多路照明呢? 本文描述了使用Java语言调用HTTP接口,实现控制多路照明。通过多路控制器,可独立远程控制多路照明。 可选用产品:可根据实际场景需求,选择对应的规格 序号设备名称1智能WiFi控…

hcia datacom课程学习(7):直连路由、静态路由

直连路由路由器接口上的网络(接口配置了IP地址并且开启)静态路由管理员手工添加的网络动态路由路由器之间动态学习形成的网络 1.直连路由 每当给路由器的一个接口配置了ip,路由表中就会产生对应的直连路由 配置路由接口ip的命令&#xff1…

编辑个人百度百科词条的小窍门,让你一次通过!

个人百度百科词条展示的是个人专业素养和成就,能够提升个人品牌形象,增加社交圈子中的竞争力。个人百度百科词条编辑攻略:如何通过审核?大家好!今天伯乐网络传媒来分享一个超实用的经验——如何编辑个人百度百科词条才…

VM安装openwrt

openwrt是什么 OPENWRT是一种嵌入式操作系统,旨在取代原始路由器 固件 ,并提供更多功能和自定义选项。 它构建在Linux内核之上,并由一系列 软件 包组成,以满足各种网络需求。 下载 官网下载地址:Index of /releases…

力扣-2259移除指定数字得到的最大结果

思路: 1. def removeDigit(self, number: str, digit: str) -> str::这是一个类方法,接受两个参数 number 和 digit,分别表示输入的数字字符串和要移除的数字字符,返回一个字符串。 2. n len(number)&#xff1a…

内网穿透工具(zerotier, tailscale)

内网穿透工具 zerotier tailscale 一、Zerotier1. Zerotier 网页注册2. Zerotier 网页使用(1) Zerotier 网页配置 3. Zeritier 终端配置(1) Zeritier 终端下载(2) Zeritier 终端连接 二、Tailscale1. 进入主页2. Tailscale 网页注册登录3. Tailscale 网页添加设备4. Tailscale …

解决方案 SHUTDOWN_STATE xmlrpclib.py line: 794 ERROR: supervisor shutting down

Supervisor操作命令 重新加载 Supervisor 配置: sudo supervisorctl reread sudo supervisorctl update sudo supervisorctl restart all这将重新读取 Supervisor 的配置文件,更新进程组,然后重启所有进程。 查看 Supervisor 日志&#xff1…

【系统架构师】-选择题(一)

1、信息系统规划方法中,关键成功因素法通过对关键成功因素的识别,找出实现目标所需要的关键信息集合,从而确定系统开发的 (优先次序) 。关键成功因素来源于组织的目标,通过组织的目标分解和关键成功因素识别…

南京林业大学阮宏华团队揭示干旱对杨树人工林土壤微生物残留物碳的影响

全球强度干旱事件的频繁发生,对陆地生态系统土壤有机碳库可能产生显著影响。土壤微生物残体碳是土壤有机碳库的重要组成部分,微生物残体碳的变化对土壤有机碳库产生显著影响。然而,土壤中微生物残体碳对干旱的响应及其机制还不清楚。 基于此…

实现基于RAG的QA应用程序

实现基于RAG的Q&A应用程序 LLM 支持的最强大的应用程序之一是复杂的 问答 (Q&A) 聊天机器人。这些应用程序可以 回答有关特定来源信息的问题。这些应用程序 使用一种称为检索增强生成 (RAG) 的技术。 什么是检索增强生成…

TCP/IP常用协议栈图解

1.引言 最近看了一些计算机网络的课程,总结借鉴了一些TCP/IP常用协议,罗列在以下图中,以便有一个整体观。 2.图解 先上图 3.总结 TCP/IP协议是实际用的计算机网络通信的标准协议栈,自上而下分为应用层,传输层&#xf…

世界读书日 | 开发者必读书单重磅来袭,华为云DTSE专家天团力荐

春色恰如许,读书正当时。 读书,就像解锁一把神秘钥匙,为开发者洞开新世界的大门,赋予他们破译复杂难题的能力、挑战未知领域的勇气。书页翻动间,开发者得以站在巨人的肩膀上,汲取前人经验,积蓄…

BBS前后端混合项目--01

总路由 # urls.py """BBS1 URL ConfigurationThe urlpatterns list routes URLs to views. For more information please see:https://docs.djangoproject.com/en/3.2/topics/http/urls/ Examples: Function views1. Add an import: from my_app import views2…