大模型做实体识别任务的原理

news2025/2/24 1:07:21

1、背景

命名实体识别(named entity recognition,NER):通常是一个序列标注的任务,常见的模型框架有:LSTM-CRF、BERT+BILSTM+CRF等,该种任务通常被成为flat NER即:每一个token只分配一个label;序列标准任务还会受到分词器的影响,而对于nested NER,即一个token可能被赋予多个实体。如:老中医(本身中医是一个学科实体,但是“中医”与“老”连起来表达的是一个身份实体,即中医被赋予了不同的含义)

2、原理介绍

目前基于QA问答形式的大模型技术日前在蓬勃的发展,通过问答任务训练实体识别NER任务,被称之为MRC(机器阅读理解)。将目标词(实体类型)当成一个自然语言的查询query,对于给定的上下文句子,以回答问题的方式将实体值识别出来。

(1)任务的目标:对于输入的文本句子序列X = {x1, x2,…, xn},其中n表示序列的长度,需要从文本句子X中找到每个实体片段span,然后给该实体片段分配一个标签y∈y,其中y是一个预定义的所有可能的标签类型(目标词)的列表(如地址、电话号码、职业、学历等实体类型)

(2)模型的框架:将{[CLS], q1, q2, ..., qm, [SEP], x1, x2, ..., xn},其中qy表示的是目标实体类型y对应的查询,即将带识别的目标词和文本上下文放在一起,送入大模型进行统一的编码,根据生成的embedding表示,通过分类任务进行实体片段的识别

(3)片段识别器:通过双指针网络从输入的x1, x2, ..., xn中,发现实体span的起点和终点,模型寻找start和end的过程:n个二分类器的判读过程,即对于输入n长度的文本句子中的每个词进行二分类器,判断是否是起点还是终点,这样通过定的上下文和特定的查询输出多个开始索引和多个结束索引。对于每个位置的embedding进行T转化生成起始位置的概率分布,同理可生成终止位置的概率分布,在起始的概率分布中找到概率最大对应的位置,作为起始位置,在终止的概率分布中找到概率最大对应的位置,作为终止位置,根据起始位置和终止位置对应的embedding,拼接后进行二分类判断是否为span,整体的loss包含了位置的loss是否是起点和终点以及span的loss是否是对应的起点和终点。

3、chatGLM做实体识别的例子

微调数据构建

首先,我们需要将NER标记风格的数据集转换成一组 (上下文、问题、答案) 三元组。有每个标签类型y∈Y,它与自然语言问题qy相关联,qy = {q1, q2, ..., qm} ,其中m表示生成的查询的长度。注释实体xstart,end = {xstart, xstart+1,···,end-1, xend}是满足start≤end的X的子字符串。每个实体都有一个真实标签y∈y。通过基于标签y生成一个自然语言问题qy,我们可以获得三元组(qy, xstart,end, X),这正是我们需要的三元组(问题,答案,上下文)。注意,我们使用下标“start,end”来表示从' start '到' end '的连续标记。

4、参考文献

​[1]https://www.zhihu.com/question/452002433/answer/2327252882?utm_psn=1722650204480577536
[2]A Unified MRC Framework for Named Entity Recognition 
论文链接:https://arxiv.org/pdf/1910.11476.pdf
代码链接:GitHub - ShannonAI/mrc-for-flat-nested-ner: Code for ACL 2020 paper `A Unified MRC Framework for Named Entity Recognition`
[3]Pointer Networks
[4] UIE:Unified Structure Generation for Universal Information Extraction

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1334791.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

视频号小店需要多少资金?

我是电商珠珠 视频号团队自22年发展视频号小店以来,为人所知。和抖音电商一样,都是在发展的第二年掀起了浪花。 也就是今年,很多想要入驻的新手,对于视频号小店不太了解,不清楚到底需要多少资金。 今天,…

Unity协程的定义、使用及原理,与线程的区别、缺点全方面解析

目录 协程的定义及简介 协程的用途 定时器 将复杂程序分帧执行 等待某些条件完成后执行后续 异步加载资源 协程的原理 MonoBehaviour中每一帧的游戏循环 迭代器 IEnumerator 接口 具体执行过程 协程和线程的区别 协程的缺点 无法返回值 依赖于MonoBehaviour 维护…

一文让你搞明白文本或代码中 \n 和 \r 的区别

我们使用printf打印时基本都会用到 \n 和 \r 之类控制字符,比如: printf("hello world!\r\n"); 那么,你知道 \n 和 \r 的区别吗? 一、关于 \n 和 \r 在ASCII码中,我们会看到有一类不可显示的字符&#x…

jenkins Job华为云EIP变更带宽

引言: 在数字化时代,云服务资源的弹性管理是企业降低运营成本、提高效率的关键手段。通过弹性公网IP(EIP)服务,企业可以实现按需计费,优化网络支出。然而,根据业务流量的不同阶段调整计费模式,…

【数据结构】什么是二叉树?

🦄个人主页:修修修也 🎏所属专栏:数据结构 ⚙️操作环境:Visual Studio 2022 目录 📌二叉树的定义 📌二叉树的特点 📌特殊二叉树 📌二叉树的性质 📌二叉树的存储结构 📌二叉树…

路径规划最全综述+代码+可视化绘图(Dijkstra算法+A*算法+RRT算法等)

路径规划综述 1. 背景介绍 路径规划是指在给定的环境中找到从起点到终点的最佳路径的过程。它在现实生活中有着广泛的应用,包括无人驾驶、物流配送、机器人导航等领域。随着人工智能和计算机技术的发展,路径规划技术也在不断地得到改进和应用。 路径规划…

宠物智能喂养系统App重新定义养宠体验

​ 在科技蓬勃发展的当今世界,宠物照顾和护理的更多可能性也随之扩大。宠物智能喂养系统App正改变着我们对宠物看护的传统理解。 一、对宠物用品店的影响 作为一款集成了先进的摄像头、传感器和自动投喂功能的设备,智能喂养系统App使得宠物用品店可以…

龙迅LT8713SX适用于一路Type-C/DP1.4转三路Type-C/DP1.4/HDMI2.0应用方案,分辨率高达4K60HZ,支持SST/MST模式!

1. 概述 LT8713SX是一款高性能Type-C/DP1.4转Type-C/DP1.4/HDMI2.0转换器,具有三个可配置的DP1.4/HDMI2.0/DP输出接口和音频输出接口。LT8713SX支持 DisplayPort™ 单流传输 (SST) 模式和多流传输 (MST) 模式。当接收…

【SpringBoot】之Security进阶使用(登陆授权)

🎉🎉欢迎来到我的CSDN主页!🎉🎉 🏅我是君易--鑨,一个在CSDN分享笔记的博主。📚📚 🌟推荐给大家我的博客专栏《SpringBoot开发之Security系列》。&#x1f3af…

C# Onnx yolov8 pokemon detection

目录 效果 模型信息 项目 代码 下载 C# Onnx yolov8 pokemon detectio 效果 模型信息 Model Properties ------------------------- date:2023-12-25T17:55:44.583431 author:Ultralytics task:detect license:AGPL-3.0 h…

4.9【共享源】流的多生产者和消费者

当一个系统中存在多个生产者和消费者时,情况可能会变得复杂。 了解生产者和消费者流之间支持的基数非常重要。 本质上,一个生产者流可以与多个消费者流连接,但一个消费者流只能连接到一个生产者流。请注意,基数关系仅限于单个流&…

竞赛保研 基于RSSI的室内wifi定位系统

0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 wifi室内定位系统 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🥇学长这里给一个题目综合评分(每项满分5分) 难度系数:…

asp.net mvc 重定向问题的解决方式

前端ajax发起请求,在后端接口中重定向,结果报错,无法跳转 Ajax实际上是通过XMLHttpRequest来向服务器发送异步请求的,从服务器获取数据,然后使用JS来更新页面,这也就是常说的局部刷新实现方式,所…

Linux部署MeterSphere结合内网穿透实现远程访问服务管理界面

文章目录 前言1. 安装MeterSphere2. 本地访问MeterSphere3. 安装 cpolar内网穿透软件4. 配置MeterSphere公网访问地址5. 公网远程访问MeterSphere6. 固定MeterSphere公网地址 前言 MeterSphere 是一站式开源持续测试平台, 涵盖测试跟踪、接口测试、UI 测试和性能测试等功能&am…

华为数通方向HCIP-DataCom H12-831题库(多选题:241-249)

第241题 (NEW) 以下哪些操作可能会影响客户网络的正常运行? A、从设备上下载日志 B、软件升级 C、路由协议配置变更 D、debug核心交换机上转发的所有IP报文 答案:ABCD 解析: 第242题 对于防火墙的默认安全区 Trust 和 Untrust 的说法,正确的有 A、从 Trust 区域访问 Untr…

安卓开发--RecyclerView快速上手【上】

效果图展示: 下面三个kml文件名即动态从服务器获取并列表加载。 RecyclerView简称 RV, 是作为 ListView 和 GridView 的加强版出现的,目的是在有限的屏幕之上展示大量的内容,因此 RecyclerView 的复用机制的实现是它的一个核心部分。 一般在动态获取服务器数据进行…

K8S理论

kubernetes:8个字母省略,就是k8s 自动部署自动扩展和管理容器化部署的应用程序的一个开源系统 k8s是负责自动化运维管理多个容器化程序的集群,是一个功能强大的容器编排工具 分布式和集群化的方式进行容器化管理 版本有1.15 .1.18 .1.20 …

ES5语法数组遍历、字符串、对象新增方法

ES5数组遍历forEach\filter\some\every\map、字符串trim、对象keys\defineProperty新增方法   Elasticsearch 是一个分布式、RESTful 风格的搜索和数据分析引擎,能够解决不断涌现出的各种用例。作为 Elastic Stack 的核心,它集中存储您的数据&#xff…

ssh工具 向指定的ssh服务器配置公钥

此文分享一个python脚本,用于向指定的ssh服务器配置公钥,以达到免密登录ssh服务器的目的。 效果演示 🔥完整演示效果 👇第一步,显然,我们需要选择功能 👇第二步,确认 or 选择ssh服务器 👇第三步,输入ssh登录密码,以完成公钥配置 👇验证,我们通过ssh登录…

PHP+MySQL组合开发:万能在线预约小程序源码系统 附带完整的搭建教程

近年来,线上服务逐渐成为市场主流。特别是在预约服务领域,用户越来越倾向于选择方便快捷的线上预约方式。传统的预约方式如电话预约和到店预约不仅效率低下,而且在信息传达上存在很大的误差。这使得用户常常需要反复确认,浪费了大…