大模型揭秘:AI与CatGPT在实体识别中的创新应用

news2024/11/16 19:59:10

摘要

尽管大规模语言模型 (LLM) 在各种 NLP 任务上已经取得了 SOTA 性能,但它在 NER 上的性能仍然明显低于监督基线。这是由于 NER 和 LLMs 这两个任务之间的差距:前者本质上是序列标记任务,而后者是文本生成模型。在本文中,我们提出 GPT-NER 来解决这个问题。GPT-NER 通过将序列标记任务转换为 LLM 可以轻松适应的生成任务来弥合差距,例如,在输入文本“Columbus is a city”中查找位置实体的任务转换为生成文本序列“@” @Columbus## is a city",其中特殊标记@@## 标记要提取的实体。为了有效解决LLMs的“幻觉”问题,在 LLM 强烈倾向于过度自信地将 NULL 输入标记为实体的情况下,我们提出了一种自我验证策略,提示 LLM 问自己提取的实体是否属于标记的实体标签。我们在五个广泛采用的 NER 数据集上进行了实验,GPT-NER 实现了与完全监督的基线相当的性能,这对我们来说是第一次。更重要的是,我们发现 GPT-NER 在低资源和少样本设置中表现出更强的能力,当训练数据量极其稀缺时,GPT-NER 的表现明显优于监督模型。这展示了 GPT-NER 在标记示例数量有限的真实 NER 应用程序中的能力。我们通过提示 LLM 询问自己提取的实体是否属于标记的实体标签来提出自我验证策略。我们在五个广泛采用的 NER 数据集上进行了实验,GPT-NER 实现了与完全监督的基线相当的性能,这对我们来说是第一次。更重要的是,我们发现 GPT-NER 在低资源和少样本设置中表现出更强的能力,当训练数据量极其稀缺时,GPT-NER 的表现明显优于监督模型。这展示了 GPT-NER 在标记示例数量有限的真实 NER 应用程序中的能力。我们通过提示 LLM 询问自己提取的实体是否属于标记的实体标签来提出自我验证策略。我们在五个广泛采用的 NER 数据集上进行了实验,GPT-NER 实现了与完全监督的基线相当的性能,这对我们来说是第一次。更重要的是,我们发现 GPT-NER 在低资源和少样本设置中表现出更强的能力,当训练数据量极其稀缺时,GPT-NER 的表现明显优于监督模型。这展示了 GPT-NER 在标记示例数量有限的真实 NER 应用程序中的能力。GPT-NER 实现了与完全监督的基线相当的性能,这对我们来说是第一次。更重要的是,我们发现 GPT-NER 在低资源和少样本设置中表现出更强的能力,当训练数据量极其稀缺时,GPT-NER 的表现明显优于监督模型。这展示了 GPT-NER 在标记示例数量有限的真实 NER 应用程序中的能力。GPT-NER 实现了与完全监督的基线相当的性能,这对我们来说是第一次。更重要的是,我们发现 GPT-NER 在低资源和少样本设置中表现出更强的能力,当训练数据量极其稀缺时,GPT-NER 的表现明显优于监督模型。这展示了 GPT-NER 在标记示例数量有限的真实 NER 应用程序中的能力。

论文原文连接

https://arxiv.org/pdf/2304.10428.pdf

结论

本文提出GPT-NER以使LLM适应NER任务。作者设计一种prompt来提示LLM生成实体标记,此外在演示部分设计了KNN和token嵌入来帮助LLM更好生成输出,并且作者提出一种自我验证策略来缓解LLM的幻觉问题。最后模型性能和基线相当,并且在低资源场景有显著的优势。

阅读总结

一篇2023年4月26日才挂上arxiv的文章,是我看到的第一篇用LLM解决NER任务的文章,文中的方法很有创意,通过设计prompt激发大模型生成预期序列的能力着实让我感叹LLM的无限潜力,并且这只是在GPT-3就能达到baseline的效果,如果换成现在的GPT-4,那结果不敢想,在我看来,LLM才是NER任务的最优解,如此复杂的序列标注问题,果然还是需要魔法打败魔法,之前所看到的对比学习方法、元学习方法等,在LLM面前可能真的不堪一击,当然我还会继续调研的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1859307.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

被年轻人买爆的转运能量石,戴一天竟等于拍千次胸片?

离谱的事年年有,这几年可以说非常多!‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍ 尤其是这届年轻人,不知道什么时候开始,越来越迷信了! 比如去年很…

基于在校学习平台MOOC的选课推荐系统

基于在校学习平台MOOC的选课推荐系统 1、效果 在线demo,点我查看 2、功能 根据学生于在校学习平台MOOC学习期间的选课记录等相关特征来对学生进行课程推荐。 采用数据挖掘技术,包括BPR、FM、CF,神经网络推荐,用户协同过滤推荐…

2024 CISCN 华东北分区赛-Ahisec

Ahisec战队 WEB python-1 break 源码如下: # -*- coding: UTF-8 -*-from flask import Flask, request,render_template,render_template_stringapp Flask(__name__)def blacklist(name):blacklists ["print","cat","flag",&q…

【嵌入式Linux】<总览> 多进程(更新中)

文章目录 前言 一、进程的概念与结构 1. 相关概念 2. 内核区中的进程结构 3. 进程的状态 4. 获取进程ID函数 二、进程创建 1. fork和vfork函数 2. 额外注意点 3. 构建进程链 4.构建进程扇 三、进程终止 1. C程序的启动过程 2. 进程终止方式 四、特殊的进程 1. 僵…

AppInventor2添加超过10个屏幕会怎样?

之前发过一篇AppInventor2官方翻译文档,建议一个项目不要超过10个屏幕,详见: App Inventor 2 构建多屏幕App的最佳实践 App Inventor 可以轻松地向应用程序添加更多屏幕,但最好也不要添加太多屏幕,因为多个屏幕的应用…

U盘数据恢复全攻略:从原理到实践

一、引言:为何U盘数据恢复至关重要 在信息化时代,U盘作为便携存储设备,广泛应用于各个领域。然而,U盘数据的丢失往往给个人和企业带来极大的困扰。数据丢失的原因多种多样,可能是误删除、格式化、文件系统损坏&#x…

探索约束LLM输出JSON的应用

0、 引言 JSON(JavaScript Object Notation)因其简洁、易读和易于解析的特性,已成为全球使用最广泛的数据交换格式之一。它能够满足各种数据交换需求,特别是在构建人工智能驱动的应用程序时,工程师们经常需要将大型语…

Jenkins教程-8-上下游关联自动化测试任务构建

上一小节小节我们学习了一下Jenkins自动化测试任务发送测试结果邮件的方法,本小节我们讲解一下Jenkins上下游关联自动化测试任务的构建。 下面我们以一个真实的自动化测试场景来讲解Jenkins如何管理上下游关联任务的触发和构建,比如我们有两个jenkin任务…

基础入门篇 | YOLOv10 项目【训练】【验证】【推理】最简单教程 | YOLOv10必看 | 最新更新,直接打印 FPS,mAP50,75,95

文章目录 训练 --train.py推理 --detect.py验证 --val.py不训练,只查看模型结构/参数量/计算量 --test.pyYOLOv10 是基于 YOLOv8 项目的改进版本,目前已经被 YOLOv8 项目合并,所以两个算法使用方法完全一致~ 今天我给大家展示一种非常方便的使用过程,包含【训练】【验证】…

情绪管理篇:让七情自然流露,不过分压抑也不掺杂极端的想法即可来去自如

情绪管理篇: 人有七情,本属常理,该哭的时候哭、该笑的时候笑、该怒的时候怒、该忧的时候忧 学习圣贤之学,并非让我们像木头人一样,枯木死灰,而要让自己不要被七情所缠缚、被七情所乱心,我们的喜…

QT拖放事件之三:自定义拖放操作-利用QDrag来拖动完成数据的传输

1、运行效果 1)Qt::MoveAction 2)Qt::CopyAction 2、源码 #include "Widget.h" #include "ui_Widget.h" #include "common.h"

JDBC的概念 ,核心API的介绍 , 注册驱动介绍

第一章 JDBC 1、JDBC的概念 目标 能够掌握JDBC的概念能够理解JDBC的作用 讲解 客户端操作MySQL数据库的方式 使用第三方客户端来访问MySQL:SQLyog、Navicat 使用MySQL自带的命令行方式 通过Java来访问MySQL数据库,今天要学习的内容 如何通过Java代…

考研数学|《李林880》正确率多少算合格?

李林880题是针对考研数学三的练习题集,覆盖了考研数学三的主要知识点和题型。如果能够熟练掌握这些题目,意味着对考研数学三的知识点有了较为深入的理解和应用能力。 首先,考研数学三的总分是150分,题型包括单选题、填空题和解答…

Day5 —— 电商日志数据分析项目

项目二 _____(电商日志数据分析项目) 引言需求分析详细思路统计页面浏览量Map阶段Reduce阶段 日志的ETL操作Map阶段Reduce阶段 统计各个省份的浏览量Map阶段Reduce阶段 具体步骤统计页面浏览量日志的ETL操作统计各个省份的浏览量工具类(utils…

鸿蒙HarmonyOS服务卡片实战

引言 在现代开发中,服务卡片是不可或缺的一部分,比如音乐,天气类等应用,官网的介绍中写道:卡片让您便捷地预览服务信息,例如查看天气或日历日程等内容。您可将卡片添加到屏幕上,让这类信息触手…

拼多多面试总结

文章目录 一面自我介绍提问算法反问结果 二面提问算法反问结果 主管面主管面试准备算法题其他个人提问准备 提问数据库普通索引和覆盖索引的区别索引是什么?索引怎么加快数据库查询的?索引具体怎么实现的?以B树为例,节点放了什么&…

SOIDWORKS Electrical中统计槽满率的经验技巧

近期有一些客户咨询,为什么在SOLIDWORKS Electrical 3D 中做完3D布线工作,但是在统计线槽槽满率的时候不能正常计算。因此我们总结了以下几点经验。 一、对于SOLIDWORKS Electrical中的计算线槽率的功能,除了所使用的线槽需要满足两个条件&am…

【Unity服务器01】之【AssetBundle上传加载u3d模型】

首先打开一个项目导入一个简单的场景 导入怪物资源, AssetBundle知识点: 1.指定资源的AssetBundle属性标签 (1)找到AssetBundle属性标签 (2)A标签 代表:资源目录(决定打包之后在哪…

LDO电源模块如何快速设计布局

在现代电子设备遍布的时代,电源模块的设计与应用成为了电子工程领域中的核心议题。而LDO(低压差线性稳压器)电源模块,因其出色的线性特性和稳定性,在众多应用中备受青睐。为了满足不断增长的电子设备性能需求&#xff…

控价服务商的选择标准

品牌控价旨在对渠道进行有效管控,维护品牌自身价值以及经销商的合法权益,同时也为消费者提供稳定的购物价格。在这一过程中,不但要对线上价格进行把控,线下价格同样需要品牌投入精力去管理。就线上而言,由于链接数量众…