数据分析与知识发现 论文阅读【信息抽取】

news2025/4/5 14:18:58

文章目录

    • 基于知识蒸馏的半监督古籍实体抽取
      • 数据集
      • 模型
      • 实验结果
    • 基于大语言模型的专利命名实体识别方法研究
      • 数据集
      • 评估公式
      • 实验
    • 基于数据增强和多任务学习的突发公共卫生事件谣言识别研究
      • 数据集
      • 实验结果
    • 参考

基于知识蒸馏的半监督古籍实体抽取

image-20250402200901950

数据集

本文在有监督数据集的基础上构建了两个自标注数据集。通过采用不同组合形式的训练数据微调学生模型,并在两个测试数据集上进行评估。词典知识教师模型生成式知识教师模型获得的数据仅被用于训练阶段微调学生模型。验证集和测试集的构建,则通过从有监督数据中随机抽取样本来完成。

image-20250402145237616

  • 中国古代语料库:https://catalog.ldc.upenn.edu/LDC2017T14
  • GuNer2023:https://guner2023.pkudh.org/

下述是他们使用大模型标注的数据集:

image-20250402145357705

模型

image-20250402144905398

这个教师模型实质上做的是数据增强的工作。在句子中,把同一类的实体进行替换。

在表述中提到挑选字典长度一致的ekt 进行替换,这里的长度一致,我认为是作者不想花时间去修改label。

image-20250402144727760

他们提到了使用BIO标记,我个人认为实体抽取的BIO标记还没学过的就不用学了,因为现在是大模型生成式的时代。

实验结果

image-20250402153332871

基于大语言模型的专利命名实体识别方法研究

image-20250402153440913

数据集

image-20250402153541529

L.Chen 等[14]收集了专利领域和通用领域具有代表性的七个命名实体标注数据集

数据集构造过程:

image-20250402162653094

给每个实体的类型加入提示词,这一部分的提示词很难写。如果写的不好,反而效果还不如不写这个类型的说明信息。因为人所有理解的类型,与数据集中真实的类型情况可能会有偏差,反而导致加了类型说明的效果会下降。

评估公式

看到评估公式的一种新写法:

image-20250402154307111

实验

image-20250402154826194

看横坐标,第一个是Lora,其后都是不微调的基于示例的上下文学习。

论文原文:

在摘要层级任务上,LoRA 微调后的命名实体效果甚至低于仅使用 1 个示例的上下文学习方法;但在句子层级任务上,LoRA微调效果明显,虽然准确率

依然低于仅使用 1 个示例的上下文学习方法,但在召回率和 F1 值上获得最高得分。这表明微调指令的文本长度越长,大语言模型理解起来就越困难,高效微

调的提升效果就越小。

LoRA的微调效果不如提示学习,我猜测这是因为他们的微调的效果不好。(我感觉问题出在他们的LoRA微调上。根据我以往的LoRA微调经验,LoRA微调的效果要远远超过上下文学习)

现在的大模型,比如 deepseek-r1,由于使用到了强化学习,参杂很多上下文示例反而效果不会很好。基于示例的上下文学习,还有一个问题,会导致大模型混淆示例文本与要完成抽取的文本,我就遇到在ollama 7B的模型中,一些抽取出来的实体来自于前面的示例文本。
上下文示例的数量与样例的筛选,都是前一段时间热衷做的工作。这部分现在不是一个必须学的内容。

题外话:大模型抽取实体,我想起来在 EMNLP会议论文中,有一篇论文是这么做的:开源本地推理先推理一遍,再调用闭源模型再推理一遍。因为开源模型本地推理速度快,闭源模型的实力更强大可以起到最终把关的作用。

基于数据增强和多任务学习的突发公共卫生事件谣言识别研究

image-20250402163340403

主要看看CEDA方法是怎么做数据增强的。

image-20250402163513735

image-20250402163535593

数据集

哈尔滨工业大学社会计算与信息检索研究中心《同义词词林(扩展版)》[1]进行扩展,基于扩展同义词表进行同义词替换。

对CHECKED数据集[2]和腾讯事实核查平台[3]中的1062条突发公共卫生事件谣言文本进行主题、词频和权重分析。

  • [1] https://www.ltp-cloud.com/download
  • [2] https://github.com/cyang03/CHECKED
  • [3] https://vp.fact.qq.com/home

image-20250402164834964

CEDA 数据增强示例:

image-20250402163940127

实验结果

在数据增强的过程中,他们分别对每一种数据增强的方法都做了实验。

图2 探索了不同的文本改变率,对F1值的影响。

image-20250402164408160

表8 基于图2每种方法最佳的文本改变率进行的实验评估。

image-20250402164233051

参考

  • 论文下载自 中国知网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2328627.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Compose组件转换XML布局

文章目录 学习JetPack Compose资源前言:预览界面的实现Compose组件的布局管理一、Row和Colum组件(LinearLayout)LinearLayout(垂直方向 → Column)LinearLayout(水平方向 → Row) 二、相对布局 …

Linux开发工具——vim

📝前言: 上篇文章我们讲了Linux开发工具——apt,这篇文章我们来讲讲Linux开发工具——vim 🎬个人简介:努力学习ing 📋个人专栏:Linux 🎀CSDN主页 愚润求学 🌄其他专栏&a…

Vue3学习二

认识组件的嵌套 还可以将Main中内容再划分 scoped防止组件与组件之间的样式相互污染 组件的通信 父子组件之间通信的方式 父组件传递给子组件 给传过来的内容做限制 type为传的内容的属性类型,required为true表示该内容是必须传的,default为&#xff0c…

[ deepseek 指令篇章 ]300个领域和赛道喂饭级deepseek指令

🍬 博主介绍 👨‍🎓 博主介绍:大家好,我是 _PowerShell ,很高兴认识大家~ ✨主攻领域:【渗透领域】【数据通信】 【通讯安全】 【web安全】【面试分析】 🎉点赞➕评论➕收藏 养成习…

2024第十五届蓝桥杯大赛软件赛省赛C/C++ 大学 B 组

记录刷题的过程、感悟、题解。 希望能帮到,那些与我一同前行的,来自远方的朋友😉 大纲: 1、握手问题-(解析)-简单组合问题(别人叫她 鸽巢定理)😇,感觉叫高级了…

C++ | C++11知识点

前言: 本篇内容讲述了C11中比较重要的内容为:右值引用、可变参数模板、lambda表达式和包装器。 ps:包装器博主在另一篇文章讲述的,本篇文章包装器板块为原文链接。 C11知识点目录 花括号初始化自定义类型的花括号初始化内…

LeetCode 1123.最深叶节点的最近公共祖先 题解

昨天写了三题,今天目前为止写了一题,玩了会游戏稍微休息了下 先来理解一下今天的题目,今天的题目类型是递归遍历找最深位置,先通过几个样例了解一下 输入:root [3,5,1,6,2,0,8,null,null,7,4] 输出:[2,7,…

工具介绍 | SafeLLMDeploy教程来了 保护本地LLM安全部署

SafeLLMDeploy:保护本地大语言模型安全部署的“守护者” 在AI技术飞速发展的今天,大语言模型(LLM)如GPT、DeepSeek等正以前所未有的方式改变着我们的工作和生活。然而,本地部署这些强大的AI系统在带来便利的同时&…

机器学习-04-分类算法-03KNN算法案例

实验名称 K近邻算法实现葡萄酒分类 实验目的 通过未知品种的拥有13种成分的葡萄酒,应用KNN分类算法,完成葡萄酒分类; 熟悉K近邻算法应用的一般过程; 通过合理选择K值从而提高分类得到正确率; 实验背景 本例实验…

Java 搭建 MC 1.18.2 Forge 开发环境

推荐使用 IDEA 插件 Minecraft Development 进行创建项目 创建完成后即可进行 MOD 开发。 但是关于 1.18.2 的开发教程太少,因此自己研究了一套写法,写法并非是最优的但是是探索开发MOD中的一次笔记和记录 GITHUB: https://github.com/zimoyin/zhenfa…

计算机网络知识点汇总与复习——(三)数据链路层

Preface 计算机网络是考研408基础综合中的一门课程,它的重要性不言而喻。然而,计算机网络的知识体系庞大且复杂,各类概念、协议和技术相互关联,让人在学习时容易迷失方向。在进行复习时,面对庞杂的的知识点&#xff0c…

主机和虚拟机间的网络通信

参考:Vmware虚拟机三种网络模式详解 - 林加欣 - 博客园 (cnblogs.com) 虚拟机配置 一般额外配置有线和无线网络 桥接模式 虚拟机和主机之间是同一个网络,用一根线连接了虚拟机和物理机的网卡,可以选择桥接的位置,默认情况下是自动桥接&…

嵌入式Linux开发环境搭建,三种方式:虚拟机、物理机、WSL

目录 总结写前面一、Linux虚拟机1 安装VMware、ubuntu18.042 换源3 改中文4 中文输入法5 永不息屏6 设置 root 密码7 安装 terminator8 安装 htop(升级版top)9 安装 Vim10 静态IP-虚拟机ubuntu11 安装 ssh12 安装 MobaXterm (SSH)…

说清楚单元测试

在团队中推行单元测试的时候,总是会被成员问一些问题: 这种测试无法测试数据库的SQL(或者是ORM)是否执行正确?这种测试好像没什么作用?关联的对象要怎么处理呢?…借由本篇,来全面看一看单元测试。 单元测试是软件开发中一种重要的测试方法,其核心目的是验证代码的最小…

电商---part02 项目环境准备

1.虚拟机环境 可以通过VMWare来安装,但是通过VMWare安装大家经常会碰到网络ip连接问题,为了减少额外的环境因素影响,Docker内容会通过VirtualBox结合Vagrant来安装虚拟机。 VirtualBox官网:https://www.virtualbox.org/ Vagran…

LabVIEW提升程序响应速度

LabVIEW 程序在不同计算机上的响应速度可能存在较大差异,这通常由两方面因素决定:计算机硬件性能和程序本身的优化程度。本文将分别从硬件配置对程序运行的影响以及代码优化方法进行详细分析,帮助提升 LabVIEW 程序的执行效率。 一、计算机硬…

工业领域网络安全技术发展路径洞察报告发布 | FreeBuf咨询

工业网络安全已成为国家安全、经济稳定和社会运行的重要基石。随着工业互联网、智能制造和关键基础设施的数字化升级,工业系统的复杂性和互联性显著提升,针对工业领域的网络攻击朝着目标多样化、勒索攻击产业化、攻击技术持续升级的方向发展,…

WPF 登录页面

效果 项目结构 LoginWindow.xaml <Window x:Class"PrismWpfApp.Views.LoginWindow"xmlns"http://schemas.microsoft.com/winfx/2006/xaml/presentation"xmlns:x"http://schemas.microsoft.com/winfx/2006/xaml"xmlns:d"http://schemas.…

【数学建模】动态规划算法(Dynamic Programming,简称DP)详解与应用

动态规划算法详解与应用 文章目录 动态规划算法详解与应用引言动态规划的基本概念动态规划的设计步骤经典动态规划问题1. 斐波那契数列2. 背包问题3. 最长公共子序列(LCS) 动态规划的优化技巧动态规划的应用领域总结 引言 动态规划(Dynamic Programming&#xff0c;简称DP)是一…

leetcode-代码随想录-链表-移除链表元素

题目 链接&#xff1a;203. 移除链表元素 - 力扣&#xff08;LeetCode&#xff09; 给你一个链表的头节点 head 和一个整数 val &#xff0c;请你删除链表中所有满足 Node.val val 的节点&#xff0c;并返回 新的头节点 。 输入&#xff1a;head [1,2,6,3,4,5,6], val 6 …