20230530论文整理·1-课题组1

news2025/1/11 22:59:07

个人观点,现在的NLP文章,有些是在做积木,微创新,有些文章,是可以的,读起来很美,有些,太过逆了,吃起来没味道,反胃。

文章目录

  • 1.CODEIE: Large Code Generation Models are Better Few-Shot Information Extractors
  • PromptNER: A Prompting Method for Few-shot Named Entity Recognition via k Nearest Neighbor Search
  • Improving Contrastive Learning of Sentence Embeddings from AI Feedback
  • Word-Level Representation From Bytes For Language Modeling
  • SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking

1.CODEIE: Large Code Generation Models are Better Few-Shot Information Extractors

传统在解决知识抽取问题时,是把任务建模为text2text问题,比如使用GPT、bart、bert 等等模型。
这篇文章是认为: 代码形式的知识抽取效果优于text2text形式
模型对比图如下:
在这里插入图片描述
文章task: NER & RE and transform the task format as code generation format
用字典形式表示两个task的output,比如ner:{“text”: “Steve”, “type”: “person”}
RE:{“rel_type”: “work for”,
“ent1_type”: “person”, “ent1_text”: “Steve”,
“Steve”: “person” “Apple”: “organization” “ent2_type”: “organization”, “ent2_text”: “Apple”}

在这里插入图片描述
实验对比 在实验对比中,一个是采用open AI的code-davinci-002,一个是采用text-davinci-002
在这里插入图片描述
code prompts consistently outperform text prompts
在 error analyse中,一个是生成文本的structure ,一个是生成文本的semantic fidelity。前者是指output的形式不对,后者是指output中语义不对,比如预定义实体类型中不存在的实体类型。

在这里插入图片描述
在这里插入图片描述

PromptNER: A Prompting Method for Few-shot Named Entity Recognition via k Nearest Neighbor Search

在之前解决few-shot NER 问题时,是通过构建原型学习的方式。
Most of prototypical networks will utilize the entities from the support set to construct label prototypes and use the query set to compute span-level similarities and optimize these label prototype representations.

文中的few-shot NER 任务,是使用query中的relation type计算span-level similarity 然后优化label的prototypes

在这里插入图片描述
模型结构:
在training stage:

在预测实体span上,training 阶段是通过 Biaffine deooder 和prompt based 阶段完成的。

在这里插入图片描述

第一个baiffine decoder 使用ROPE编码,满足Ri^T Rj = Rj−i
在这里插入图片描述
第二个 classification with prompt
首先得到s-e的语义表示,是取的这些tokens的hidden state得到的representation
然后计算概率和损失函数:在这里插入图片描述

最后,在train 阶段的所有损失函数是:在这里插入图片描述
在inference stage: via KNN search

在这里插入图片描述
inference 阶段最终的prediction label of span是:
在这里插入图片描述

Improving Contrastive Learning of Sentence Embeddings from AI Feedback

使用大语言模型的feedback,构建pairs,用于模型训练。
a two-step sample pair generation method

在第一步,我们用不同的屏蔽率屏蔽句子中的一些词,然后用GPT-3根据被屏蔽句子中的剩余信息生成新的句子。然后,我们将生成的句子和原始句子结合起来,构建句子对。通过这种方式,我们可以利用屏蔽率来控制句对中两个句子的共享信息量,这将产生具有不同语义相似性的句对。
在第二步,我们利用GPT-3来生成句对的语义相似度分数。这些分数是AI对样本相似度的反馈。这些分数是AI对样本相似性的反馈。由于重建一个被掩盖的句子所引起的语义变化很难衡量,我们利用LLM的语言知识来生成语义相似度分数。第一步中的句子对生成过程确保了人工智能反馈相似性分数的多样性。
最后,我们使用我们生成的样本对和相似性分数来训练句子嵌入的模型。

在这里插入图片描述
文章对比了几种不同的feedback方式:
在这里插入图片描述

Word-Level Representation From Bytes For Language Modeling

子词标记化(sub-word tokenization)仍有一些缺点,如对噪音不稳定,难以推广到新的语言上。

我们通过引入交叉注意力网络,直接从字节中建立词级表示,以及基于词级隐藏状态的子词级预测来避免词级预测的时间和空间要求,从而彻底改变了这种方法.(introducing a cross-attention network that builds word-level representation directly from bytes, and a sub-word level prediction based on word-level hidden states to avoid the time and space requirement of word level prediction)
Byte2Word 的embedding size只占了10%

字节(Byte)是计量单位,表示数据量多少,是计算机信息技术用于计量存储容量的一种计量单位,通常情况下一字节等于八位。
字符(Character)计算机中使用的字母、数字、字和符号,比如'A''B''$''&'等。
一般在英文状态下一个字母或字符占用一个字节,一个汉字用两个字节表示。

整体流程:
在这里插入图片描述
实验结果-在不同的噪声情况下:
在这里插入图片描述
实验结果-在不同的翻译语言下:
在这里插入图片描述
实验结果-在不同的embedding size情况下:
在这里插入图片描述

SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking

中文拼写检查模型。
中文中容易出现的两种错误:语音和字形错误

在这里插入图片描述
主要模型:
在图的左侧和右侧,分别是wrong和right sentences。
训练阶段使用的对比学习。
MacBERT (Cui et al., 2020) as a strong backbone to extract the semantic features of X and then use dot products with the word embedding W to output the character distribution
在这里插入图片描述

第一个loss:
在这里插入图片描述
在这里插入图片描述

第二个loss:(对比学习损失函数,constractive Loss)
the batch as negative samples
最小化Lc的目的是使被破坏的token的隐藏状态与它们的正确对应部分相似。
在这里插入图片描述

第三个Loss (针对teacher bert,使用cross-entropy loss 保证结果准确):

add a cross-entropy loss for the teacher BERT to repeat the inputs.
在这里插入图片描述

实验-预训练语言模型的各项异性变化
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/590411.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【.NET AI Books】问题分类和技能使用大全

第一章 问题分类 我会把问题设定放在首位,也就是我们的第一章。毕竟所有生成式的 AI 都是需要基于问题给出答案。所以我一直不认同人工智能会取代人类,没有人类哪来问题呢? ChatGPT 的神奇之处在于它可以根据你的问题去完成不同的工作&…

【Python实战】Python采集C站热榜数据

前言 大家好,我们今天来爬取c站的热搜榜,把其文章名称,链接和作者获取下来,我们保存到本地,我们通过测试,发现其实很简单,我们只要简单获取数据就可以。没有加密的东西。 效果如下: 环境使用 python 3.9pycharm模块使用 requests模块介绍 requests requests是…

95后阿里P7架构师晒出工资单:狠补了这个,真香...

最近一哥们跟我聊天装逼,说他最近从阿里跳槽了,我问他跳出来拿了多少?哥们表示很得意,说跳槽到新公司一个月后发了工资,月入5万多,表示很满足!这样的高薪资着实让人羡慕,我猜这是税后…

阿里云的消息队列(MQ)服务如何帮助解决应用程序中的消息传递问题?

阿里云的消息队列(MQ)服务如何帮助解决应用程序中的消息传递问题?   [本文由阿里云代理商[聚搜云www.4526.cn]撰写]   随着企业应用程序的复杂性不断增加,消息传递在系统间的通信与协作中扮演着越来越重要的角色。本文将探讨阿里云的消息队列&#x…

Vue-组件的嵌套

组件的嵌套 组件的嵌套也是开发中比较常见的方式 一个大组件里面有多个小组件,大组件一般称为父组件,小组件称为子组件 1 编写案例 首先定义一个school组件 提出新的需求:现在我想在school里面定义一个子组件(student)出现 首先创建student组件&…

uni-app扩展组件(uni-ui)

目录 数字角标(uni-badge) 代码示例: 面包屑(uni-breadcrumb) 代码示例: 日历 代码示例 卡片(uni-card) 代码示例 倒计时(uni-countdown) 更多内容请访问官网 数字角标(uni-badge) 数字角标一般和其它控件(列表、9宫格等&#xff0…

网络编程--多线程服务器客户端

写在前面 此前的回声服务器/客户端都是在主线程中阻塞交互,本文将使用多线程方式实现服务器/客户端。 互斥量相关接口 使用多线程,自然避免不了线程同步问题。 因本文使用互斥量实现线程同步,因此仅介绍互斥量相关接口,其他实…

【MySQL高级篇笔记-索引的数据结构 (中) 】

此笔记为尚硅谷MySQL高级篇部分内容 目录 一、索引及其优缺点 1、索引概述 2、优点 3、缺点 二、InnoDB中索引的推演 1、设计索引 1.一个简单的索引设计方案 2.InnoDB中的索引方案 2、常见索引概念 1. 聚簇索引 2. 二级索引(辅助索引、非聚簇索引&#…

Java阶段三Day06

Java阶段三Day06 文章目录 Java阶段三Day06同步请求和异步请求案例演示创建SpringBoot工程application.propertiesUserControllerUserMapper静态页面 JSONSpring Security引入SpringSecurity框架对项目的影响关于SpringSecurity的配置默认登录表单设置白名单模拟登录使用自己的…

用pycharm来下载super-grandients 出现的错误

主要用来记录我用pycharm来下载super-grandients的一些错误 文章目录 1、UserWarning: Distutils was imported before Setuptools.1、distutils 2、pycharm的虚拟环境安装的包在c盘3、虚拟内存不够 1、UserWarning: Distutils was imported before Setuptools. UserWarning: …

系统集成项目管理工程师(系统集成基础知识)

第一章信息化知识 一、信息的概述 1、信息(information)是客观事物状态和运动特征的一种普遍形式;事物的本体论信息,就是事物的运动状态和状态变化方式的自我表述。 二、信息的传递 2、信息技术主要为解决信息的采集、加工、存储、传输、处理、计算、…

设计模式之~适配器模式

描述: adapter将一个类的接口转换成客户希望的另外一个接口。adapter模式使得原本由于接口不兼容而不能一起工作的类可以一起工作。 在软件开发中,当系统的数据和行为都正确,但接口不符时,我们应该考虑使用适配器,目的…

Node.js详解(二):Node.js与JS的关系

一、简介 Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境,是一个让 JavaScript 运行在服务端的开发平台,它让 JavaScript 成为与PHP、Python、Perl、Ruby 等服务端语言平起平坐的脚本语言。 JavaScript一种直译式脚本语言,是一种…

NMS非极大值抑制

文章目录 一、NMS详解二、NMS具体步骤与实现1.步骤2、代码(pytorch版本) 一、NMS详解 NMS即非极大值抑制,常被用于目标检测等,即只保留检测同一物体置信度最大的框。 具体作用可以看图: 可以看出,未经过nms的图片,有…

基于Freertos的ESP-IDF开发——8.使用wifi访问HTTP服务器

目录 0. 前言其他ESP-IDF文章 1. 前期准备1.1头文件准备1.2 http 服务器搭建 2. 连接 wifi3.http访问任务4. 完整代码 0. 前言 使用ESP32使用 wifi 访问 http 服务器 开发环境:ESP-IDF 4.2 操作系统:Ubuntu22.04 开发板:自制的ESP32-WROOM-…

流行框架(二)网络请求库 OKhttp

文章目录 概述HttpURLConnectionGET和POST获取文本数据GETPOST OKHttp基本使用依赖与权限发起一个get请求重要概念OkHttpClientRequestCallRealCallAsyncCall 请求调度器Dispatcher同步请求execute的执行异步请求enqueue的执行两种请求方式的总结 OkHttp拦截器链拦截器种类addI…

字节狂问1小时,小伙offer到手,太狠了!(字节面试真题)

前言: 在尼恩的(50)读者社群中,经常有小伙伴,需要面试 头条、美团、阿里、京东等大厂。 下面是一个小伙伴成功拿到字节飞书offer,通过一小时拷问的面试经历,就两个字: 深&#xf…

基于STM32的SYN6288语音播报模块驱动实验(代码开源)

前言:本文为手把手教学 SYN6288 语音播报模块的驱动实验,本教程的 MCU 采用STM32F103ZET6。通过 CubeMX 软件配置 UART 串口协议驱 SYN6288 模块进行规定的语音播报。考虑到 SYN6288 模块的集成化与智能化很高,所以该模块的使用是极其便利的。…

【HarmonyOS】初识低代码平台开发元服务

【关键字】 HarmonyOS、低代码平台、元服务开发、拖拽式开发 【写在前面】 今天要分享的是HarmonyOS中的低代码开发相关的内容,低代码开发是DevEco Studio提供的一种UI界面可视化的构建方式,通过图形化的自由拖拽数据的参数化配置,可以快速…

【Java项目】基于SpringBoot+Vue的校园二手商品交易平台

文章目录 功能简述功能展示用户模块购物车模块管理员模块物物对价功能实现 代码 视频演示 代码下载 项目内含有 功能简述 系统登录界面的实现 系统首页界面的实现 用户信息管理界面的实现 商品购物功能的实现 购物车管理功能及支付功能的实现 物物对价功能的实现 用户安全设置…