【论文阅读】聚集多个启发式信号作为监督用于无监督作文自动评分

news2025/1/16 12:58:05

摘要

  • 本文提出一个新的无监督的AES方法ULRA,它不需要真实的作文分数标签进行训练;
  • ULRA的核心思想是使用多个启发式的质量信号作为伪标准答案,然后通过学习这些质量信号的聚合来训练神经自动评分模型。
  • 为了将这些不一致的质量信号聚合为一个统一的监督信号,我们将自动评分任务视为一个排序问题,并设计了一种特殊的深度成对排名聚合(DPRA)损失函数进行训练。
  • 在DPRA损失中,我们为每个信号设置了一个可学习的置信权重来解决信号间的冲突,并且以成对的方式训练神经AES模型以解开部分排序对之间的级联效应。

方法

  • 我们的ULRA框架包括两个阶段:模型训练和模型推理。
    在这里插入图片描述
  • 模型训练阶段,ULRA框架包含两个模块: 1)启发式作文排序模块:根据启发式质量信号产生排序对;2)深度成对排序聚合模块:聚合来自多个质量型号的排序对,到一个统一的监督中。
  • 模型推理阶段,考虑到神经AES模型预测的作文分数可能和预定义的分数集合有不同的分数,我们提出了一个评分策略来转换被神经AES模型预测的分数到预训练的分数集合的范围。

启发式作文排序

  • 多个经典的质量信号被引入从不同的方面描述作文的质量;每个质量信号的值可以之后被用来排序文章和产生一个排序列表。
  • 质量信号:surface、preposition、readability
  • 作文排序:与基于质量信号来对一篇作文评分外,比较他们的质量信号来评价两篇文章的相对质量更容易。所以,对于每个质量信号,我们只通过排序保留作文间的部分有序的关系信息。
  • 排序对生成:考虑到在每个排序列表中,只有部分的有序信息是正确的,本文把每个排序列表转换成一个集合的部分有序的排序对,从而使得不正确的部分有序对能够被其他排序列表纠正。

深度成对排序聚合

  • 本文设计了一个深度成对的排序聚合损失,它为每个信号设置了一个可学习的置信权重来度量每个信号的重要度。
  • 神经AES模型:包括作文编码器和全连接层。
  • 置信权重(confidence weight):度量哪个排序对更加可靠。可学习的参数 η k \eta _k ηk可以被定义为在第 k k k个排序列表中的部分有序的信息和真实的分数排序的吻合的概率或程度。

实验

数据集

  • ASAP数据集,总共12978篇作文,8个主题。
    在这里插入图片描述

实现细节

  • 质量信号设置:总共用了20个质量信号。分为以下三类:
    • 浅层信号(Surface Signals): character number (CH), word number (W), commas number (CO), and number of unique words (UW);
    • 介词信号(Preposition Signals):number of noun-plural words (NNP), number of determiner words (DT), number of noun-singular words (NN), number of adverb words (RB), number of adjective words(JJ), and number of preposition/subordinatingconjunction words (IN);
    • 可读性信号(Readability Signals):Gunning Fog (GF) index, SMOG index, RIX, Dale-Chall (DC) index, wordtype number (WT), sentence number (S), number of longwords (LW), number of complex words (CW), number of non-basic words (NBW), and number of difficult words (DW).

在这里插入图片描述

  • 数据集设置:
    • 对于直推式设置(transductive):模型在整个无标签数据集上训练,并在整个数据集上进行测试,也就是说测试作文在训练时都被看到。
    • 对于归纳式设置(inductive):整个无标签的数据集被分为训练集、验证集和测试集(6:2:2),也就是说测试作文在训练时并没有被看到。由于是无监督的设置,验证集并没有作用,所以被舍弃。

比较的方法

  • 主要和之前的无监督AES方法进行比较:Signal Clustering (Chen et al., 2010) and Signal Regression (Zhang and Litman, 2021).
  • 4个变种(variants):(1) averaged signal as supervision, (2) averaged output as prediction, (3) aggregated signal as supervision, and (4) aggregated output as prediction.
  • 也列举了两个额外的基线:分别取20个质量信号的最小和最大值作为预测分数。

性能比较

在这里插入图片描述
在这里插入图片描述

  • 我们可以发现ULRA超过了所有的无监督方法,并且提升很大,在直推式的设置下取得了0.615的QWK,在归纳式的设置下取得了0.614的QWK。这显示出ULRA能够在可见和不可见的作文集上都表现良好。
  • 和跨主题以及单样本的方法比较,我们可以发现ULRA实现了可与之比肩的性能,只比跨主题低了0.047,比单样本低了0.073。通过观察通用的有监督方法,我们可以发现,由于缺乏强有力的监督,ULRA的性能仍然比它们低很多。

消融实验

在这里插入图片描述

  • 我们首先学习了置信权重 η k \eta_k ηk 和神经网络对性能的影响。
    • 把可学习的参数 η k \eta_k ηk 固定为1,性能下降很多。显示出可学习的参数 η k \eta_k ηk 可以处理不一致的信号之间的冲突。
    • 当使用非预训练的编码器,或者直接设置作文的分数为可学习的参数时,性能也下降很多。显示了一个好的作文编码器能够充分利用作文的文本信息来提升评分性能。

模型分析

在这里插入图片描述

  • 更多无标签作文的影响:调整训练的作文的比例从0.2到1.0,曲线先增加,之后在比例为0.6后保持平稳。它显示了大约60%的无标签作文就足够训练一个好的ULRA模型。
  • 更多训练对的影响:调整batch size的大小从2到32,以使得一个batch中的训练对的数量能相应得从1增加到496。可以发现所有的线都展示出向上的趋势。它展示出更多数量的训练对能够带来更好的性能。
  • 弱信号的影响:弱信号是那些和真实分数具有较弱相关性的信号。从图中可以看到几乎所有的线都呈现出整体的下降趋势。它表明弱监督会弱化监督以及减损模型性能。

在这里插入图片描述

  • 更多信号的影响:基于最好的N个质量信号和最差的N个质量信号。通过调整N从1到10,可以发现所有的best-N和所有的worst-N展示了向上的趋势。它显示出更多的信号能够带来更好的性能。
    在这里插入图片描述
  • 置信权重的影响:计算学习到的置信权重和对应的QWK的斯皮尔曼相关系数。可以发现两者是高度相关的。显示出学习到的置信权重确实能够反映质量信号的confidence。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/769343.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

springboot 多数据源配置

1.引入相关pom文件 <!-- spring boot 启动 --><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter</artifactId><exclusions><exclusion><artifactId>log4j-api</artifactId&…

7.5Java EE——Bean的装配方式

一、基于XML的装配 两种基于XML的装配方式 在基于XML的装配就是读取XML配置文件中的信息完成依赖注入&#xff0c;Spring容器提供了两种基于XML的装配方式&#xff0c;属性setter方法注入和构造方法注入。下面分别对这两种装配方式进行介绍。 a.属性setter方法注入 属性sett…

Vuex 数据共享

文章目录 前言Vuex项目的创建state 配置项getters 配置项mutations 配置项actions 配置项 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 体现数据共享的概念 所有组件都可以使用那数据 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可…

时序数据库 TDengine 与金山云两大产品完成兼容互认证

万物互联时代&#xff0c;企业数字化转型和政企上云如火如荼。在云计算迎来重大发展机遇的同时&#xff0c;数据库在企业数字化转型中也扮演着重要的角色——随着业务量的激增&#xff0c;数据库的弹性扩容、容灾备份等需求逐渐显现&#xff0c;在此挑战下&#xff0c;时序数据…

前端学习记录~2023.7.17~CSS杂记 Day9

前言一、浮动1、使盒子浮动起来2、清除浮动3、清除浮动元素周围的盒子&#xff08;1&#xff09;clearfix 小技巧&#xff08;2&#xff09;使用 overflow&#xff08;3&#xff09;display: flow-root 二、定位1、定位有哪些2、top、bottom、left 和 right3、定位上下文4、介绍…

jupyter notebook更换虚拟环境(内核)

jupyter notebook更换虚拟环境&#xff08;内核&#xff09; 创建一个新的虚拟环境 # stk_env 虚拟环境的名字&#xff0c;任取。 conda create -n stkenv python3.9激活虚拟环境 conda activate stkenv安装ipykernel # 为该虚拟环境&#xff0c;安装内核。 conda install -c a…

rabbitmq模块启动报java.net.SocketException: socket closed的解决方法

问题 最近在接手一个项目时&#xff0c;使用的是spring-cloud微服务构架&#xff0c;mq消息消费模块是单独一个模块&#xff0c;但启动这个模块一直报如下错误&#xff1a; java.net.SocketException: socket closed 这个错误是这个模块注册不到nacos报的错&#xff0c;刚开…

FCOS 论文学习

1. 解决了什么问题&#xff1f; 之前的目标检测器如 RetinaNet、SSD、YOLOv3 都依赖于 anchors。基于 anchors 的检测器有如下三个缺点&#xff1a; 检测表现对于 anchors 的大小、宽高比和数量等超参数很敏感&#xff1b;即使精心设计了 anchors&#xff0c;但由于大小和宽高…

架构训练营学习笔记:4-2 存储架构模式之复制架构

高可用的关键指标 问题&#xff1a;分为故障跟灾难。不是有了多活架构就不在用复制架构 &#xff0c;还是之前的合适原则&#xff1a;多活架构的技术复杂度 跟成本都比复制架构高。 高可用的关键指标 恢复时间目标(RecoveryTimeObjective&#xff0c;RTO)指为避免在灾难发生后…

rabbitmq部署(docker方式)

前言&#xff1a;rabbitmq一旦有漏洞&#xff0c;版本升级麻烦&#xff0c;于是改为docker部署 环境&#xff1a;centos7 #停掉之前的服务 systemctl stop rabbitmq-server systemctl disable rabbitmq-server 查了官网&#xff0c;当前3.11.x 最高版本是3.11.19, 虽然3.12…

【开源分享】在线客服系统源代码-thinphp网站在线客服系统源码(附源码完整搭建教程)...

本文的核心是一个多国语言在线客服聊天系统源码。我们将在这里保持非常简单。 这是一款旧版本的PHP客服源码。 基于ThinkPHP5 workerman&#xff0c;整体架构比较老&#xff0c;PHP客服端以及界面等需要在php-fpm下运行&#xff0c;即时通讯websocket服务端需要命令行执行。 源…

N-gram模型学习

网上有很多比较细节比较复杂比较清晰的介绍&#xff0c;我这里就不再细细的描述了&#xff0c;之前看文献的时候看到了这个模型&#xff0c;脑子里又没有印象&#xff0c;结果发现是python的学习范畴。 总的来说&#xff0c;这是一种文字&#xff0c;甚至可以上升到符号关联性…

基于Python的工业图像异常检测基础技术详解

引言 博文字数7000&#xff0c;建议阅读时间20分钟。 这篇博客对当前几种典型的图像异常检测算法进行了比较&#xff0c;包括Kmeans、Kmeans以及大津法&#xff08;OTSU&#xff09;&#xff0c;并给出了相关的代码实现与测试方法。总结的比较结果如下表所示&#xff1a; 方…

cocosCreator 3.6以上接入腾迅Bugly 捕捉JS错误 Android

cocosCreator3.6以上接入Bugly上报其实很简单&#xff0c;不需要网上那么多弯弯绕&#xff0c;三须三步走。 1. 按照官网方式接入android的bugly 2. android端写一个Bugly上报管理类 3. 修改你工程目录下native\engine\common\Classes\目录下的Game.h, Game.cpp两个文件&…

发电厂主厂房智能照明控制系统的设计和应用

摘要&#xff1a;当前&#xff0c;电厂主厂房的照明规模较大&#xff0c;而且具有许多回路&#xff0c;增加了电厂照明负荷&#xff0c;导致照明过程中的能源消耗较高。对此&#xff0c;电厂需要合理设计智能照明系统&#xff0c;运用智能技术提高电厂照明的运行管理水平&#…

如何在化工行业运用IPD?

化工行业作为国民经济的重要基础性行业&#xff0c;包含数以万计的产品种类&#xff0c;各具有不同的物理化学特性。化工产品的消费同国民经济状况联系非常紧密&#xff0c;主要去向广泛分布于基建、房地产、农业、汽车、服装等国民经济各个领域。按应用领域划分&#xff0c;典…

PCA与SVD

PCA流程&#xff1a; 当数据维度大时&#xff0c;构建协方差矩阵并求其特征值、特征向量会导致计算量大。所以可以利用SVD求解。 PCA算法的优化目标就是: ①降维后同一维度的方差最大。 ②不同维度之间的相关性为0。 根据线性代数&#xff0c;我们可以知道同一元素的协方差就…

Django项目开发快速入门

Django项目开发快速入门 生成Django项目编写module后台管理系统admin自定义管理页面视图函数使用Django模板 生成Django项目 现在cmd中使用命令安装Django框架 pip install django3.2使用命令生成项目 django-admin startproject DjStore使用命令生成应用 python .\manage.…

管道模型--Asp.Net MVC篇 Http请求

管道模型–Asp.Net MVC篇 Http请求 我们自己写的程序,是怎样进行处理的?一个完整的HTTP请求流程: 一. 请求大致流程 拿一个实例了解整个流程的步骤: 用户浏览器输入地址 例如 http://www.csdn.net DNS解析(域名供应商) 将输入的网址解析成IP+端口 请求到达服务器Server I…

ChatGPT的应用场景和局限性,以及发展前景

目录 导语 ChatGPT的应用场景 ChatGPT的局限性 ChatGPT的发展前景 总结 导语 作为一款基于人工智能的自然语言处理(NLP)​​聊天机器人​​程序&#xff0c;ChatGPT通过大量来自互联网的文本进行训练&#xff0c;并使用深度学习和机器学习算法来理解用户的问题并提供回答。…