【论文阅读】面向抽取和理解基于Transformer的自动作文评分模型的隐式评价标准(实验结果部分)

news2024/9/29 5:35:57

方法

在这里插入图片描述

结果

在这一部分,我们展示对于每个模型比较的聚合的统计分析当涉及到计算特征和独立的特征组(表格1),抽取功能组和对齐重要功能组(表格2),并且最后,我们提供从模型比较(LANGUAGE模型v.s.MAIN IDEA模型)中获取的样例。由于长度限制,我们只展示了这个比较的细节样例。相似的图片和相关性分析展示在Github上。

1.独立特征组

  • 因为每个训练好的模型都从他们的训练集合中留出一个不同集合的主题,分析集中相同的主题需要被识别出来,并且那么,抽取的特征的数量和导致的独立特征组在每个模型比较中不同。
    在这里插入图片描述
  • 为每个模型比较计算独立的特征组(表格1),对所有的比较,都产生了在原先70%和77%之间的抽取的特征,除了LANGUAGE V SUPPORT,和原先的特征相比只产生了57%独立特征组;不同比较之间所对齐的特征组类型差异很大。

2.功能组件组

  • 每个模型的初始功能组件提取引发了28到119个功能组件的数量。表格1和2展示了对于一个给定的模型,更少的功能组件被抽取,如果在分析数据集中有更少的样例。
    在这里插入图片描述

  • 除去这一噪声,一个清晰的模型出现,也就是ORGANIZATION模型有最多的功能组件,其次是LANGUAGE模型。MAIN IDEA模型有着更少的功能组件,SUPPORT模型的最少。

  • 当执行降维操作来计算功能组的时候,功能组件的总数减少到了大约61-71%左右。

3.重要功能组

  • 重要功能组有至少一个足够的对一个特征组的对齐。
  • 作为重要功能组的一个视觉辅助,可以看图2和3的左侧。
    在这里插入图片描述

4.功能组的对齐

  • 对于所有的模型比较的对齐的发现的整个部分可能太大量而不能以一个会议论文的形式进行展示。但是我们可以展示在我们的分析中发现的主要的趋势。
  • 第一个主要的趋势是所有模型都具有与文章的统计特征相关的功能组。此外,通过计算该类型内部特征之间的相关性,可以确定段落数量可能是最显著的贡献因素。
  • 第二个趋势的集合被展示在表4中,在表中,每个模型的总共的对齐的特征组的占比被计算。
    在这里插入图片描述
  • 这一结果揭示了:ORGANIZATION模型,比较其他模型,相对更加对齐基于RST的特征;同时,MAIN IDEA模型有最小的占比。LANGUAGE模型最对齐词列表特征,它是算法生成的和人工创建的词列表特征的结合。
  • 对于最后一个百分比,我们结合了主题和人口统计的特征,发现SUPPORT模型趋向于最少对齐这类特征。

5.定性分析

  • 尽管我们展示的方法能够很快得增强一个人对于一个模型的理解,直接从黑箱神经网络到对齐的特征组,理解什么函数/功能一个儿子组表示是更加困难的。所以,解决一个特征组表示什么函数/功能,来形成一个强的陈述解释模型在做什么是必要的。
  • 比如说,我们发现很多模型和包含人口统计特征的特征组是连接的(在图2和3中被标红)。然而,对包含主题的数据集进行定性分析时,我们发现,在控制作文长度时,不同学校的主题分布存在差异,某些学校(带有其人口统计特征)是特定主题的唯一来源。因此,许多这些特征组很可能更多地基于主题,而不是潜在的更为问题复杂的基于人口统计的特征组。

6.讨论

  • 我们进一个深入分析结果,强调在功能组和他们与作文特征的相关性的对齐中的主要趋势。
  • 值得注意的是,LANGUAGE V SUPPORT对比出现作为一个异常点在我们的各个分析中。这个差异很有可能是因为相对而言更少的文章被两个模型的分析集所共享,这可能导致一个具有更多噪声的分析,并且暴露了方法的一个局限性。
  • 在非ORGANIZATION模型中,几乎没有或根本没有独特存在于ORGANIZATION模型中的功能组。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1077885.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【前端工程化】配置React+ts企业级代码规范及样式格式和git提交规范

目录 前言 代码规范技术栈 创建react18vite2ts项目 editorconfig统一编辑器配置 prettier自动格式化代码 eslintlint-staged检测代码 使用tsc检测类型和报错 代码提交时使用husky检测代码语法规范 代码提交时使用husky检测commit备注规范 配置commitizen方便添加commi…

VMware centos7虚拟机修改静态IP

一、修改网络适配器 1、打开 2、使用管理员权限修改 3、按照图中步骤修改为 4、设置网关为10.0.0.2后保存即可 二、修改配置文件 1、输入下面代码进入修改(网卡这里网卡名字为ens33,可使用ifcfig或ip a查看) vi /etc/sysconfig/netwo…

【Java 进阶篇】CSS 选择器详解

CSS(层叠样式表)是一种用于描述网页上元素样式的语言。要想有效地使用CSS,了解CSS选择器是至关重要的,因为它们允许你选择要应用样式的HTML元素。在本文中,我们将详细介绍CSS选择器的各种类型和用法,以便你…

并不止于表面理论和简单示例——《Python数据科学项目实战》

Python 现在可以说是运用最广泛的编程语言之一,使用 Python 的人不只局限在计算机相关专业的从业者,很多来自金融领域、医疗领域以及其他我们无法想象的领域的人,每天都在使用 Python处理各种数据、使用机器学习进行预测以及完成各种有趣的工作。 长久以来&#xff…

济南建筑模板生产厂家有哪些?

在济南地区,寻找一家可靠的建筑模板供应商对于建筑施工企业来说是至关重要的。在众多的厂家中,广西贵港市能强优品木业是济南地区建筑模板最具实力的供应商之一。他们不仅提供高质量的建筑模板,还能提供整车物流包运输,并将货物发…

android app开发环境搭建

Android是流行的移动设备原生应用开发平台,其支持Java语言以及Kotlin语言的开发环境,本文主要描述官方提供的Android studio集成开发环境搭建。 https://developer.android.google.cn/ 如上所示,从官方上下载最新版本的Android studio集成开…

C++ 修改文件创建时间、修改时间属性

简介 修改文件创建时间、修改时间、大小等属性。 博客 《C 获取文件创建时间、修改时间、大小等属性》分享后,好兄弟“古月”发来一段代码,说可以修改文件的创建时间等。测试了一下真可以,下面是运行效果和代码: 代码 #i…

mysql面试题35:MySQL有关权限的表有哪些?

该文章专注于面试,面试只要回答关键点即可,不需要对框架有非常深入的回答,如果你想应付面试,是足够了,抓住关键点 面试官:MySQL有关权限的表有哪些? MySQL中与权限相关的表主要包括以下几个: user表:存储MySQL用户的基本信息,包括用户名、密码等。可以使用以下命令…

用于物体识别和跟踪的下游任务自监督学习-2-背景

2.1用于现实世界应用的计算机视觉的基本概念 有许多中间步骤涉及应用计算机视觉算法来解决现实世界中的问题。机器视觉算法从光学传感器的图像采集开始,并最终解决现实世界的决策任务,如自动驾驶汽车、机器人自动化和监控。设计现代计算机视觉算法包括传感器数据编码、解码、…

Practical Memory Leak Detection using Guarded Value-Flow Analysis 论文阅读

本文于 2007 年投稿于 ACM-SIGPLAN 会议1。 概述 指针在代码编写过程中可能出现以下两种问题: 存在一条执行路径,指针未成功释放(内存泄漏),如下面代码中注释部分所表明的: int foo() {int *p malloc(4 …

PointRend: 将图像分割视为渲染——PointRend:Image Segmentation as Rendering

0.摘要 我们提出了一种新的方法,用于高效、高质量的对象和场景图像分割。通过将经典的计算机图形学方法与像素标记任务中面临的过采样和欠采样挑战进行类比,我们开发了一种将图像分割视为渲染问题的独特视角。基于这个视角,我们提出了PointRe…

昂首资本通过套期保值,MT4和MT5这样选

对冲模式允许交易者为一项资产开立任意数量的头寸,但只能进行多单交易,无法改变开仓的成交量。 套期保值系统由MT4和MT5两款软件提供支持,自2016年起,套期保值系统由MT5取代了MT4。净额结算模式允许交易者一次只有一个金融工具的…

TensorRT的结构

Builder(网络原数据):模型搭建的入口,网络的tensorRT内部表示以及可执行程序引擎都是由该对象的成员方法生成的 BuiderConfig(网络原数据的选项):负责设置模型的一些参数,如是否开始…

R语言R包详解——stringr包:字符处理

R语言 R语言R包详解——stringr包:字符处理 一切用法皆以说明书为准,想要了解该包,请多查阅说明书或者查看底层算法。 文章目录 R语言一、安装与加载R包二、函数简介三、函数详解3.1、str_c: 字符串拼接3.2、str_trim: 去掉字符串的空格和TA…

2核4G服务器支持多少用户同时在线访问?卡不卡?

腾讯云轻量2核4G5M带宽服务器支持多少人在线访问?5M带宽下载速度峰值可达640KB/秒,阿腾云以搭建网站为例,假设优化后平均大小为60KB,则5M带宽可支撑10个用户同时在1秒内打开网站,从CPU内存的角度,网站程序效…

Java 19的未来:新特性、性能优化和更多

文章目录 新特性的引入1. 模式匹配的扩展2. 增强的模式匹配异常处理3. 基于记录的反射4. 引入静态方法的接口 性能优化1. 垃圾收集器的改进2. 即时编译器的增强3. 并行处理的改进 Java编程的前景展望1. 更多的应用场景2. 更强的生态系统3. 更广泛的社区参与4. 面向未来的编程 结…

【QT开发笔记-基础篇】| 第四章 事件QEvent | 4.5 键盘事件

本章要实现的整体效果如下: QEvent::KeyPress ​ 键盘按下时,触发该事件,它对应的子类是 QKeyEvent QEvent::KeyRelease ​ 键盘抬起时,触发该事件,它对应的子类是 QKeyEvent 本节通过两个案例来讲解这 2 个事件&…

C++学习day4

作业&#xff1a; 1> 思维导图 2> 整理代码 1. 拷贝赋值函数课上代码 //拷贝赋值函数课上代码 #include<iostream> using namespace std;//创建类 class Stu { private://私有的string name;int socer;int *age;//此处注意用到指针类型 public://共有的//无参构…

爬取微博热榜并将其存储为csv文件

&#x1f64c;秋名山码民的主页 &#x1f602;oi退役选手&#xff0c;Java、大数据、单片机、IoT均有所涉猎&#xff0c;热爱技术&#xff0c;技术无罪 &#x1f389;欢迎关注&#x1f50e;点赞&#x1f44d;收藏⭐️留言&#x1f4dd; 获取源码&#xff0c;添加WX 目录 前言1.…

每日leetcode_193二叉搜索树的最近公共祖先

每日leetcode_193二叉搜索树的最近公共祖先 记录自己的成长&#xff0c;加油。 题目出处&#xff1a;LCR 193. 二叉搜索树的最近公共祖先 - 力扣&#xff08;LeetCode&#xff09; 题目 思路&#xff1a; 解题 class Solution {public TreeNode lowestCommonAncestor(TreeNod…