Talk | UCSB博士生许闻达:细粒度可解释评估初探

news2024/11/17 7:28:44

本期为TechBeat人工智能社区551线上Talk。

北京时间11月29(周三)20:00,UC Santa Barbara博士生许闻达的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是: 细粒度可解释评估初探,分享了他们团队在具备解释性的细粒度评估模型的一系列研究成果。

Talk·信息

主题:细粒度可解释评估初探

嘉宾:加州大学圣塔芭芭拉分校博士生 许闻达

时间:北京时间 11月29日(周三)20:00

地点:TechBeat人工智能社区

点击下方链接,即可观看视频!

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=829

Talk·介绍

迎接大语言模型时代的同时,面临着NLP中一项令人头疼的大问题:评估文本生成质量。挑战源自于文本的丰富多样性和评估过程中固有的主观性。虽然人工评估目前看来是最可靠的策略,但却因为高昂的成本和主观性的存在而被人诟病。因此,我们急需一种自动化评估模式,这已经成为当前的首要任务之一。

近期,大家注意到,学术界在开发可学习的评估模型上,无论在有监督还是无监督方面,都取得了显著的突破。但遗憾的是,由于评估模型的分数缺乏有效的校准,这些模型仍然无法清晰、直观地告诉我们问题在哪,至此仍缺乏足够的可解释性。

在研究中,我们的团队工作出色,设计了一套具备解释性的细粒度评估模型。我们通过充分利用生成错误的位置、类别和错误程度,来替代染繁复杂的质量分数,让用户能快速掌握文本质量的情况和所在短板。更为惊喜的是,我们发现这些指标不仅能帮助人类理解错误产生的原因, 它还像一位深思熟虑的老师耐心引导学生一样,能利用这些反馈指导大语言模型的生成,从而进一步提升其性能。

Talk大纲

1、近年来可学习评测的发展,以及在大语言模型时代,评测的重要性

2、我们最近在可学习,解释评估上的突破,和其所带来的意义

3、可解释评测带来的细粒度反馈可以如何提升大语言模型的性能

Talk·预习资料

Image

文章链接:https://arxiv.org/abs/2305.14282

Image

文章链接: https://arxiv.org/pdf/2311.09336

Image

文章链接:https://arxiv.org/abs/2212.09305

Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

​​​​​​​

Image

许闻达

UC Santa Barbara 博士生

许闻达目前是UCSB计算机系博四的学生,导师是UCSB NLP 的王威廉教授和CMU LTI的李磊教授。博士期间主要的研究方向是文本生成评估和大语言模型对齐。以前,于UC Davis获得本科学位,隶属于UC Davis的Computer vision组,主要研究方向为图像分割和无人驾驶。本科所做的Visual SLAM和道路规划曾获得年度最佳毕业设计奖。

以第一作者身份在多个定会发表过多篇论文, 包括AAAI, EMNLP和ACL,并以协作作者身份发表多篇论文。并在字节谷歌等研究院实习。担任多个顶会的审稿人,包括AAAI, EMNLP和ACL。

个人主页: 

TechBeat


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1270643.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

彻底删除VsCode配置和安装过的插件与缓存

前言 当你准备对 Visual Studio Code(VSCode)进行重新安装时,可能遇到一个常见问题:重新安装后,新的安装似乎仍然保留了旧的配置信息,这可能会导致一些麻烦。这种情况通常是由于卸载不彻底所致&#xff0c…

MySQL官网推荐书籍

MySQL官网推荐书籍 图片有防盗链csdn转存失败。有图版传送门MySQL官网推荐书籍 高效的MySQL性能:Daniel Nichter的最佳实践和技术 Daniel Nichter 向您展示了如何应用直接影响 MySQL 性能的最佳实践和技术。您将学习如何通过分析查询执行、为常见 SQL 子句和表联接…

一套后台管理系统的入门级的增删改查(vue3组合式api+elemment-plus)

一、页面示意: 图一 图二 二、组件结构 列表组件 :index.vue,对应图一添加组件:add.vue,对应图二,用抽屉效果编辑组件:edit.vue,和添加组件的效果一个。 三、代码 1、列表组件: index.vue …

Ubuntu使用Nginx部署前端项目——记录

安装nginx 依次执行以下两条命令进行安装: sudo apt-get update sudo apt-get install nginx通过查看版本号查看是否安装成功: nginx -v补充卸载操作: sudo apt-get remove nginx nginx-common sudo apt-get purge nginx nginx-common su…

为计算机设计一个完美的思维模型,帮找bug和漏洞,一起来做渗透测试吧 最赚钱的10种思维模型

芒格 如果我不能淘汰自己一年前的思维模型,这一年我就白过了。(终身学习,不断迭代自己。) 思维模型是什么,有哪些? 思维模型是用来简化和理解复杂现实世界的概念框架。它们是一种思考和解决问题的工具&a…

8个最流行的Revit插件【2023-2024】

NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 Revit 已取代 AutoCAD 成为全球行业标准软件。 随着设计复杂性的增加,近年来插件变得更加必要。 热…

【腾讯地图】【微信小程序】地图选点

【相关文章】 【腾讯地图】【微信小程序】地图选点 【腾讯地图】【微信小程序】路线规划 【腾讯地图】【微信小程序】城市记录(基于地图选点入门版) 【效果展示】 【官方文档】 微信小程序插件-地图选点插件 【完善流程】 当前操作和官方文档操作有部…

06 # 枚举类型

一个角色判断例子 function initByRole(role) {if (role 1 || role 2) {// do sth} else if (role 3 || role 4) {// do sth} else if (role 5) {// do sth} else {// do sth} }上面的代码存在的问题: 可读性差:很难记住数字的含义可维护性差&…

前端笔记:React的form表单全部置空或者某个操作框置空的做法

原创/朱季谦 在React框架前端开发中,经常会有弹出框的开发,涉及到弹出框,难免就会有表单。一般在关闭弹出框或者对表单联动时,往往都需要考虑对表单进行置空操作了。 我以前在工作就遇到过这类问题,正好顺便对表单置空…

Linux RN6752 驱动编写

一、概述 关于 RN6752V1 这个芯片这里就不做介绍了,看到这篇笔记的小伙伴应该都明白,虽然说 RN6752V1 芯片是 AHD 信号的解码芯片,但是也可以把芯片当做是一个 YUV 信号的 MIPI 摄像头,所以驱动的编写和 MIPI 摄像头无太大的区别。…

Docker篇之docker部署harbor仓库

一、首先需要安装docker step1:安装docker #1、安装yun源 yum install -y yum-utils #2、配置yum源 yum-config-manager --add-repo https://download.docker.com/linux/centos/docker-ce.repo # 如果上面源不稳定的话,更换为下列的aliyun源 yu…

爬虫学习 逆向爬虫(六)

多任务异步协程 协程:更高效的利用CPU import timedef func():print("黎明")time.sleep(3)print("还是黎明")func() 等待时机长 sleep时CPU不再工作 IO操作(费时不费力)->阻塞 线程运行阻塞后 移出主线程 移动到下一个 4个任务一个线程 …

首次部署Linux系统的经历

我是一名电子信息工程专业的学生,有次在图书馆上自习的时候无意间看到其他同学的电脑屏幕,黑色的屏幕上显示着一行一行的代码,勾起了我无限的好奇,经过询问得知他是用的Linux操作系统,是和Windows完全不同的系统&#…

Python解释器和环境变量配置(超详细)

一、 python解释器下载 1.百度python官网并打开 官网网址:www.python.org/ 在这里插入图片描述 2.选择DownLoads,Windows并打开 3.在下图页面选择你需要的版本下载即可(本文以python 3.10.4版本演示) 在这里插入图片描述 二、安…

基于OpenCV的手势识别系统设计与开发

摘要 随着计算机技术与信息处理技术迅速发展,智能化电子设备逐渐进入到日常的生产和生活中,与此同时,人们对电子设备操作过程的便捷化也提出了新的要求,这也促使计算机进行图像处理的技术也得到了发展。近些年兴起的模式识别技术…

蓝桥杯每日一题2023.11.29

题目描述 #include <stdio.h> #include <string.h>void StringInGrid(int width, int height, const char* s) {int i,k;char buf[1000];strcpy(buf, s);if(strlen(s)>width-2) buf[width-2]0;printf("");for(i0;i<width-2;i) printf("-"…

unity UI特效遮罩

using System.Collections; using System.Collections.Generic; using UnityEngine;/**UI特效遮罩 1.需要将ScrollRect 的遮罩Mask 换为 2D Mask2.将特效的Render里面的 Masking 设置为*/ public class UIParticleMaskControll : MonoBehaviour {// Start is called before …

《HelloGitHub》第 92 期

兴趣是最好的老师&#xff0c;HelloGitHub 让你对编程感兴趣&#xff01; 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 https://github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等&#xff0c;涵盖多种编程语言 …

手敲myarraylist,深入了解其运行逻辑

1、自定义MyArrayList类 该类里面基本有两个属性&#xff0c;一个是用来存放数据的数组&#xff0c;另外一个是用来描述已经存放数据的数量。同时设置arraylist表的默认长度为10&#xff1b;代码如下&#xff1a; public class MyArrayList {private int[] elem;private int u…

基于matlab的图像去噪算法设计与实现

摘 要 随着我们生活水平的提高&#xff0c;科技产品飞速更新换代&#xff0c;在信息传输中&#xff0c;图像传输所占的比重越来越大。但自然噪声会在图像传输时干扰其传输过程&#xff0c;甚至会使图片不能表达其原来的意义。去噪处理就是为了去除图像中的噪声&#xff0c;从而…