可理解性评估:使用Google Gemini优化语音识别的意义保留

news2024/11/14 14:46:58

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

语音识别中的可理解性评估:超越词错误率的意义保留

在自动语音识别(ASR)模型的评估中,词错误率(WER)及其逆值词准确率(WACC)是衡量句法准确性的常用指标。然而,这些指标未能反映ASR性能的一个关键方面:可理解性。这种局限性在针对具有非典型言语模式的用户时尤为明显,他们的WER往往超过20%,在某些情况下甚至超过60%。尽管如此,如果ASR模型能较好地保留其言语的意义,这些用户仍能从中受益。这在实时对话、语音输入文本信息、家庭自动化等对语法错误容忍度较高的应用中尤为重要。实际上,这些用户和应用场景最能从保留意义的ASR模型中获益,因为它们能显著改善交流。

WER的局限性与意义保留的重要性

尽管WER和WACC可以衡量语音识别的句法准确性,但它们并不总能准确反映转录错误的严重性。以下是一些示例,展示了WACC如何未能准确反映转录错误的严重性。在两个例子中,尽管WACC相似,第一个例子的错误相对无害,而第二个例子的错误则更为严重。

创建意义保留评估系统

为了解决这一问题,开发了一种新系统,以自动评估ASR模型有效传达用户意图的能力。在论文《利用大型语言模型评估语音转录的可理解性》(ICASSP 2024)中,介绍了一种新方法,使用大型语言模型(LLM)来确定转录是否准确捕捉了与参考文本相比的预期意义。基于这一方法,还报告了使用Gemini模型如何在不显著损失性能的情况下使用更小的模型,并在无需额外训练的情况下实现多语言意义评估。

意义保留作为替代指标

研究利用了Project Euphonia语料库,这是一个包含约2000名具有各种言语障碍的个体超过120万条语句的语料库。为了扩展对西班牙语使用者的数据收集,Project Euphonia与ALS/MND国际联盟合作,收集了来自墨西哥、哥伦比亚和秘鲁ALS患者的语音样本。同样,通过与巴黎脑科学研究所的Romain Gombert合作,Project Euphonia扩展到法国,收集了法国非典型言语者的数据。

在实验中,生成了4731个包含真实值和转录错误对的示例数据集,并附有人类标注,指示这些对是否保留了意义。将数据集分为训练集、测试集和验证集(分别为80% / 10% / 10%),确保三个数据集在真实语句级别上没有重叠。

训练与评估

在基础LLM上训练了意义保留分类器。通过提示微调(一种参数高效的LLM适应方法),将基础LLM调整为能够预测“是”或“否”的标签,以指示是否保留了意义。

在推理过程中,没有生成响应,而是获取LLM的logits作为两个类别标签(“是”和“否”)的分数。可以选择得分较高的标签,或在评估意义保留分类器时,使用“是”类别的得分。

使用Gemini进行意义保留评估

尽管在PaLM模型上取得的结果令人鼓舞,但最近AI模型的巨大进步激励评估其在此任务中的适用性。重新训练了意义保留分类器,现在使用Google的Gemini作为基础LLM。对于许多相关的用例,这一评估任务最好使用小模型(例如用于设备上的应用)。因此,选择了Google的Gemini小版本(Gemini Nano-1,具有1.8B参数,详见Gemini 1.0技术报告)进行更高效的推理,其参数量不到最初使用的PaLM 62B模型的3%。在意义保留测试集上评估时,微调后的Gemini Nano-1表现非常竞争,AUC ROC得分为0.88,尽管其规模较小。

多语言意义保留评估

还创建了法语和西班牙语的意义保留测试集,作为Project Euphonia扩展数据收集工作的一部分。这些测试集基于收集的语句、说话者言语障碍的严重程度和病因学的元数据,以及从Google的高度多语言通用语音模型(USM)获得的真实转录和ASR转录。

西班牙语测试集由来自六名说话者的518个示例组成,而法语测试集由来自十名说话者的199个示例组成。对于两种语言,不同说话者具有不同的病因学和言语障碍程度,包括轻度、中度和重度。

基于Gemini Nano-1模型的意义保留分类器在法语和西班牙语测试集上获得了约0.89的ROC AUC性能。鉴于该分类器仅用英文示例进行训练,这一结果相当显著。由于基础Gemini模型的多语言能力,这些能力在无需重新训练模型或创建新语言的训练数据集的情况下得以显现。

结论

提出使用意义保留作为比WER更有效的ASR系统评估指标,特别是在高错误率的情况下,如非典型言语和其他低资源领域或语言。通过关注意义保留,可以更好地评估模型对个体用户的有用性,尤其是在Project Relate等助听技术中,这些技术旨在通过训练完全个性化的语音识别模型使非典型言语者得到更好的理解。

为了进一步推进意义保留工作,并将其惠及更多用户和语言,还探索了Google Gemini模型的能力。Gemini Nano-1使能够在使用显著较小模型的情况下实现类似的分类器性能。尽管仅在英文示例上训练,分类器显示出在其他语言中准确评估意义保留的能力,如法语和西班牙语的测试所示。这一激动人心的发展为构建更高效、更通用的模型开辟了新的可能性,使更多用户受益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1916288.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

从零开始实现大语言模型(三):Token Embedding与位置编码

1. 前言 Embedding是深度学习领域一种常用的类别特征数值化方法。在自然语言处理领域,Embedding用于将对自然语言文本做tokenization后得到的tokens映射成实数域上的向量。 本文介绍Embedding的基本原理,将训练大语言模型文本数据对应的tokens转换成Em…

MongoDB - 集合和文档的增删改查操作

文章目录 1. MongoDB 运行命令2. MongoDB CRUD操作1. 新增文档1. 新增单个文档 insertOne2. 批量新增文档 insertMany 2. 查询文档1. 查询所有文档2. 指定相等条件3. 使用查询操作符指定条件4. 指定逻辑操作符 (AND / OR) 3. 更新文档1. 更新操作符语法2. 更新单个文档 updateO…

【AI前沿】深度学习:神经网络基础

文章目录 📑引言一、神经元和感知器1.1 神经元的基本概念1.2 感知器模型 二、多层感知器(MLP)2.1 MLP的基本结构2.2 激活函数的重要性2.3 激活函数2.4 激活函数的选择 三、小结 📑引言 深度学习是现代人工智能的核心技术之一&…

p12初步认识c语言

1.初识c语言 什么是c语言 c语言是一门计算机语言 计算机语言是什么 人和计算机交流语言 c/c/JAVA/python 语言发展: 二进制语言 硬件-电-正电/负电 1010001010101010101010101010手册 科学家 1010100010-ADD -助记符-汇编语言 B语言 C语言 C、---高级…

【全面介绍语言模型的原理,实战和评估】

🎥博主:程序员不想YY啊 💫CSDN优质创作者,CSDN实力新星,CSDN博客专家 🤗点赞🎈收藏⭐再看💫养成习惯 ✨希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共同学习、交流进步! 🥂语言模型的原理 🥂语言模型基于统计和机器学习的原理,目标…

实验1 —— 安全策略的练习

实验拓扑图 实验要求 1.DMZ区内的服务器,办公区仅能在办公时间内(9:00-18:00)可以访问,生产区的设备全天可以访问; 2.生产区不允许访问互联网,办公区和游客区允许访问互联网 3.办公区…

Java protobuf序列化

Protobuf概述 Protobuf(全称:Protocol Buffers)是由 Google 开发的一种语言中立、平台无关、可扩展的序列化协议。它用于高效地结构化数据的序列化和反序列化。Protobuf 的主要特点是其紧凑、高效和可扩展的编码格式,使其在各种网…

Nginx中文URL请求404

这两天正在搞我的静态网站。方案是:从思源笔记Markdown笔记,用MkOcs build成静态网站,上传到到Nginx服务器。遇到一个问题:URL含有中文会404,全英文URL则正常访问。 ‍ 比如: ​​ ‍ 设置了utf-8 ht…

mac安装配置cmake

本机是2015 macbook pro mid,已经有点老了,用homebrew下cmake老出问题 其实cmake官网安装也不麻烦 一、官网下载对应安装包 Download CMake 和所有dmg文件一样安装 二、改成命令行使用 一般来说 tutorial 给的都是命令行build 命令行的设置如下&am…

React Hooks学习笔记

一、usestate的使用方法-初始化state函数 import React, { useState } from "react"; function App() {const [count, setCount] useState(0);return (<div><p>点击{count}次</p><button onClick{() > setCount(count 1)}>点击</bu…

【TAROT学习日记】韦特体系塔罗牌学习(1)——愚者 THE FOOL 0

韦特体系塔罗牌学习&#xff08;1&#xff09;——愚者 THE FOOL 0 https://www.tarotchina.net/major-arcana0-vip/ 目录 韦特体系塔罗牌学习&#xff08;1&#xff09;——愚者 THE FOOL 0牌面分析1. 基础信息2. 图片元素 正位牌意1. 关键词/句2.爱情婚姻3. 学业事业4. 人际关…

原生小程序生成二维码并保存到本地

需求&#xff1a;我要在一个页面中生成一个二维码&#xff0c;并且这个二维码可以长按保存到本地或者发送给好友&#xff1b; 我这里是将生成的canvas二维码转换成图片&#xff0c;利用长按图片进行保存或转发 效果图&#xff1a; 第一步先下载对应的包&#xff1a; npm instal…

Web3知识图谱,一篇读完

这张图展示了区块链生态系统的架构和主要组件。以下是对图中内容的概括总结&#xff1a; 基础层&#xff1a; 底层基础设施&#xff1a;包括光纤网络、P2P网络、非对称加密、哈希算法、默克尔树和随机数生成。共识机制&#xff1a; PoW&#xff08;工作量证明&#xff09;: 比特…

C语言笔记31 •单链表经典算法OJ题-3.反转链表•

反转链表 1.问题 给你单链表的头节点 head&#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 2.代码实现&#xff1a; //3.反转链表 #define _CRT_SECURE_NO_WARNINGS 1 #include <stdio.h> #include <stdlib.h> #include <assert.h>typedef int …

华为模拟器ensp中USG6000V防火墙web界面使用

防火墙需要配置 新建拓扑选择USG6000V型号 在防火墙中导包 忘记截图了 启动设备 输入用户名密码 默认用户名&#xff1a;admin 默认密码&#xff1a;Admin123 修改密码 然后他会提示你是否要修改密码&#xff0c;想改就改不想改就不改 进入命令行界面 进入系统视图开启web…

【RHCE】基于用户认证和TLS加密的HTTP服务(HTTPS)

目录 一、创建用户账号 二、TLS加密 三、配置http服务子配置文件 四、创建访问http服务的文件夹以及输入重定向到文件 五、配置Linux本地仓库以及Windows下的本地仓库 六、基础操作 七、测试 一、创建用户账号 用户认证 # 创建两个账户 [rootlocalhost ~]# htpasswd -…

商业合作方案撰写指南:让你的提案脱颖而出的秘诀

作为一名策划人&#xff0c;撰写一份商业合作方案需要细致的规划和清晰的表达。 它是一个综合性的过程&#xff0c;需要策划人具备市场洞察力、分析能力和创意思维。 以下是能够帮助你撰写一份有效的商业合作方案的关键步骤和要点&#xff1a; 明确合作目标&#xff1a;设定…

网络协议(TCP三次握手,四次断开详解)

TCP的详细过程&#xff1a; TCP&#xff08;传输控制协议&#xff09;的三次握手和四次断开是其建立连接和终止连接的重要过程&#xff0c;以下是详细解释&#xff1a; 三次握手&#xff1a; 1. 第一次握手&#xff1a;客户端向服务器发送一个 SYN&#xff08;同步&#x…

深度探讨:无法恢复主文件表的困境与解救之道

在数据存储与管理的复杂世界中&#xff0c;主文件表&#xff08;Master File Table, MFT&#xff09;作为文件系统的核心组件&#xff0c;承载着至关重要的角色。一旦遭遇无法恢复主文件表的困境&#xff0c;用户将面临数据访问受限、文件丢失等严重后果。这通常是由于硬件故障…

火柴棒图python绘画

使用Python绘制二项分布的概率质量函数&#xff08;PMF&#xff09; 在这篇博客中&#xff0c;我们将探讨如何使用Python中的scipy库和matplotlib库来绘制二项分布的概率质量函数&#xff08;PMF&#xff09;。二项分布是统计学中常见的离散概率分布&#xff0c;描述了在固定次…