【AI视野·今日Sound 声学论文速览第九期】Thu, 21 Sep 2023

news2026/2/14 0:37:47

AI视野·今日CS.Sound 声学论文速览
Thu, 21 Sep 2023
Totally 1 papers
👉上期速览✈更多精彩请移步主页

Interesting:

📚Auto-ACD,大规模文本-音频数据集自动生成方法。
基于现有的大模型和api构建了一套大规模高质量的音频文本数据收集方法，包含1.9M audio-text 数据对。 (from 上海交大)
在这里插入图片描述

👍 👍 website: https://auto-acd.github.io/

Daily Sound Papers

A Large-scale Dataset for Audio-Language Representation Learning
Authors Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie
在大规模多模式数据集的推动下，人工智能社区在开发强大的基础模型方面取得了重大进展。然而，在音频表示学习领域，现有的音频语言数据集存在容量不足、内容简单和收集过程繁琐等局限性。为了应对这些挑战，我们提出了一种基于一系列公共工具或 API 的创新型自动音频字幕生成管道，并构建了一个大规模、高质量的音频语言数据集，称为 Auto ACD，包含超过 190 万个音频文本对。为了证明所提出的数据集的有效性，我们在数据集上训练了流行的模型，并展示了各种下游任务的性能改进，即音频语言检索、音频字幕、环境分类。此外，我们建立了一个新颖的测试集，并为音频文本任务提供了基准。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1032496.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！