音视频入门基础:WAV专题(4)——FFmpeg源码中获取WAV文件音频压缩编码格式、采样频率、声道数量、采样位数、码率的实现

news2024/12/28 19:18:27

 =================================================================

音视频入门基础:WAV专题系列文章:

音视频入门基础:WAV专题(1)——使用FFmpeg命令生成WAV音频文件

音视频入门基础:WAV专题(2)——WAV格式简介

音视频入门基础:WAV专题(3)——FFmpeg源码中,判断某文件是否为WAV音频文件的实现

音视频入门基础:WAV专题(4)——FFmpeg源码中获取WAV文件音频压缩编码格式、采样频率、声道数量、采样位数、码率的实现

音视频入门基础:WAV专题(5)——FFmpeg源码中解码WAV Header的实现

=================================================================

一、引言

通过FFmpeg命令可以获取到WAV文件的音频压缩编码格式、采样频率、声道数量、采样位数、码率等信息:

在vlc中也可以获取到这些信息(vlc底层也使用了FFmpeg进行解码):

所以FFmpeg和vlc是怎样获取到这些信息的呢?它们其实是通过WAV Header中的标签为“fmt ”的子区块获取的。在文章《音视频入门基础:WAV专题(2)——WAV格式简介》中,介绍了WAV格式和WAV的Header。WAV Header中的内容以区块(chunk)为最小单位,标签为“fmt ”的子区块被称为Format chunk,记录声道数量、采样率等信息:

而FFmpeg源码(本文演示用的FFmpeg源码版本为5.0.3)中是通过ff_get_wav_header函数来解码Format chunk,获取里面信息的。

二、ff_get_wav_header函数的声明

ff_get_wav_header函数声明在FFmpeg源码的头文件libavformat/riff.h中:

int ff_get_wav_header(AVFormatContext *s, AVIOContext *pb, AVCodecParameters *par, int size, int big_endian);

该函数作用是:解码WAV Header中的Format chunk,获取里面的信息。

形参s:输入型参数。为AVFormatContext类型的指针,这里主要用于打印日志,可忽略。

形参pb:既是输入型参数也是输出型参数。指向一个AVIOContext 类型变量,包含WAV文件中的二进制数据。

pb->buffer:恒指向输入缓冲区的开头,该缓冲区包含WAV文件最前面的二进制数据。由于WAV Header在WAV文件的最前面,所以该缓冲区包含整个WAV Header的二进制数据。

pb->buffer_size:pb->buffer指向的缓冲区的大小,单位为字节。FFmpeg解码WAV Header的时候不会读取完整个WAV文件,只会读取它前面的一部分,比如最开始的32768个字节。只要根据前面的这些字节就足够判断出它的格式了,所以p->buf_size的值一般就是32768。

pb->buf_ptr:指向输入缓冲区中当前读取到的位置。由于当前要读取的是Format chunk,所以pb->buf_ptr指向以“Format chunk”中的“音讯格式”为开头的数据。执行ff_get_wav_header函数后,pb->buf_ptr的值会增加,表示读取完了Format chunk:

pb->buf_end:恒指向输入缓冲区的末尾。

形参par:输出型参数。指向一个AVCodecParameters类型变量,也就是描述编码流属性的结构体。执行ff_get_wav_header函数后,通过par中的成员拿到Format chunk中的声道数量、采样率等信息。AVCodecParameters结构体部分成员如下:

/**
 * This struct describes the properties of an encoded stream.
 *
 * sizeof(AVCodecParameters) is not a part of the public ABI, this struct must
 * be allocated with avcodec_parameters_alloc() and freed with
 * avcodec_parameters_free().
 */
typedef struct AVCodecParameters {
    
    /**
     * General type of the encoded data.
     */
    enum AVMediaType codec_type;

    enum AVCodecID   codec_id;

    /**
     * The average bitrate of the encoded data (in bits per second).
     */
    int64_t bit_rate;

    /**
     * The number of bits per sample in the codedwords.
     *
     * This is basically the bitrate per sample. It is mandatory for a bunch of
     * formats to actually decode them. It's the number of bits for one sample in
     * the actual coded bitstream.
     *
     * This could be for example 4 for ADPCM
     * For PCM formats this matches bits_per_raw_sample
     * Can be 0
     */
    int bits_per_coded_sample;

    /**
     * Audio only. The number of audio channels.
     */
    int      channels;
    /**
     * Audio only. The number of audio samples per second.
     */
    int      sample_rate;
    /**
     * Audio only. The number of bytes per coded audio frame, required by some
     * formats.
     *
     * Corresponds to nBlockAlign in WAVEFORMATEX.
     */
    int      block_align;

    //...
} AVCodecParameters;

执行ff_get_wav_header函数后:

par->codec_type会被赋值为AVMEDIA_TYPE_AUDIO,表示它对应的这路流是音频。

par->codec_id会被赋值为解码器的id。比如对于PCM这种音频压缩编码格式,其解码器id有如下类型:

    /* various PCM "codecs" */
    AV_CODEC_ID_FIRST_AUDIO = 0x10000,     ///< A dummy id pointing at the start of audio codecs
    AV_CODEC_ID_PCM_S16LE = 0x10000,
    AV_CODEC_ID_PCM_S16BE,
    AV_CODEC_ID_PCM_U16LE,
    AV_CODEC_ID_PCM_U16BE,
    AV_CODEC_ID_PCM_S8,
    AV_CODEC_ID_PCM_U8,
    AV_CODEC_ID_PCM_MULAW,
    AV_CODEC_ID_PCM_ALAW,
    AV_CODEC_ID_PCM_S32LE,
    AV_CODEC_ID_PCM_S32BE,
    AV_CODEC_ID_PCM_U32LE,
    AV_CODEC_ID_PCM_U32BE,
    AV_CODEC_ID_PCM_S24LE,
    AV_CODEC_ID_PCM_S24BE,
    AV_CODEC_ID_PCM_U24LE,
    AV_CODEC_ID_PCM_U24BE,
    AV_CODEC_ID_PCM_S24DAUD,
    AV_CODEC_ID_PCM_ZORK,
    AV_CODEC_ID_PCM_S16LE_PLANAR,
    AV_CODEC_ID_PCM_DVD,
    AV_CODEC_ID_PCM_F32BE,
    AV_CODEC_ID_PCM_F32LE,
    AV_CODEC_ID_PCM_F64BE,
    AV_CODEC_ID_PCM_F64LE,
    AV_CODEC_ID_PCM_BLURAY,
    AV_CODEC_ID_PCM_LXF,
    AV_CODEC_ID_S302M,
    AV_CODEC_ID_PCM_S8_PLANAR,
    AV_CODEC_ID_PCM_S24LE_PLANAR,
    AV_CODEC_ID_PCM_S32LE_PLANAR,
    AV_CODEC_ID_PCM_S16BE_PLANAR,
    AV_CODEC_ID_PCM_S64LE,
    AV_CODEC_ID_PCM_S64BE,
    AV_CODEC_ID_PCM_F16LE,
    AV_CODEC_ID_PCM_F24LE,
    AV_CODEC_ID_PCM_VIDC,
    AV_CODEC_ID_PCM_SGA,

par->bit_rate会被赋值为该音频的码率,单位为bits/s。

par->bits_per_coded_sample会被赋值为音频的采样位数。

par->channels会被赋值为声道数量。

par->sample_rate会被赋值为音频的采样频率,单位为Hz。

par->block_align会被赋值为“区块对齐”,即每个采样点所需的字节数。

形参size:输入型参数。Format chunk的子区块大小,也就是“子区块1大小”:

形参big_endian:输入型参数,表示WAV Header中的区块中的真正数据是按照小端还是大端存贮。如果该WAV文件遵守RIFF格式的规则,形参big_endian为0,表示小端;如果该WAV文件遵守RIFX格式的规则,形参big_endian为1,表示大端。

三、ff_get_wav_header函数的定义

ff_get_wav_header函数的定义在FFmpeg源码的源文件libavformat/riffdec.c中:

/* "big_endian" values are needed for RIFX file format */
int ff_get_wav_header(AVFormatContext *s, AVIOContext *pb,
                      AVCodecParameters *par, int size, int big_endian)
{
    int id;
    uint64_t bitrate = 0;

    if (size < 14) {
        avpriv_request_sample(s, "wav header size < 14");
        return AVERROR_INVALIDDATA;
    }

    par->codec_type  = AVMEDIA_TYPE_AUDIO;
    if (!big_endian) {
        id                 = avio_rl16(pb);
        if (id != 0x0165) {
            par->channels    = avio_rl16(pb);
            par->sample_rate = avio_rl32(pb);
            bitrate            = avio_rl32(pb) * 8LL;
            par->block_align = avio_rl16(pb);
        }
    } else {
        id                 = avio_rb16(pb);
        par->channels    = avio_rb16(pb);
        par->sample_rate = avio_rb32(pb);
        bitrate            = avio_rb32(pb) * 8LL;
        par->block_align = avio_rb16(pb);
    }
    if (size == 14) {  /* We're dealing with plain vanilla WAVEFORMAT */
        par->bits_per_coded_sample = 8;
    } else {
        if (!big_endian) {
            par->bits_per_coded_sample = avio_rl16(pb);
        } else {
            par->bits_per_coded_sample = avio_rb16(pb);
        }
    }
    if (id == 0xFFFE) {
        par->codec_tag = 0;
    } else {
        par->codec_tag = id;
        par->codec_id  = ff_wav_codec_get_id(id,
                                             par->bits_per_coded_sample);
    }
    if (size >= 18 && id != 0x0165) {  /* We're obviously dealing with WAVEFORMATEX */
        int cbSize = avio_rl16(pb); /* cbSize */
        if (big_endian) {
            avpriv_report_missing_feature(s, "WAVEFORMATEX support for RIFX files");
            return AVERROR_PATCHWELCOME;
        }
        size  -= 18;
        cbSize = FFMIN(size, cbSize);
        if (cbSize >= 22 && id == 0xfffe) { /* WAVEFORMATEXTENSIBLE */
            parse_waveformatex(s, pb, par);
            cbSize -= 22;
            size   -= 22;
        }
        if (cbSize > 0) {
            if (ff_get_extradata(s, par, pb, cbSize) < 0)
                return AVERROR(ENOMEM);
            size -= cbSize;
        }

        /* It is possible for the chunk to contain garbage at the end */
        if (size > 0)
            avio_skip(pb, size);
    } else if (id == 0x0165 && size >= 32) {
        int nb_streams, i;

        size -= 4;
        if (ff_get_extradata(s, par, pb, size) < 0)
            return AVERROR(ENOMEM);
        nb_streams         = AV_RL16(par->extradata + 4);
        par->sample_rate   = AV_RL32(par->extradata + 12);
        par->channels      = 0;
        bitrate            = 0;
        if (size < 8 + nb_streams * 20)
            return AVERROR_INVALIDDATA;
        for (i = 0; i < nb_streams; i++)
            par->channels += par->extradata[8 + i * 20 + 17];
    }

    par->bit_rate = bitrate;

    if (par->sample_rate <= 0) {
        av_log(s, AV_LOG_ERROR,
               "Invalid sample rate: %d\n", par->sample_rate);
        return AVERROR_INVALIDDATA;
    }
    if (par->codec_id == AV_CODEC_ID_AAC_LATM) {
        /* Channels and sample_rate values are those prior to applying SBR
         * and/or PS. */
        par->channels    = 0;
        par->sample_rate = 0;
    }
    /* override bits_per_coded_sample for G.726 */
    if (par->codec_id == AV_CODEC_ID_ADPCM_G726 && par->sample_rate)
        par->bits_per_coded_sample = par->bit_rate / par->sample_rate;

    return 0;
}

四、ff_get_wav_header函数的内部实现分析

ff_get_wav_header函数中,首先通过如下语句判断Format chunk的子区块大小,也就是“子区块1大小”是否小于14,如果小于14返回AVERROR_INVALIDDATA,表示不合法:

if (size < 14) {
        avpriv_request_sample(s, "wav header size < 14");
        return AVERROR_INVALIDDATA;
    }

合法的“Format chunk的子区块大小”是不可能小于14,但可以等于14。如果等于14,则Format chunk不包含“位元深度”(采样位数):

然后让par->codec_type被赋值为AVMEDIA_TYPE_AUDIO,表示它对应的这路流是音频。

par->codec_type  = AVMEDIA_TYPE_AUDIO;

根据该WAV文件是遵守RIFF格式还是RIFX格式的规则,按照小端/大端模式读取声道数量、音频采样率、码率、“区块对齐”(每个采样点所需的字节数)。这里用到avio_rXXX系列函数,关于它们的用法可以参考:《FFmpeg源码:avio_r8、avio_rl16、avio_rl24、avio_rl32、avio_rl64函数分析》。由于Format chunk中的音频码率单位为byte per second,所以得将该值乘8,得到以bits/s为单位的码率:

if (!big_endian) {
        id                 = avio_rl16(pb);
        if (id != 0x0165) {
            par->channels    = avio_rl16(pb);
            par->sample_rate = avio_rl32(pb);
            bitrate            = avio_rl32(pb) * 8LL;
            par->block_align = avio_rl16(pb);
        }
    } else {
        id                 = avio_rb16(pb);
        par->channels    = avio_rb16(pb);
        par->sample_rate = avio_rb32(pb);
        bitrate            = avio_rb32(pb) * 8LL;
        par->block_align = avio_rb16(pb);
    }

当“Format chunk的子区块大小”为14时,表示这是最简单版本不包含音频采样位数的Format chunk,让par->bits_per_coded_sample音频采样位数默认取值为8。如果“Format chunk的子区块大小”不为14,读取音频的采样位数:

if (size == 14) {  /* We're dealing with plain vanilla WAVEFORMAT */
        par->bits_per_coded_sample = 8;
    } else {
        if (!big_endian) {
            par->bits_per_coded_sample = avio_rl16(pb);
        } else {
            par->bits_per_coded_sample = avio_rb16(pb);
        }
    }

根据音频压缩编码格式得到对应的解码器id:

if (id == 0xFFFE) {
        par->codec_tag = 0;
    } else {
        par->codec_tag = id;
        par->codec_id  = ff_wav_codec_get_id(id,
                                             par->bits_per_coded_sample);
    }

“Format chunk的子区块大小”的值一般是16,如果大于16,表示Format chunk包含扩展块。通过下面语句处理Format chunk包含扩展块的情况:

    if (size >= 18 && id != 0x0165) {  /* We're obviously dealing with WAVEFORMATEX */
        int cbSize = avio_rl16(pb); /* cbSize */
        if (big_endian) {
            avpriv_report_missing_feature(s, "WAVEFORMATEX support for RIFX files");
            return AVERROR_PATCHWELCOME;
        }
        size  -= 18;
        cbSize = FFMIN(size, cbSize);
        if (cbSize >= 22 && id == 0xfffe) { /* WAVEFORMATEXTENSIBLE */
            parse_waveformatex(s, pb, par);
            cbSize -= 22;
            size   -= 22;
        }
        if (cbSize > 0) {
            if (ff_get_extradata(s, par, pb, cbSize) < 0)
                return AVERROR(ENOMEM);
            size -= cbSize;
        }

        /* It is possible for the chunk to contain garbage at the end */
        if (size > 0)
            avio_skip(pb, size);
    } else if (id == 0x0165 && size >= 32) {
        int nb_streams, i;

        size -= 4;
        if (ff_get_extradata(s, par, pb, size) < 0)
            return AVERROR(ENOMEM);
        nb_streams         = AV_RL16(par->extradata + 4);
        par->sample_rate   = AV_RL32(par->extradata + 12);
        par->channels      = 0;
        bitrate            = 0;
        if (size < 8 + nb_streams * 20)
            return AVERROR_INVALIDDATA;
        for (i = 0; i < nb_streams; i++)
            par->channels += par->extradata[8 + i * 20 + 17];
    }

音频采样率不可能不大于0,如果不大于0返回AVERROR_INVALIDDATA,表示不合法:

    if (par->sample_rate <= 0) {
        av_log(s, AV_LOG_ERROR,
               "Invalid sample rate: %d\n", par->sample_rate);
        return AVERROR_INVALIDDATA;
    }

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1960410.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

求职Leetcode题目(2)

1.柱状图中最大的矩形 据说这是2024年字节二面的题目&#xff0c;我感觉这道题跟接雨水有点类似&#xff0c;最重要的思路还是要找到什么时候能形成矩形的这么个情况&#xff0c;某个范围的矩形的高度&#xff0c;是由最短的柱形来决定的。 我们先整理一下&#xff0c;解决这道…

解决Firefox代理身份验证弹出窗口问题:C#和Selenium实战指南

引言 在使用Selenium和C#进行网页抓取时&#xff0c;遇到代理服务器的身份验证弹出窗口是一个常见的问题。这不仅会中断自动化流程&#xff0c;还会导致抓取任务失败。本文将提供一个实战指南&#xff0c;帮助开发者解决这个问题&#xff0c;并介绍如何在代码中设置代理IP、Us…

N32L406 移植MultiTimer教程 mdk5

MultiTimer 首先感谢开源作者 开源地址&#xff1b; github.com https://github.com/0x1abin/MultiTimer 简介 MultiTimer 是一个软件定时器扩展模块&#xff0c;可无限扩展你所需的定时器任务&#xff0c;取代传统的标志位判断方式&#xff0c; 更优雅更便捷地管理程序的…

C++学习笔记之指针高阶

数组名 数组名字是数组的首元素地址。 一个指针变量保存了数组元素的地址。我们就称之为数组元素指针,及数组指针。 数组指针的本质是指针,指向数组中的某个元素的地址。 由于数组名可以代表数组收元素地址,数组元素是可以通过 数组名[下标] 的格式访问, 那么可以定义一…

红酒行业新动态:抢先了解未来趋势

在风起云涌的红酒市场中&#xff0c;每一次变革都如同飓风般席卷整个行业。今日&#xff0c;我们一同探讨红酒行业的新动态&#xff0c;特别是定制红酒领域的未来趋势。让我们以洒派红酒&#xff08;Bold & Generous&#xff09;为引&#xff0c;洞察行业前沿&#xff0c;预…

60、redis安装和部署

一、关系型数据库与非关系型数据库 1.1、关系型数据库 关系型数据库是一个结构化的数据库&#xff0c;创建在关系模型&#xff08;二维表格模型&#xff09;基础上一般面向于记录。SQL语句&#xff08;标准数据查询语言&#xff09;就是一种基于关系型数据库的语言&#xff0…

2024-07学习笔记

1.${}取值 在这些属性源中&#xff0c;命令行参数和JVM系统属性拥有最高的优先级&#xff0c;它们可以覆盖在Properties文件中定义的属性。而操作系统环境变量和Properties文件的优先级相对较低&#xff0c;但是Spring会根据配置的不同情况进行属性的合并和覆盖&#xff0c;最终…

QUARKUS初体验

1.什么是QUARKUS&#xff1f; Quarkus是 Red Hat为GraalVM 和 HotSpot 量身定制用程序。特点是启动超快&#xff0c;内存极低&#xff0c;并且在容器编排平台&#xff08;如Kubernetes&#xff09;中提供了近乎即时的向上扩展和高密度的内存利用率。并且基于GraalVM&#xff0…

【YashanDB知识库】如何远程连接、使用YashanDB?

问题现象 在各个项目实施中&#xff0c;我们经常遇到客户、开发人员需要连接和使用YashanDB但不知如何操作的问题&#xff0c;本文旨在介绍远程连接、使用YashanDB的几种方式。 问题的风险及影响 无风险 问题影响的版本 历史版本~23.2 问题发生原因 无 解决方法及规避方…

Pytorch基础:Tensor的连续性

相关阅读 Pytorch基础https://blog.csdn.net/weixin_45791458/category_12457644.html?spm1001.2014.3001.5482 在Pytorch中&#xff0c;一个连续的张量指的是张量中各数据元素在底层的存储顺序与其在张量中的位置一致。这意味着每一个元素的地址可以通过下面的线性映射公式来…

MySQL8--用户与权限管理

原文网址&#xff1a;MySQL8--用户与权限管理_IT利刃出鞘的博客-CSDN博客 简介 说明 本文介绍MySQL8的用户与权限的管理&#xff0c;包括&#xff1a;用户的创建与删除、授权与撤销权限等。 为什么要管理用户与权限&#xff1f; 目的是保证数据库的安全性&#xff0c;只授…

TCP/IP协议——使用Socket套接字实现

目录 Socket 使用Socket实现TCP客户端和服务器的过程 使用Socket搭建TCP服务器 线程优化 向客户端发送消息 连接的断开 客户端主动断开 服务端主动断开 服务器完整的程序 使用Socket编写客户端程序连接TCP服务器 Socket Socket是一种网络通信协议&#xff0c;它允许…

不再担心数据丢失:用rsync打造你的自动化备份解决方案

在现代IT环境中&#xff0c;数据备份是一项至关重要的任务。无论是个人文件还是企业数据&#xff0c;都需要有可靠的备份机制来防止数据丢失。今天&#xff0c;我们将介绍一种高效的备份方案&#xff1a;使用rsync实现自动化备份目录。 什么是rsync&#xff1f; rsync 是一个开…

vscode+cmake+msvc+vcpkg的入门使用

一.环境安装 1.下载vscode并安装: Download Visual Studio Code - Mac, Linux, Windows 2.安装完成后&#xff0c;安装C和cmake 相关工具&#xff0c;如图。 3.vcpkg的下载和安装 克隆vcpkg的仓库到本地&#xff1a;https://github.com/microsoft/vcpkg.git&#xff0c;运行bo…

《学会 SpringMVC 系列 · 基础篇》

&#x1f4e2; 大家好&#xff0c;我是 【战神刘玉栋】&#xff0c;有10多年的研发经验&#xff0c;致力于前后端技术栈的知识沉淀和传播。 &#x1f497; &#x1f33b; CSDN入驻不久&#xff0c;希望大家多多支持&#xff0c;后续会继续提升文章质量&#xff0c;绝不滥竽充数…

deeplapv3 动机

语义分割是计算机视觉领域中重要的任务之一&#xff0c;语义分割的目的是为图像中的每个像素分配标签。相比于传统方法&#xff0c;以深度学习为基础的全卷积网络极大地提高了语义分割算法的性能。 在语义分割网络中&#xff0c;常用到如下2种结构&#xff1a; 空间金字塔池化…

C++STL简介(三)

目录 1.vector的模拟实现 1.1begin&#xff08;&#xff09; 1.2end&#xff08;&#xff09; 1.3打印信息 1.4 reserve&#xff08;&#xff09; 1.5 size&#xff08;&#xff09; 1.6 capacity&#xff08;&#xff09; 1.7 push_back() 1.8[ ] 1.9 pop_back() 1.10 insert&…

【涵子来信】——AI革新:1.新时代是便捷的,要会用

各位读者朋友们&#xff1a; 我们现在AI时代的十字路口&#xff0c;AI是为生活带来便利的&#xff0c;我们要会使用AI。今天这篇文章来讲述一下AI的正确使用。 一、 AI的使用 1.1.便捷之中要会辨别 AI是带来强大的&#xff0c;利用好可以给生活带来便捷。 像之前WWDC24宣传…

SAP 字符串关键字找程序

关键字查询程序 &#xff1a; RPR_ABAP_SOURCE_SCAN或RS_ABAP_SOURCE_SCAN