二.使用ffmpeg对原始音频数据重采样并进行AAC编码

news2025/3/20 16:54:02

重采样:将音频三元组【采样率 采样格式 通道数】之中的任何一个或者多个值改变。

一.为什么要进行重采样?

1.原始音频数据和编码器的数据格式不一致

2.播放器要求的和获取的数据不一致

3.方便运算

二.本次编码流程

1.了解自己本机麦克风参数,我的切换为44100/16/2;包括麦克风录音的size可能不一样,本机windows下录音的size为88200;

1.ffmpeg获取麦克风数据

2.ffmpeg对数据进行重采样(本次三元组无需变换)

3.使用AAC编码器对重采样后的数据进行AAC编码,然后存入.aac文件

4.使用ffplay播放测试

三.整体代码

#include "customcodex.hpp"

int add_samples_to_fifo(AVAudioFifo *fifo,
                        uint8_t **input_data,
                        const int frame_size)
{
    int ret = 0;
    int size = 0;
    printf("add_samples_to_fifo size:%d \n", frame_size);
    size = av_audio_fifo_size(fifo) + frame_size;
    ret = av_audio_fifo_realloc(fifo, size);
    if (ret < 0)
    {
        printf("Error, Failed to reallocate fifo!\n");
        return ret;
    }

    ret = av_audio_fifo_write(fifo, reinterpret_cast<void **>(input_data), frame_size);
    if (ret < frame_size)
    {
        printf("Error, Failed to write data to fifo!\n");
        return AVERROR_EXIT;
    }

    return 0;
}
int read_fifo_and_encode(AVAudioFifo *fifo,
                         AVFormatContext *fmt_ctx,
                         AVCodecContext *c_ctx,
                         AVFrame *frame)
{
    int ret = 0;

    const int frame_size = FFMIN(av_audio_fifo_size(fifo),
                                 c_ctx->frame_size);
    printf("read fifo - size : %d ,c_ctx->frame_size : %d\n", av_audio_fifo_size(fifo), c_ctx->frame_size);

    ret = av_audio_fifo_read(fifo, reinterpret_cast<void **>(frame->data), frame_size);
    if (ret < frame_size)
    {
        printf("Error, Failed to read data from fifo!\n");
        return AVERROR_EXIT;
    }

    return 0;
}
int open_coder(AVCodecContext **codec_ctx)
{
    // 编码器
    const AVCodec *codex = avcodec_find_encoder_by_name("libfdk_aac");
    // codex->capabilities = AV_CODEC_CAP_VARIABLE_FRAME_SIZE;
    if (!codex)
    {
        fprintf(stderr, "Codec not found\n");
        return -1;
    }
    // 编码器上下文
    *codec_ctx = avcodec_alloc_context3(codex);
    (*codec_ctx)->sample_fmt = AV_SAMPLE_FMT_S16;       // 采样大小
    (*codec_ctx)->channel_layout = AV_CH_LAYOUT_STEREO; //
    (*codec_ctx)->channels = 2;                         // 声道数
    (*codec_ctx)->sample_rate = 44100;                  // 采样率
    (*codec_ctx)->bit_rate = 0;                         // AAC 128k;AAC HE 64k; AAC_HE V2:32K
    // codec_ctx->profile = FF_PROFILE_AAC_HE_V2;       // 用哪个AAC
    if (avcodec_open2(*codec_ctx, codex, NULL) < 0)
    {
        fprintf(stderr, "failed avcodec_open2 \n");
        return -1;
    }
    return 0;
}
int encode(AVCodecContext *codec_ctx, AVFrame *avframe, AVPacket *outpkt, FILE *outfile)
{

    printf("open_coder - codec_ctx->frame_size: %d ,avframe-size:%d\n", codec_ctx->frame_size, avframe->nb_samples);
    int ret = avcodec_send_frame(codec_ctx, avframe);
    printf("avcodec_send_frame:%d\n", ret);
    if (ret < 0)
    {
        fprintf(stderr, "Error sending frame to encoder\n");
        return -1;
    }

    while (ret >= 0)
    {
        // 获取编码后的音频数据
        ret = avcodec_receive_packet(codec_ctx, outpkt);
        printf("avcodec_receive_packet:%d\n", ret);
        if (ret < 0)
        {
            printf("encode - ret: %d \n", ret);
            // 有数据但是不够了生成一帧了   没有数据了
            if (ret == AVERROR(EAGAIN) || ret == AVERROR_EOF)
                return 0;
            exit(-1);
        }
        printf("fwrite - outpkt.size: %d \n", outpkt->size);
        fwrite(outpkt->data, 1, outpkt->size, outfile);
        fflush(outfile);
    }
    return 0;
}

int read_audio()
{
    int ret = 0;
    char errors[1024];
    AVFormatContext *fmt_ctx = NULL;
    AVDictionary *options = NULL;
    AVAudioFifo *fifo = nullptr;
    FILE *outfile = fopen("./out.pcm", "wb+");
    FILE *outfile_aac = fopen("./out.aac", "wb+");
    if (outfile == nullptr)
    {
        printf("filed open out file\n");
    }

    AVPacket pkt;
    av_init_packet(&pkt);
    int frame_count = 0;
    const char *devicename = "audio=麦克风 (Realtek(R) Audio)";

    // 找到采集工具
    const AVInputFormat *iformat = av_find_input_format("dshow");
    if (iformat == NULL)
    {
        printf("AVInputFormat find failed \n");
        return -1;
    }
    // 打开音频设备
    ret = avformat_open_input(&fmt_ctx, devicename, iformat, &options);
    if (ret < 0)
    {
        av_strerror(ret, errors, 1024);
        av_log(NULL, AV_LOG_ERROR, "error:%s", errors);
        return -1;
    }

    // 重采样缓冲区
    uint8_t **src_data = NULL;
    int src_linesize = 0;

    uint8_t **dst_data = NULL;
    int dst_linesize = 0;

    // 初始化重采样上下文
    SwrContext *swr_ctx = initSwr();
    if (!swr_ctx)
    {
        printf("failed init swr\n");
        return -1;
    }

    // 编码器上下文
    AVCodecContext *codec_ctx;
    ret = open_coder(&codec_ctx);
    if (ret != 0)
    {
        return -1;
    }
    // 音频输入数据
    AVFrame *avframe = initInAvframe();
    //
    AVPacket *outpkt = av_packet_alloc();
    av_init_packet(outpkt);

    // Create the FIFO buffer for the audio samples to be encoded.
    fifo = av_audio_fifo_alloc(codec_ctx->sample_fmt, codec_ctx->channels, 1);
    if (!fifo)
    {
        printf("Error, Failed to alloc fifo!\n");
        return -1;
    }

    // 88200/2=44100/2=22050
    // 每次读取数据大小是88200,16位2个字节,双声道
    // 创建输入缓冲区
    initBuffer(&src_data, src_linesize, &dst_data, dst_linesize);

    av_log(NULL, AV_LOG_DEBUG, "src-size:%d , dst-size:%d\n", src_linesize, dst_linesize);
    int count = 0;
    while (1)
    {
        int frame_size = codec_ctx->frame_size;

        static bool finished = false;
        while (av_audio_fifo_size(fifo) < frame_size)
        {
            printf("av_audio_fifo_size(fifo) :%d , frame_size :%d\n", av_audio_fifo_size(fifo), frame_size);
            ret = av_read_frame(fmt_ctx, &pkt);
            printf("av_read_frame-ret : %d\n", ret);
            if (ret == 0)
            {
                printf("pkt-size:%d\n", pkt.size);
                memcpy((void *)src_data[0], (void *)pkt.data, pkt.size);
                ret = swr_convert(swr_ctx,                    // 重采样的上下文
                                  dst_data,                   // 输出结果缓冲区
                                  22050,                      // 每个通道的采样数
                                  (const uint8_t **)src_data, // 输入缓冲区
                                  22050);                     // 输入单个通道的采样数
                printf("swr_convert-ret:%d\n", ret);
                ret = add_samples_to_fifo(fifo, dst_data, 22050);
                printf("add_samples_to_fifo-ret:%d\n", ret);
            }
            if (count >= 20)
            {
                finished = true;
                break;
            }
            count++;
            printf("##################### count:%d\n", count);
        }

        while (av_audio_fifo_size(fifo) > frame_size || (finished && av_audio_fifo_size(fifo) > 0))
        {
            ret = read_fifo_and_encode(fifo, fmt_ctx, codec_ctx, avframe);
            encode(codec_ctx, avframe, outpkt, outfile_aac);
        }
        if (finished)
        {
            // 强制将编码器缓冲区中的音频进行编码输出
            encode(codec_ctx, nullptr, outpkt, outfile_aac);
            break;
        }
    }
    freePtr(src_data, dst_data, swr_ctx, fmt_ctx, outfile, outfile_aac);

    return 0;
}
void freePtr(uint8_t **src_data, uint8_t **dst_data, SwrContext *swr_ctx, AVFormatContext *fmt_ctx,
             FILE *outfile, FILE *outfile_aac)
{
    // 释放输入输出缓冲区
    if (src_data)
    {
        av_freep(&src_data[0]);
    }
    av_freep(src_data);
    if (dst_data)
    {

        av_freep(&dst_data[0]);
    }
    av_freep(dst_data);
    // 释放重采样的上下文
    swr_free(&swr_ctx);
    avformat_close_input(&fmt_ctx);
    fclose(outfile);
    fclose(outfile_aac);
    av_log(NULL, AV_LOG_DEBUG, "end");
}
SwrContext *initSwr()
{
    SwrContext *swr_ctx = swr_alloc();
    // 设置重采样参数
    av_opt_set_int(swr_ctx, "in_channel_count", 2, 0);
    av_opt_set_int(swr_ctx, "in_sample_rate", 44100, 0); // 输入采样率
    av_opt_set_sample_fmt(swr_ctx, "in_sample_fmt", AV_SAMPLE_FMT_S16, 0);

    av_opt_set_int(swr_ctx, "out_channel_count", 2, 0);
    av_opt_set_int(swr_ctx, "out_sample_rate", 44100, 0); // 输出采样率
    av_opt_set_sample_fmt(swr_ctx, "out_sample_fmt", AV_SAMPLE_FMT_S16, 0);
    swr_init(swr_ctx);
    return swr_ctx;
}
AVFrame *initInAvframe()
{
    AVFrame *avframe = av_frame_alloc();
    avframe->nb_samples = 1024; // 单通道一个音频的采样数
    avframe->format = AV_SAMPLE_FMT_S16;
    avframe->channel_layout = AV_CH_LAYOUT_STEREO; // AV_CH_LAYOUT_STEREO
    av_frame_get_buffer(avframe, 0);               // 22050*2*2=88200
    if (!avframe || !avframe->buf)
    {
        printf("failed get frame buffer\n");
        return nullptr;
    }
    return avframe;
}
void initBuffer(uint8_t ***src_data, int &src_linesize, uint8_t ***dst_data, int &dst_linesize)
{
    av_samples_alloc_array_and_samples(src_data,          // 输出缓冲区地址
                                       &src_linesize,     // 缓冲区的大小
                                       2,                 // 通道个数
                                       22050,             // 单通道采样个数
                                       AV_SAMPLE_FMT_S16, // 采样格式
                                       0);

    // 创建输出缓冲区
    av_samples_alloc_array_and_samples(dst_data,          // 输出缓冲区地址
                                       &dst_linesize,     // 缓冲区的大小
                                       2,                 // 通道个数
                                       22050,             // 单通道采样个数
                                       AV_SAMPLE_FMT_S16, // 采样格式
                                       0);
}

四.遇到的问题

1.采样格式和采样个数不明确

解决办法:查看系统声音设置中,相应设备的输出格式,一般包含位深和采样率

采样个数的话通过打开并读取音频数据,可以通过pkt.size打印出来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2318484.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

实现前端.ttf字体包的压缩

前言 平常字体包都有1M的大小&#xff0c;所以网络请求耗时会比较长&#xff0c;所以对字体包的压缩也是前端优化的一个点。但是前端如果想要特点字符打包成字体包&#xff0c;网上查阅资料后&#xff0c;都是把前端代码里面的字符获取&#xff0c;但是对于动态的内容&#xf…

uni-app集成保利威直播、点播SDK经验FQ(二)|小程序直播/APP直播开发适用

通过uniapp集成保利威直播、点播SDK来开发小程序/APP的视频直播能力&#xff0c;在实际开发中可能会遇到的疑问和解决方案&#xff0c;下篇。更多疑问请咨询19924784795。 1.ios不能后台挂起uniapp插件 ios端使用后台音频播放和画中画功能&#xff0c;没有在 manifest.json 进…

Sensodrive机器人力控关节模组SensoJoint在海洋垃圾清理机器人中的拓展应用

海洋污染已成为全球性的环境挑战&#xff0c;其中海底垃圾的清理尤为困难。据研究&#xff0c;海洋中约有2600万至6600万吨垃圾&#xff0c;超过90%沉积在海底。传统上&#xff0c;潜水员收集海底垃圾不仅成本高昂&#xff0c;而且充满风险。为解决这一问题&#xff0c;欧盟资助…

Git的基本指令

一、回滚 1.git init 在项目文件夹中打开bash生成一个.git的子目录&#xff0c;产生一个仓库 2.git status 查看当前目录下的所有文件的状态 3.git add . 将该目录下的所有文件提交到暂存区 4.git add 文件名 将该目录下的指定文件提交到暂存区 5.git commit -m 备注信…

Vitis 2024.1 无法正常编译custom ip的bug(因为Makefile里的wildcard)

现象&#xff1a;如果在vivado中&#xff0c;添加了自己的custom IP&#xff0c;比如AXI4 IP&#xff0c;那么在Vitis&#xff08;2024.1&#xff09;编译导出的原本的.xsa的时候&#xff0c;会构建build失败。报错代码是&#xff1a; "Compiling blank_test_ip..."…

Elasticsearch 在航空行业:数据管理的游戏规则改变者

作者&#xff1a;来自 Elastic Adam La Roche 数字化客户体验不再是奢侈品&#xff0c;而是欧洲航空公司必不可少的需求。它推动了客户满意度&#xff0c;提升了运营效率&#xff0c;并创造了可持续的竞争优势。随着行业的不断发展&#xff0c;优先投资前沿数字技术和平台的航空…

DeepSeek 模型的成本效益深度解析:低成本、高性能的AI新选择

网罗开发 &#xff08;小红书、快手、视频号同名&#xff09; 大家好&#xff0c;我是 展菲&#xff0c;目前在上市企业从事人工智能项目研发管理工作&#xff0c;平时热衷于分享各种编程领域的软硬技能知识以及前沿技术&#xff0c;包括iOS、前端、Harmony OS、Java、Python等…

利用knn算法实现手写数字分类

利用knn算法实现手写数字分类 1.作者介绍2.KNN算法2.1KNN&#xff08;K-Nearest Neighbors&#xff09;算法核心思想2.2KNN算法的工作流程2.3优缺点2.4 KNN算法图示介绍 3.实验过程3.1安装所需库3.2 MNIST数据集3.3 导入手写数字图像进行分类3.4 完整代码3.5 实验结果 1.作者介…

基于springboot+vue的调查问卷平台

一、系统架构 前端&#xff1a;vue | element-ui | echarts 后端&#xff1a;springboot | mybatis-plus 环境&#xff1a;jdk1.8 | mysql | maven 二、代码及数据 三、功能介绍 01. 注册 02. 登录 03. web端-问卷中心 04. web端-文章中心 05. 管理端-…

美摄接入DeepSeek等大模型,用多模态融合重构视频创作新边界!

今年以来&#xff0c;DeepSeek凭借其强大的深度推理分析能力&#xff0c;在AI领域掀起新的热潮。美摄科技快速响应市场需求&#xff0c;迅速接入以DeepSeek、通义千问、商汤、文心一言为代表的大模型&#xff0c;为企业视频创作生产带来全新体验。 传统视频创作面临着同质化、…

网络编程之客户端聊天(服务器加客户端共三种方式)

最终效果&#xff1a; serve.c #include <stdio.h> #include <stdlib.h> #include <string.h> #include <unistd.h> #include <arpa/inet.h> #include <sys/select.h>#define MAX_CLIENTS 2 // 只允许两个客户端 #define BUF_SIZE 1024i…

图莫斯TOOMOSS上位机TCANLINPro使用CAN UDS功能时 编写、加载27服务dll解锁算法文件

【本文发布于https://blog.csdn.net/Stack_/article/details/146303690&#xff0c;未经许可不得转载&#xff0c;转载须注明出处】 软件安装目录下找到如下压缩包&#xff0c;此为dll文件示例工程 使用VisualStudio打开工程GenerateKeyExImpl.vcxproj&#xff0c;可能会提示版…

vue+echarts实现饼图组件(实现左右联动并且数据量大时可滚动)

pieChart.vue(直接cv即可) <template><div class"rBox1"><div id"rBox1"></div></div> </template><script> export default {name: "pieChart",dicts: [],props: {subtext: {type: String,default…

Linux vim mode | raw / cooked

注&#xff1a;机翻&#xff0c;未校。 vim terminal “raw” mode Vim 终端 “raw” 模式 1. 原始模式与已处理模式的区别 We know vim puts the terminal in “raw” mode where it receives keystrokes as they are typed, opposed to “cooked” mode where the command…

IMX8MP Android 10系统编译SDK

概述&#xff1a; 本文描述了在Ubuntu 20.04操作系统上搭建IMX8MP Android10系统编译环境。 ubuntu主机端设置 1. ubuntu 20.04 1. 450G Free Disk space 2. 16GB RAM以上 3. 安装 sudo apt-get install uuid uuid-dev zlib1g-dev liblz-dev liblzo2-2 liblzo2-dev lzop …

ICLR 2025 机器人智能灵巧操作更进一步DexTrack

现实世界的机器人距离科幻小说里的机器人世界还有多远&#xff1f;通用灵巧操控何时才能实现&#xff1f;朝着这一伟大的目标&#xff0c;研究通用灵巧操控轨迹跟踪的 DexTrack 便应运而生。 论文地址&#xff1a;https://arxiv.org/abs/2502.09614代码地址&#xff1a;https:/…

Golang开发

Golang 文章目录 Golang预备技术一、算法与数据结构第1章&#xff1a;基础算法第2章&#xff1a;数据结构第3章&#xff1a;搜索与图论第4章&#xff1a;数论第5章&#xff1a;动态规划第6章&#xff1a;贪心第7章&#xff1a;算法竞赛入门 二、Linux操作系统与Shell编程三、计…

AI入门7:python三种API方式调用本地Ollama+DeepSeek

回顾 书接上篇&#xff1a;各种方式搭建了本地知识库&#xff1a; AI入门&#xff1a;AI模型管家婆ollama的安装和使用-CSDN博客 AI入门2&#xff1a;本地AI部署&#xff0c;用ollama部署deepseek&#xff08;私有化部署&#xff09;-CSDN博客 AI入门3&#xff1a;给本地d…

《线程池:Linux平台编译线程池动态库发生的死锁问题》

关于如何编译动态库可以移步《Linux&#xff1a;动态库动态链接与静态库静态链接》-CSDN博客 我们写的线程池代码是闭源的&#xff0c;未来想提供给别人使用&#xff0c;只需要提供so库和头文件即可。 系统默认库文件路径为&#xff1a; usr/lib usr/loacl/lib 系统默认头文件…

Python Bug修复案例分析:Python 中常见的 IndentationError 错误 bug 的修复

在 Python 编程的世界里&#xff0c;代码的可读性和规范性至关重要。Python 通过强制使用缩进来表示代码块的层次结构&#xff0c;这一独特的设计理念使得代码更加清晰易读。然而&#xff0c;正是这种对缩进的严格要求&#xff0c;导致开发者在编写代码时&#xff0c;稍有不慎就…