SenseVoice 音频转文字情绪识别

SenseVoice 音频转文字情绪识别 - python 实现

news2025/4/10 9:03:45

具体代码实现如下：

from funasr import AutoModel
from funasr.utils.postprocess_utils import rich_transcription_postprocess

path_audio = "emo/happy.mp3"# 音频文件
# 加载模型
model_dir = "iic/SenseVoiceSmall"
model = AutoModel(
    model=model_dir,
    trust_remote_code=True,
    remote_code="./model.py",
    vad_model="fsmn-vad",
    vad_kwargs={"max_single_segment_time": 30000},
    device="cuda:0",
    cache_dir = "./ckpt"
)
# 模型预测识别
res = model.generate(
    input=path_audio,
    cache={},
    language="auto",  # "zn", "en", "yue", "ja", "ko", "nospeech"
    use_itn=True,
    batch_size_s=60,
    merge_vad=True,  #
    merge_length_s=15,
)
# text = rich_transcription_postprocess(res[0]["text"])
print("音频文件：{}".format(path_audio))
print("识别预测结果：{}".format(res[0]["text"]))

脚本运行log如下：

音频文件：emo/happy.mp3
识别预测结果：<|zh|><|HAPPY|><|Speech|><|withitn|>你好，见到你很高兴。

助力快速掌握数据集的信息和使用方式。

数据可以如此美好！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2249273.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

SenseVoice 音频转文字情绪识别 - python 实现

相关文章

Java学习笔记--继承方法的重写介绍,重写方法的注意事项，方法重写的使用场景，super和this

深入浅出摸透AIGC文生图产品SD（Stable Diffusion）

OSI七层模型和TCP/IP五层模型详细介绍

360推出全新的生成式 AI 搜索产品：纳米搜索，要重塑搜索产品

【超全】目标检测模型分类对比与综述:单阶段、双阶段、有无锚点、DETR、旋转框

c#:winform引入bartender

vue 实现关键字高亮效果

初始Python篇（7）—— 正则表达式

[DL]深度学习_扩散模型正弦时间编码

【Linux】网络基本配置命令

如何搭建一个小程序：从零开始的详细指南

学习threejs，使用设置lightMap光照贴图创建阴影效果

【前端】JavaScript中的柯里化（Currying）详解及实现

springboot 整合 rabbitMQ (延迟队列)

Java代码操作Zookeeper（使用 Apache Curator 库）

Django实现智能问答助手-基础配置

【ESP32CAM+Android+C#上位机】ESP32-CAM在STA或AP模式下基于UDP与手机APP或C#上位机进行视频流/图像传输

从〇开始深度学习(0)——背景知识与环境配置

mac下Gpt Chrome升级成GptBrowser书签和保存的密码恢复

圆域函数的傅里叶变换和傅里叶逆变换