比 faster-whisper 至少快10倍的音视频转换文字

news2024/9/9 5:34:15

背景介绍

前两天我自己玩玩搞搞一个音频转文字服务,基于 faster-whisper,本想着这个已经是很快的了,没想到还有比它更快的,今天就来介绍使用一下。

FunClip,是阿里巴巴推出的一个智能视频剪辑工具,它结合了人工智能技术,特别是语音识别和自然语言处理,提供了一种全新的视频剪辑体验。通过集成阿里巴巴通义实验室的 FunASR Paraformer 系列模型,FunClip 能够对视频中的语音内容进行自动识别,并根据识别结果进行视频剪辑。

我们就是利用它的语音识别和自然语言处理的一部分功能,快速实现对音频,以及视频进行文字转录

注意:目前仅支持中文,后续有可能会迭代加入英文或者其他更多语言

GitHub项目地址:https://github.com/alibaba-damo-academy/FunClip

功能特点

1:语音识别与转录:FunClip 利用 FunASR Paraformer 系列模型进行视频语音的自动识别,并将语音转换为文字,支持热词定制化和说话人识别,提升了特定词汇的识别准确率,并能自动生成 SRT 字幕文件。
2:视频剪辑:用户可以根据识别结果中的文本片段或说话人,快速裁剪出所需视频片段。FunClip 支持多段剪辑,并提供了灵活的编辑能力,用户可以在剪辑过程中自由组合多个视频片段。
3:用户界面:FunClip 提供了简洁明了的用户界面,操作简单易懂,支持在服务端搭建服务,并通过浏览器进行视频剪辑。
4:部署方式:FunClip 支持本地部署,用户可以通过简单的命令行操作进行安装和启动。

本地部署

1:利用 git 或者 直接下载代码到本地,推荐使用git

	git clone https://github.com/alibaba-damo-academy/FunClip.git

2:安装依赖,需要本地有python环境,推荐python>=3.10

	cd FunClip
	pip install -r ./requirements.txt

3:启动项目服务,会自动下载所需模型以及依赖,集成了操作页面,可以访问返回的地址链接进行浏览器访问

	python funclip/launch.py

4:不依赖界面,使用命令行进行操作 -------------- 识别语音

	python funclip/videoclipper.py --stage 1 --file /data/sese.mp4 --output_dir ./output
	---------------------------------------------
	--file:你要识别的音视频文件目录地址
	--output_dir:生成的srt文件放到的文件夹

测试

使用一个233秒的音乐视频,从开始识别到输出结果,用了大概5秒钟,加上加载一些依赖,共用了14秒左右
(我的GPU服务器有点拉,配置好点的会更快)
在这里插入图片描述
这是生成的srt文件内容,会自动打点每句话的开始和结束时间
在这里插入图片描述

其他功能

1:识别说话人,可快速提取说话人的内容以及剪切说话人的所有镜头或者音频
2:自动加字幕
3:AI总结推理

结语

我是个开发者,比较喜欢用命令的方式调用,也粗读了一下项目代码,从入口文件 funclip/launch.py,里面有我觉得比较实用的定义的功能方法:

1:mix_recog:简单识别成文字

2:mix_recog_speaker : 识别成文字,并添加每句话是哪个说话人说的,带说话人的识别,srt里会有个spaker 的标识

3:mix_clip :剪切音视频的入口,可以根据说话内容和说话人进行定向剪切

4:llm_inference:用AI模型给你自动总结的,根据srt里的内容,你可以定义prompt,让AI给你提取内容剪切,推荐使用阿里的qwen系列,在阿里云百炼平台开通并拿到apikey,就能使用

5:AI_clip:智能剪切

😄😄😄😄😄😄😄😄😄😄😄😄😄😄其他更多功能自行发觉吧😄😄😄😄😄😄😄😄😄😄😄

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1961663.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机毕业设计选题推荐-某炼油厂盲板管理系统-Java/Python项目实战

✨作者主页:IT研究室✨ 个人简介:曾从事计算机专业培训教学,擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Python…

[Bugku] web-CTF靶场详解!!!

平台为“山东安信安全技术有限公司”自研CTF/AWD一体化平台,部分赛题采用动态FLAG形式,避免直接抄袭答案。 平台有题库、赛事预告、工具库、Writeup库等模块。 ------------------------------- Simple_SSTI_1 启动环境: 页面提示传入参数f…

【Qt】QLCDNumberQProgressBarQCalendarWidget

目录 QLCDNumber 倒计时小程序 相关属性 QProgressBar 进度条小程序 相关设置 QLCDNumber QLCDNumber是Qt框架中用于显示数字或计数值的小部件。通常用于显示整数值,例如时钟、计时器、计数器等 常用属性 属性说明intValueQLCDNumber显示的初始值(int类型)va…

【全面介绍下Gitea,什么是Gitea?】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

这几个高级爬虫软件和插件真的强!

亮数据(Bright Data) 亮数据是一款强大的数据采集工具,以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据,包括产品信息、价格、评论和社交媒体数据等。 网站:https://get.brightdata.com/we…

ubuntu安装并配置flameshot截图软件

参考:flameshot key-bindins 安装 sudo apt install flameshot自定义快捷键 Settings->Keyboard->View and Customize Shortcuts->Custom Shortcuts,输入该快捷键名称(自定义),然后输入command(…

RFID物流智能锁在物流锁控领域的意义与应用

在当今全球化和电子商务迅速发展的时代,物流行业作为经济的重要支撑,面临着日益增长的安全、效率和管理需求。物流锁控作为保障货物在运输过程中安全与完整的关键环节,传统的机械锁和简单电子锁已经难以满足现代物流复杂多变的业务场景。 一、…

前缀表达式(波兰式)和后缀表达式(逆波兰式)的计算方式

缀是指操作符。 1. 前缀表达式(波兰式) (1)不需用括号; (2)不用考虑运算符的优先级; (3)操作符置于操作数的前面。(如 3 2 ) 1.1 中…

3.5.3、查找和排序算法-插入类排序和选择类排序

术语说明 稳定:如果a原本在b前面,而ab,排序之后a仍然在b的前面; 不稳定:如果a原本在b的前面,而ab,排序之后a可能会出现在b的后面; 例如:数组{1,2,3,3,4,7,6}。如果排序后,两个3的位…

【嵌入式之RTOS】死锁问题详解

目录 一、什么是死锁 二、产生死锁的四个必要条件 三、避免死锁的方法 四、实际应用中的考虑 一、什么是死锁 死锁(Deadlock)是多任务或多线程环境中一个常见的问题,尤其是在实时操作系统(RTOS)中,如果…

kvm虚拟化平台部署

kvm虚拟化平台部署 kvm概念简介 kvm自linux2.6版本以后就整合到内核中,因此可以看做是一个原生架构. kvm虚拟化架构 硬件底层提供物理层面的硬件支持 linux(host),就相当于这个架构中的宿主机,上面运行了多个虚拟机。…

替换后端国外身份目录服务,宁盾身份域管接管FileNet助力国产化升级

IBM FileNet 是一款优秀的企业内容管理解决方案,为客户提供了领先的文档管理和流程管理集成环境,被大量企业所采用。FileNet 需要使用企业级的目录服务器(LDAP)作为其用户管理系统,满足其认证和授权的需求。对于 LDAP …

最高200万!苏州成都杭州的这些AI政策补贴,你拿到了吗?

随着全球人工智能技术的迅猛发展,地方政府纷纷出台相关政策以抢占未来科技的制高点。苏州 成都 杭州这三个城市更是推出了一系列AI政策补贴,旨在通过多方面支持,推动本地AI产业的发展。本文将带你了解目前不完全统计到的苏州 成都 杭州三地AI…

【Vulnhub系列】Vulnhub_pipe 靶场渗透(原创)

【Vulnhub系列靶场】Vulnhub-pipe 靶场渗透 原文转载已经过授权 原文链接:Lusen的小窝 - 学无止尽,不进则退 (lusensec.github.io) 一、环境配置 1、解决IP扫描不到问题 2、打开虚拟机,并修改网络连接模式为【NAT】即可 二、信息收集 1…

Python实战——轻松实现动态网页爬虫(附详细源码)

大家好&#xff0c;我是东眠的鱼&#xff0c;专注原创&#xff0c;致力于用浅显易懂的语言分享爬虫、数据分析及可视化等干货&#xff0c;希望人人都能学到新知识。<文末附带精品籽料哦&#xff0c;也可以和博主一起学Python呀&#xff01;> 项目背景 有同学自学爬虫时…

前端vue3 巧妙的checkbox 选中框样式

我们 做前端页面交互效果的时候 我们会使用到 checkbox 复选框 做一些交互的效果 我是用的是 nut-ui 组件库中的 checkbox 组件 类似于这样的选中效果 假如 二选一的那种 可以 这样写 交互好看 而不是单纯的 checkbox 框 这里我就不使用 gif 图片了 大家应该都可以看懂的 …

A股继续震荡下行,成交量继续一蹶不振。

A股继续震荡下行&#xff0c;成交量继续一蹶不振。今天的A股&#xff0c;让人揪心不已&#xff0c;你们知道是为什么吗&#xff1f;盘面上出现1个重要信号&#xff0c;一起来看看&#xff1a; 1、今天两市低开低走&#xff0c;向下回补了2867点的缺口&#xff0c;让人揪心不已。…

计算机毕业设计选题推荐-基于司机信用评价的货运管理系统-Java/Python项目实战

✨作者主页&#xff1a;IT毕设梦工厂✨ 个人简介&#xff1a;曾从事计算机专业培训教学&#xff0c;擅长Java、Python、微信小程序、Golang、安卓Android等项目实战。接项目定制开发、代码讲解、答辩教学、文档编写、降重等。 ☑文末获取源码☑ 精彩专栏推荐⬇⬇⬇ Java项目 Py…

CUDA_Occupancy_Calculator计算公式

CUDA_Occupancy_Calculator计算公式

6 Java的基本程序设计结构(基本语法5)- 面向对象进阶

文章目录 面向对象进阶一、 static 静态1 静态变量(1)基本定义和用法(2)静态变量内存图2 静态方法(1)基本定义和用法(2)工具类练习:按下面需求写一个工具类3 static注意事项4 重新认识main方法二、继承1 继承的概念2 继承的特点3 继承到底能继承父类中的哪些内容?4 继…