FunClip,音视频识别,自动化剪辑,文本校对,智能纠错,导出SRT

news2024/11/16 23:34:51

今天给大家介绍一个自动化剪辑项目——FunClip,该项目是由阿里开源的,可以识别音频、视频中的文字,一键剪辑和添加字幕。

FunClip是一款高效的自动化视频剪辑工具,它利用语音识别技术对视频内容进行分析。用户可以在识别结果中选择所需的文本片段或特定说话人,然后通过点击剪辑按钮,快速获得所选片段对应的视频片段。

【FunClip校对版,音视频识别,自动化剪辑,文本校对,智能纠错,导出SRT】 https://www.bilibili.com/video/BV164pyekEv6/?share_source=copy_web&vd_source=09316244e4ff3a9793930d67cf748288

语音识别基于阿里巴巴通义实验室自研并开源的FunASR工具包,以及Paraformer系列模型,这些技术涵盖了语音识别、端点检测、标点预测、时间戳预测、说话人区分以及热词定制化等开源链路,为用户提供了一种创新且便捷的视频编辑解决方案。

我在一位粉丝的建议下增加以下几个功能:

  • 增加文本校对功能
  • 增加大模型智能纠错(支持kimi和千问plus)
  • 支持导出正确的SRT

配置要求

以下是整合包运行所需配置

WIN

  • Windwos10/11操作系统
  • 支持CPU/GPU
  • N卡8G显存(6G显存没测试过)

MAC

  • Apple Silicon M系列芯片
  • MacOS 12.1以上版本

快速上手

上传视频或音频

点击识别

识别后会生成识别的结果和SRT字幕

然后我们需要拿着生成的结果去做裁剪

裁剪方式有两种:

  • 大模型智能裁剪
  • 根据文本/说话人裁剪

大模型智能裁剪需要选择模型和填入apikey

根据文本/说话人裁剪需要将刚才识别出的文本粘贴进文本框内

然后点击裁剪或者裁剪+字幕

这里我选的是裁剪+字幕

生成的视频中会自动添加字幕

以上就是比较简单的使用流程,下面我来介绍下校对功能的使用

文本校对

如何开启文本校对和智能纠错?

原始文本里上传你的文案即可开启。

如果没上传,默认不开启校对和纠错。

文案格式目前只支持txt。

例子1:

例子2:

文本无论每段换行或者都写在一段里都支持。

然后记得上传视频和音频

智能校对/纠错需要用到大模型,这里需要填写对应的APIkey。APIkey的获取教程后面有讲到。

这里我只添加了两个大模型,一个是kimi,一个是千问plus。

根据测试kimi会更准确些,所以比较推荐kimi的。

考虑到网络环境的问题,我只添加了国内的。

其实还可以添加更多的...后面再说吧

填写APIkey,粘贴进去是换行的没关系的,你只要复制的时候没空格没换行就可以。

然后点击识别

校对模式下的识别速度要比普通识别速度慢一些(需要请求大模型)

然后可以看到原始文本、识别结果、文本比对这三个部分。

蓝色是识别的结果,红色是原始文本的结果

同样的,也会生成一份SRT的对比

正确的SRT文本会在项目目录内的SRT文件夹

SRT里的内容已经是纠错后的内容。

比如你正确的文案里是有2个,然后识别的是有一个

最后纠错后的SRT里就是有2个

以上就是校对的使用方式。下面讲下如何获取APIkey

获取APIkey

kimi

官网

https://login.moonshot.cn/?source=https://platform.moonshot.cn/redirect&appid=dev-workbench

登录后实名认证

然后在APIkey管理这里新建一个,将APIkey填入FunClip中即可

新用户应该会送15元的额度

阿里千问plus

官网

https://account.aliyun.com/login/login.htm?oauth_callback=https://bailian.console.aliyun.com/&lang=zh#/home

创建APIkey

选择默认的业务空间

点击查看

点击复制,将这个key粘贴到FunClip中就可以

记得点击这里的开通,不然的话apikey无法正常使用。

确认开通就可以了。

注意

比较遗憾的是校对模式不支持在FunClip中进行直接添加字幕。

比如我们将正确的文案输入进去。

添加字幕的时候会报错

这是因为FunClip添加字幕的时候是以识别的结果来的,这部分的逻辑我还在看,如果后续支持会更新新的版本。

所以目前的解决方案是拿正确的SRT去剪辑软件中添加字幕

整合包获取

👇🏻👇🏻👇🏻下方下方下方👇🏻👇🏻👇🏻

关注公众号,发送【FunClip】关键字获取整合包。

如果发了关键词没回复你!记得看下复制的时候是不是把空格给粘贴进去了!

【FunClip校对版,音视频识别,自动化剪辑,文本校对,智能纠错,导出SRT】 https://www.bilibili.com/video/BV164pyekEv6/?share_source=copy_web&vd_source=09316244e4ff3a9793930d67cf748288

写到最后

起初是一位老哥(id:夢想家静旬)找到我跟我聊这个项目,问能不能加一个导出srt的功能。

再加上我很早就看到FunClip这个项目,但是一直还没来得及制作。

我觉得可以,导出SRT功能没什么难度,接着他又跟我讲了能不能做个纠错,因为某些情况下AI并不是能很好的识别出正确的文案,但是他们有原始的正确文案。希望可以用FunClip识别字幕,识别分段和标点符号,最后根据正确的文案更正到SRT文件中。

并且给我讲了几个使用场景

并且非常耗费时间

我觉得这个想法挺好的,可以搞一个试试。

在与老哥讨论了一段时间后做出了第一个版本的纠错Demo

然后老哥也提了一些建议,比如界面不够直观、导出srt问题等。调整后也就是大家看到的这个版本。

当然老哥也有建议我收费,我觉得没必要。

因为这个只是我学习过程中的一次尝试,再加上这个功能在某方面还不完美。

独乐乐不如众乐乐,希望可以帮助到更多人。

制作不易,如果本文对您有帮助,还请点个免费的赞或在看!感谢您的阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2052653.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

重生奇迹MU 梦幻骑士 真正生而高贵的职业

作为重生奇迹MU梦幻骑士中真正生而高贵的职业,圣骑士是玩家们最为追捧的职业之一。在游戏内,圣骑士拥有着强大的防御和治疗能力,成为团队中不可或缺的存在。如果你正准备选择一个强大的职业,那么不妨考虑成为一名圣骑士&#xff0…

选择文件摆渡系统要遵守的“三要”和“三不要”原则

文件摆渡系统不仅可以实现企业网络隔离后的数据摆渡需求,同时也可以视作企业数据安全及网络安全建设的重要组成部分。文件摆渡系统的选择也很关键,在企业进行筛选时,应该遵守“三要”和“三不要”原则。 “三要”之一:要安全 文件…

MySQL对事务的支持

5.MySQL对事务的支持情况: 5.1. 查看存储引擎对事务的支持情况 : 1.SHOW ENGINES 命令来查看当前 MySQL 支持的存储引擎都有哪些,以及这些存储引擎是否支持事务2.下图可以能看出在 MySQL 中,只有InnoDB类型的存储引擎是支持事务…

轻松搞定 Java7 新特性,示例丰富

Java 7 是 Java 语言的一个主要版本,于 2011 年 7 月 28 日正式发布。 由 Sun Microsystems 开发并由 Oracle 公司发布的一个重要版本,它带来了许多新功能特性,增强了编程语言的能力和性能。 以下是一些 Java 7 的主要新功能特性&#xff1…

基于SSM的体育馆预约管理系统---附源码84196

摘 要 体育馆作为一个重要的运动场所,需要进行预约管理以保证资源的合理利用和场馆秩序的维护。传统的人工预约管理方式存在效率低、容易出错等问题,因此,在互联网高速发展的当下,需要设计和实现一个基于SSM的体育馆预约管理系统&…

关于LLC知识9

1、上图有多条增益曲线,是每种不同的输出负载都对应一条增益曲线,在f1时候每个曲线都汇聚一点,说明只要输出电压频率f1时,不论输出负载是多少,增益是一样的,不受负载影响G1(Lr与Cr发生谐振&…

[单master节点k8s部署]21.EFK日志收集平台介绍

大型系统是一个分布式部署的架构,不同的服务模块部署在不同的服务器上,问题出现时,大部分情 况需要根据问题暴露的关键信息,定位到具体的服务器和服务模块,构建一套集中式日志系统,可以提高 定位问题的效率…

构建自己的语音助手

在我最近发布关于如何构建自己的 RAG 并在本地运行它的帖子之后。今天,我们更进一步,不仅实现了大型语言模型的对话能力,还增加了听力和口语能力。这个想法很简单:我们将创建一个语音助手,让人想起标志性钢铁侠电影中的…

基于asp.net的办公协同管理系统源码分享

今天给大家分享一个asp.net开发的webform框架的办公协同管理系统源码SQLserver数据库 1.主要功能 这个项目是帮助一个学生指导的毕业设计,包含用户登陆、用户管理、车辆 管理、文件管理、个人中心、后台管理、文件上传、人事管理、系统日志等 等模块。2.开发工具及…

【Django-vue-admin学习笔记】页面自动计算日期差额的方法

在许多应用场景中,尤其是在管理系统中,经常需要对日期进行动态计算和展示,以帮助用户了解关键日期的即时状态。例如,在学生宿舍管理系统中,显示学生的退宿倒计时可以帮助管理人员有效监控即将到期的宿舍安排,并及时进行必要的调整。这样的功能不仅提高了管理效率,也增加…

H5接入企微JS-SDK,使用wx.previewFile进行文件预览

最近上项目,需求是做一个附件预览并且可以进行保存到手机、用其他应用打开的需求的需求,用企微的JS-SDK的wx.previewFile就可以满足以上的需求了 详细的可以参考:企业微信官方文档 前端 1、在项目的index.html中添加:jweixin-1.2…

两种用MATLAB绘制色块的方法

绘制色块首先可以想到用填充像素的方式 % 定义图像的尺寸 imageSize 500;% 创建一个 imageSize x imageSize x 3 的矩阵,每个像素都是绿色 % RGB颜色模型中绿色的值为 [0, 1, 0] greenImage zeros(imageSize, imageSize, 3); greenImage(:, :, 2) ones(imageSiz…

Kubeadm快速安装 Kubernetes集群

Kubernetes的基础概念 Kubernetes(通常简称为K8s)是一个开源的容器编排系统,用于自动化部署、扩展和管理容器化应用程序。Kubernetes 提供了强大的抽象能力,使得开发者能够专注于应用程序的逻辑,而无需担心底层容器的…

某框架路由渗透

前言 某天在互联网平台上看待DWR路由的文章,然后去搜索了一下相关的信息,发现该DWR路由技术挺久远的,因此就简单的学习了一下该路由,然后发现该DWR路由也可能存在漏洞点,因此找了某站进行测试看看是否有无啥收获&…

学习笔记 韩顺平 零基础30天学会Java(2024.8.15)

P512 ArrayList底层源码2 P513 Vector注意事项 最近有点懈怠,要去新的环境上学了,有点焦虑,调整状态ing,准备开始研一,希望能继续本科的荣耀!! PS:本科应该算是荣耀的吧哈哈哈哈哈

高性价比运动耳机都有哪些?五大高性价比运动耳机推荐

对于很多人来说,大家可能会选择听音乐来放松身心,打发掉无聊的时间。开放式耳机对比入耳式耳机的优势就是既能听到耳机内的声音又能感知环境音,很适合在户外以及办公时使用。像我每天坐地铁上下班的时候都会习惯戴耳机,但以前戴入…

微信视频号评论采集秘籍:三招让你迅速收集用户反馈

在短视频盛行的今天,微信视频号以其庞大的用户基数成为品牌与用户互动的重要阵地。但如何从海量评论中迅速收集有价值的用户反馈,成为众多内容创作者与营销人员的难题。本文将揭秘三招实用技巧,助你高效采集微信视频号评论,精准把…

使用HTML和cgi控制I.MX6ULL开发板上的LED

一.HTML文件 <!DOCTYPE html> <html><head><meta charset"utf-8"><title>LED_device</title> </head><body><form action"/cgi-bin/led.cgi" method"post"><p>LED设备号</…

夫妻双方均年过四十长期分居,离婚不仅因为不同房!李秘书专业写作:这是一篇涉离婚纠纷的民事起诉状

夫妻双方均年过四十长期分居&#xff0c;离婚不仅因为不同房&#xff01; 李秘书专业写作&#xff1a;这是一篇涉离婚纠纷的民事起诉状 &#xff08;精品范文&#xff09; 离 婚 起 诉 状 原告&#xff1a;曹某琴&#xff0c;女&#xff0c;现年40岁&#xff0c;汉族&#x…

Web前端 - HTML、CSS

w3school 在线教程 Vscode工具&#xff1a; Live Preview: 右键show Preview 实时预览效果 Live Preview: HTML AI助手 CSS (Cascading Style Sheets&#xff0c;层叠样式表&#xff09;&#xff0c;是一种用来为结构化文档&#xff08;如 HTML 文档或 XML 应用&#xff0…