不到1分钟,帮你剪完旅行vlog,火山引擎全新 AI「神器」真的这么绝?

news2024/11/19 3:21:35

旅行时,想在社交平台发布一支精美的旅行 vlog,拍摄剪辑需要花费多长时间?

20 分钟?一小时?半天?

在火山引擎算法工程师眼里,可能 1 分钟都用不了,因为会有 AI 替你完成。

没错,火山引擎近期推出了一款「创意互动 vlog」产品,你只需要在进入景区时注册授权,AI 就会帮你拍摄游玩中的精彩画面,自动剪辑成旅行 vlog。

全程无需自己动手,无需费心选择拍摄地点,无需请他人帮忙拍摄,甚至游玩时不用掏出手机或相机,也不用纠结修图美颜,你只需认真享受这段经历,还没出大门,就能获得一条可以直接发抖音的视频。

「创意互动 vlog」前不久在 2023 春季火山引擎 FORCE 原动力大会正式发布,目前已在国内各地多个景区上线。

这款产品的背后,是一支奔着各大旅游景区到处跑的字节内部创业团队。

拿着「锤子」的算法工程师,遇见找到「钉子」的产品

2022 年初,火山引擎算法工程师容荣研究出了这样一项技术:

「在特定的场景里布置一些不同机位的拍摄装置,用图像识别找到场景里的人,配上专业视频编导设计的模版,就可以自动把这个人的影像剪成视频。」

那么,这个「特定的场景」应该是什么场景呢?

和所有的技术创业者一样,容荣拿着这个技术的「锤子」,开始寻找应用场景的「钉子」。

她先想到的是儿童兴趣班,比如一些培训机构提供的轮滑课、舞蹈课等场景,拍摄孩子们快乐学习的视频。

但容荣很快发现,这类培训机构市场零散、没有规模化,很难找到合适的客户来落地。

不久之后,火山引擎 AI 产品解决方案同学孟兰发现:

「将抖音的 AI 技术和文旅行业结合,配合抖音平台的优势,用 AI 来做旅行视频。」

而视频设计团队也希望有创新的视频生产方式。团队一拍即合,确定了这种 AI为景区游客拍摄剪辑 vlog 的落地方式,随即组成了一个包含算法、研发、产品、设计、编导、销售等不同角色在内的跨部门内部创业团队。

为了锁定飞驰的滑雪者,算法工程师自己设计滑雪服

孟兰说,to B 项目的落地需要边做产品、边找早期客户,针对早期客户的场景做优化,不至于闭门造车。「创意互动 vlog」产品的一个重要的早期客户是一家滑雪场。和这家滑雪场的磨合中,技术团队完成了大量迭代。

其中首要的技术问题是,当景区的拍摄装置拍下了许多视频后,如何把同一个人的部分找出来?

容荣先想到的是用图像识别结合 RFID 的方案。

RFID 全称 Radio Frequency Identification,译名射频识别。就像门禁卡一样,在一个专门的 RFID 手环上绑定游客信息,那么无论他走到哪里,刷一下卡,系统就能认出他是谁。

 

但团队去景区出差之后才发现,这种方案实在太复杂了:景区工作人员需要先把手环发给游客,然后游客绑定自己的身份,游玩结束后还要统一回收手环。而且手环的成本比较高,这种方法又麻烦、又昂贵。

于是,容荣决定改方案,保留图像识别的部分,删去 RFID 手环,而是在景区设置可交互的大屏幕,提示用户面向屏幕做一些比心、微笑、竖起大拇指、叉腰之类的表情动作。这种方案既可以借助用户姿态来确认身份,又可以增加特效、美颜等效果。

针对滑雪场景,容荣也做了很多优化。由于需要人物滑雪的照片作为模型训练的数据集,她拉着工位旁边的几位同学跑到字节跳动深圳湾办公楼下,穿着厚厚的滑雪服拍摄照片;后来还有同学联系到了一家滑雪俱乐部,请专业人士用更标准的姿势来拍照。

不过,有了训练数据,想准确地辨识人物依然有困难。

一是滑雪本身就是高速运动,容易拍不清楚;二是滑雪场有时风大雪大、阳光不好,视频会更模糊;三是雪道很长,拍摄装置很多,想要在不同拍摄装置拍摄的视频中找到同一个人,是一个技术上很难的问题。

为此,容荣干脆自己设计了一款新的滑雪服:

在胸前、肩膀等部位放置特定的编号,滑雪游客租用带有编号的滑雪服,算法只要识别出编号,就能知道是哪位游客了。

这样,结合姿态特征与滑雪服上的编号,使用「多模态聚类算法」就能准确的找到特定的游客。

过山车跑的那么快,如何决定剪哪一段?

“其实我们一开始不想做滑雪场景,因为蹭的一下就划过去了,速度太快,人群也很密集,算法不好锁定人物。但到了景区才发现,滑雪游客非常喜欢这类 vlog 服务。”容荣说。

所以,后来团队工作的一大重点就放在了滑雪、过山车、蹦极这类极限场景下。

玩这类项目时,游客最希望视频记录的是整个过程中最刺激的时刻,但这时游客表情非常激动,算法难以识别。

算法工程师容荣再次灵光一现:图像不好识别的话,那识别声音试试呢?

“风声代表速度,人声代表情绪。玩这种刺激项目的时候,一个人嗓门越大,说明他越激动;但也有人完全不叫喊,那我们就识别风声,风声越大说明速度越快、人的体验越刺激。”

极限场景惊险刺激的时刻、美丽风光让人心情大好的时刻、运动场景中表现优异的时刻,都被项目团队定义为了「高光时刻」,这是游客最深刻的记忆,也是最值得被视频记录的瞬间。

因此,项目算法团队与设计团队一起定义了一套「高光识别算法」,集成了人体手势、动作识别、人物关系检测等多种 AI 算法,能够根据场景动态捕捉游客的高光时刻,景区运营者也可以根据季节、活动等自由定制。

深入一线,感受不同地区的风霜雨雪

无论是滑雪场、游乐园还是博物馆,探索每种新游玩场景时,项目团队组团出差去现场,了解每个场景的细节特点。

线下能发现许多在办公室里闭门造车发现不了的问题,技术同学则可以改技术方案,产品经理则可以了解景区运营状况、游客动线、景色最美的位置、游客聚集的地点,了解景区管理者的经营计划。

有一次,大家组团去滑雪场出差时,正赶上了寒冬腊月,下着鹅毛大雪,连雪道都结冰了。创意互动 vlog 团队的产品、研发、设计们,和当地的安装师傅一起扛着摄影机和安装工具爬到雪坡上,寻找合适的安装位置。

作为项目的算法负责人,容荣需要做很多深入一线的工作。在安装摄像头的过程中,她需要当场根据图像质量、晨昏光线、人体在画面中的大小来判断这个位置拍出来的图像能不能用,针对现场场景采集数据、当场优化这个场景的算法准确率。

但完成当天的现场工作之后,一群人站在雪坡顶上傻眼了:

除了 AI 产品解决方案同学孟兰之外,其他人都不会滑雪。

于是,一副奇特的景象发生了:大雪纷飞的滑雪场,一群人半夜十点坐在雪坡上慢慢往下滑,有人的睫毛上都冻上了冰晶,有人滑到山下后,站起来却发现裤子都被磨到反光。


就这样,一年多里,创意互动 vlog 团队的同学们一直在产品建设的路上。

他们探索滑雪场、游乐场、打卡地等各种不同类型的园区,一边优化产品,一边提升技术,一边跑通了商业落地。

AI 产品解决方案同学孟兰说,当每一类场景率先跑通一个标杆景区后,就可以方便地将不同场景的解决方案复用,低边际成本服务其他同类景区。

“我们在滑雪这个场景的经验至少领先市场 1.5 年,因为你需要足够漫长的冬天去摸索这些经验。”

而火山引擎的技术同学们,也正在不同的 B 端业务场景下,持续探索创新,用技术赋能千行百业。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/517118.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

安装-唯一客服系统文档中心

环境要求 Mysql > 5.6IIS/Apache/Nginx(只推荐nginx) 宝塔一键部署 前往 【软件商店】>【一键部署】>【导入项目】 客服项目本身不需要PHP环境,因此PHP版本那里,随意根据自己环境写上就可以 导入完成以后,点击一键部署,填…

matlab实验四插值与数据拟合

一、实验目的及要求 一、实验的目的与要求: 1、掌握 MATLAB的一维数据插值法 2、通过比较不同次数的多项式拟合效果,了解多项式拟合的原理 3、掌握 MATLAB的多项式拟合的特点和方法 4、掌握 MATLAB的多项式表示与运算 二、实验原理 1、Matlab中&#xff…

基于QEMU的RISC-V架构linux系统开发(一)——RISC-V交叉编译器的安装

基于RISC-V交叉编译器包括32bit和64bit两种类型,其中每种类型又包括裸机版本(newlib)和动态链接库版本(linux glibc)。不同类型、版本的gcc的安装仅在配置文件上存在差异,具体安装流程(以64bit …

以数据思维和技能提升数据应用测试实践 | 京东云技术团队

作者:京东零售 周雪梅 以数据思维和技能提高测试覆盖率和效率。数据应用测试,功能测试主要聚焦在数据流向(输入和输出)。 一、背景 数据质量组当前主要承接黄金眼和商智中的供应链模块,商智包括PC(品牌版…

Access、Foxpro、Foxbase,2023年找到完美代替,有Excel基础即可

你还记得上世纪80年代的Foxbase和Foxpro吗? 数据库软件作为基础软件是计算机系统稳定运行的基石。 像Foxbase和Foxpro,很多计算机专业的前辈都应该听说过,当时的风靡程度一点也不亚于现在的微软office。 FoxPro和Foxbase是诞生于1984年。具…

玩机搞机-----安卓全机型 ADB FAST 各种指令解析说明与操作【二】基础联机

安卓全机型 玩机 搞机 ADB FAST 各种指令解析说明与操作_adb线刷命令_安卓机器的博客-CSDN博客 今天对上个帖子不足的地方进行补正。方便友友进行基础的联机操作,很多时候我们用adb指令的时候会有各种奇奇怪怪的问题。例如同一个机型,同一个指令。有时候…

使用svg在元素直接绘制连线箭头

注意&#xff1a;svg的图形绘制的点位置坐标是基于画布的位置坐标&#xff0c;相当于从左上角的点为起点。 先来个简单示例&#xff1a; 在点与点之间绘制连线箭头 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8">…

cookie、session、token的区别是什么

前言 今天就来说说session、cookie、token这三者之间的关系&#xff01;最近这仨玩意搞得头有点大&#x1f923; 1.为什么会有它们三个&#xff1f; 我们都知道 HTTP 协议是无状态的&#xff0c;所谓的无状态就是客户端每次想要与服务端通信&#xff0c;都必须重新与服务端链接…

JUC并发编程18 | AQS分析

尚硅谷&#xff08;140-155&#xff09; 18 AQS 前置知识 公平锁和非公平锁可重入锁自旋思想LockSupport双向链表设计模式——模块设计 18.1 AQS入门级别理论知识 AQS一般指的是 AbstractQueuedSynchronized AQS 是用来实现锁或者其他同步器组件的公共基础部分的抽象实现…

【企业信息化】第3集 世界排名第一的免费开源ERP: Odoo 16 POS终端管理系统

文章目录 前言一、概览二、硬件三、使用功能 前言 世界排名第一的免费开源ERP: Odoo 16 POS终端管理系统。几分钟内完成设置&#xff0c;几秒内完成销售。 一、概览 Odoo POS 基于智能界面&#xff0c;任何零售公司均可毫不费力地使用 因为其极具灵活性&#xff0c;您可配置 …

普通的项目非分布式项目中的技术点思考(学习随记)

学习路线 在学习Java的路程中&#xff0c;最开始学习JavaSe&#xff0c;在Java基础学完后&#xff0c;开始接触JavaWeb&#xff0c;开始接触框架&#xff0c;Spring框架&#xff0c;SpringBoot框架、数据库框架、在学习一下中间件&#xff0c;就可以完成工作中crud的基础操作&…

聚观早报|谷歌:全新大模型赋能「全家桶」;阿里巴巴取消CTO职位

今日要闻&#xff1a;谷歌 I/O&#xff1a;全新大模型赋能「全家桶」&#xff1b;阿里巴巴取消CTO职位&#xff1b;马斯克打造「美国微信」&#xff1b;奔驰将召回部分进口CLA汽车&#xff1b;奔驰将召回部分进口CLA汽车 谷歌 I/O&#xff1a;全新大模型赋能「全家桶」 北京时…

大模型也内卷,Vicuna训练及推理指南,效果碾压斯坦福羊驼

2023开年以来&#xff0c;大模型进入疯狂内卷状态&#xff0c;大模型的发布都要以“天”为单位进行迭代。 之前&#xff0c;尝试了从0到1复现斯坦福羊驼&#xff08;Stanford Alpaca 7B&#xff09; &#xff0c;下面我们来尝试从0到1复现Vicuna训练及推理。 Vicuna简介 继斯坦…

AOP深度学习

代理模式 静态代理&#xff1a;静态代理确实实现了解耦&#xff0c;但是由于代码都写死了&#xff0c;完全不具备任何的灵活性。就拿日志功能来说&#xff0c;将来其他地方也需要附加日志&#xff0c;那还得再声明更多个静态代理类&#xff0c;那就产生了大量重复的代码&#…

wps js宏编辑器案例2-单元格读写-随机选人

本案例讲述某企业的一个真实案例&#xff0c;该企业每周二早上有安全宣贯会议&#xff0c;差不多10来分钟左右&#xff0c;每次安全会上人事部门都会点名&#xff0c;那么问题来了&#xff0c;点名的名单哪儿来&#xff1f;为此&#xff0c;编写了一个简单js宏应用&#xff0c;…

易基因:DNA甲基化和转录组分析揭示野生草莓干旱胁迫分子调控机制|植物抗逆

大家好&#xff0c;这里专注表观组学十余年&#xff0c;领跑多组学科研服务的易基因。 干旱胁迫是对农业生产产生不利影响的关键环境因素。为此&#xff0c;植物发展出各种响应机制&#xff08;干旱逃逸、避免、耐受和回复&#xff09;&#xff0c;以通过进化增强抗旱性&#…

2022年下半年软件设计师下午试题

试题四&#xff08;共15分&#xff09; 排序是将一组无序的数据元素调整为非递减顺序的数据序列的过程&#xff0c;堆排序是一种常用的排序算法。用顺序存储结构存储堆中元素。非递减堆排序的步骤是&#xff1a; (1)将含n个元素的待排序数列构造成一个初始大顶堆&#xff0c;…

种棉12载的他,为何最终选择千耘导航?

边休息边种地&#xff0c;每天还能提升近四十亩作业量&#xff0c;是怎么做到的&#xff1f; 种地十二三年&#xff0c;为何最终选择了千耘农机导航&#xff1f; 千耘导航使用前后的工作状态究竟相差了多少&#xff1f; 让我们走进新疆阿克苏&#xff0c;听一听任师傅的“种…

【WebGIS实例】(8)MapboxGL绘制闪烁的点

官网示例&#xff1a; Add an animated icon to the map | Mapbox GL JS 实现 示例数据 const sampleData {"type": "FeatureCollection","features": [{"type": "Feature","properties": {},"geometry&q…

5G干扰排查优化方案介绍!

干扰成因 干扰源的发射信号&#xff08;阻塞信号、加性噪声信号&#xff09;从天线口被放大发射出来后&#xff0c;经过了空间损耗L&#xff0c;最后进入被干扰接收机。如果空间隔离不够的话&#xff0c;进入被干扰接收机的干扰信号强度够大&#xff0c;将会使接收机信噪比恶化…