手把手教你在视频剪辑及数字人训练中花式抠图

news2024/9/21 10:54:12

本文为阿里云智能媒体服务IMS「云端智能剪辑」实践指南第三期,讲述围绕 视频剪辑及数字人训练中的抠图需求,如何运用 绿幕抠图、实景抠图能力,实现高效、便捷的视频制作及合成体验。

昱尘|作者
悬刃|算法支持

“你这背景太假了”,博主疆域阿力木因为背景太好看而被质疑,随后画风突转,网友们通过“抠图技术”将博主合成到各种视频背景中,其搞笑程度一度冲上热搜。

抠图技术常常被应用在众多场景中,发挥着越来越重要的作用。

比如:直播带货场景中,商家通常会搭建绿幕背景,使用“绿幕抠图”技术,将绿幕背景替换成与商品相关的图片或视频,帮助消费者更加直观地了解产品的使用方法、功能及特点;或是在短视频营销中,通过“实景抠图”技术,将人像和指定物品从任意背景中抠出,替换成各种风景图片或视频,增加视频对观众的吸引力……

抠图技术也在数字人训练领域发挥着越来越重要的作用,数字人训练需要去除背景,只保留人物视频,才能做后续的分析训练处理,使用绿幕抠图及实景抠图可以完美解决数字人训练素材的抠图问题

IMS云端智能剪辑已将绿幕抠图以及实景抠图集成到了智能时间线Timeline中,客户可以使用IMS基础剪辑能力、调用IMS数字人视频合成接口、智能时间线Timeline。

本文主要介绍三种场景下的抠图技术,展现如何花式抠图。

三种场景下的抠图技术
三种场景下的抠图技术

场景一:绿幕

生成训练数字人所需要的透明背景素材

训练数字人,在拍摄人物动作视频之后,通常需要将原始素材进行二次处理,生成只保留人像且背景透明的webm,或者生成代表人像区域和代表背景区域的黑白遮罩视频,我们分别来讲解如何利用绿幕抠图分别生成这两种视频。

「云端智能剪辑」时间线Timeline中支持设置AI_Matting这个Effect,并支持设置Color为Green或者Blue两种抠图模式(绿幕抠图或蓝幕抠图),若期望生成带透明通道的webm,可以在OutputMediaConfig指定文件后缀名为webm即可。

这是该场景中使用的素材示例:https://v.youku.com/v_show/id_XNjAxOTE3Njk2MA==.html

云剪辑第三讲视频1

生成透明webm

成片效果视频:https://v.youku.com/v_show/id_XNjAxOTE3NzA0OA==.html

云剪辑第三讲视频2.webm

Timeline示例:

{
  "VideoTracks": [{
    "VideoTrackClips": [{
      "MediaUrl": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/material.mp4",
      "Effects": [{
        "Type": "AI_Matting",
        "Color": "Green"
      }]
    }]
  }]
}
{
  "Height": 1920,
  "Width": 1080,
  "MediaURL": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/output.webm"
}

生成黑白遮罩视频

合成webm由于编码器本身速度较慢的原因,耗时方面可能会不满足用户诉求,我们建议客户在抠图的同时添加背景、字幕等直接输出mp4成片。还有一种场景是客户要输出黑白透明通道视频,在前端展示、后续的剪辑处理中使用(Timeline中支持传入黑白透明通道视频对原素材进行遮罩),通过在AI_Matting这个Effect下增加MaskMode:true参数,黑色部分表示背景,白色部分表示人物位置和动作信息。

成片效果视频:https://v.youku.com/v_show/id_XNjAxNjQ4ODAwOA==.html

云剪辑第三讲视频3

Timeline示例:

{
  "VideoTracks": [{
    "VideoTrackClips": [{
      "MediaUrl": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/material.mp4",
      "Effects": [{
        "Type": "AI_Matting",
        "Color": "Green",
        "MaskMode": true
      }]
    }]
  }]
}

场景二:实景

仅保留人像,不保留其他物体

在背景是家具环境或者其他不方便搭建绿幕背景的情况时,需要利用实景抠图,将人像从背景中抠出,并替换其他图片背景或者视频背景。使用IMS云端智能剪辑时,可以通过一个Timeline,一次性完成抠图、背景裁剪、替换背景、增加字幕、增加配乐的所有操作

使用AI_RealMatting这个Effect,可以一键式地将人物信息从任意背景中抠出,您可以选择什么都不做,直接输出只有人像、背景透明的webm或者黑白遮罩视频,也可以选择替换背景、增加字幕、配乐,丰富视频内容,本章节主要介绍后者。

这是该场景中使用的素材示例:https://v.youku.com/v_show/id_XNjAxNjQ4NjcyMA==.html

云剪辑第三讲视频4

背景图:
在这里插入图片描述

背景音乐(该BGM由AIGC生成):https://v.youku.com/v_show/id_XNjAxOTE3NzQ0MA==.html

云剪辑第三讲音频.wav

成片效果视频:https://v.youku.com/v_show/id_XNjAxOTE4NjQzNg==.html

云剪辑第三讲视频5

Timeline示例:

{
  "VideoTracks": [{
      "VideoTrackClips": [{
        "MediaUrl": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/background.jpg",
        "Type": "GlobalImage",
        "Width": 1080,
        "Height": 1920,
        "AdaptMode": "Cover",
        "Effects": [{
          "Type": "Crop",
          "X": 0.0,
          "Y": 0.0,
          "Height": 0.7,
          "Width": 1
        }]
      }]
    },
    {
      "VideoTrackClips": [{
        "MediaUrl": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/material.mp4",
        "Width": 1080,
        "Height": 1920,
        "AdaptMode": "Cover",
        "Effects": [{
          "Type": "AI_RealMatting"
        }]
      }]
    }
  ],
  "SubtitleTracks": [{
    "SubtitleTrackClips": [{
        "Type": "Text",
        "X": 0.02,
        "Y": 0.02,
        "Content": "《美妆小课堂》",
        "FontSize": 80,
        "EffectColorStyle": "CS0001-000012",
        "Font": "Source Han Sans CN"
      },
      {
        "Type": "Text",
        "X": 0.2,
        "Y": 0.7,
        "Content": "金牌美妆师",
        "FontSize": 80,
        "EffectColorStyle": "CS0001-000014"
      }
    ]
  }],
  "AudioTracks": [{
    "AudioTrackClips": [{
      "MediaUrl": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/aigc_bgm.wav"
    }]
  }]
}

Tips:

➤ GlobalImage可以在背景图片或者logo上使用,会自适应将图片的时长设定为视频的总时长;

➤ AdaptMode:Cover,可以将图片放大到指定的Width和Height上,如果素材的宽高比和设置的Width和Height不符,会自动进行裁剪;

➤ 在字幕轨道上,可以一键式设置花字样式,设置EffectColorStyle为相应的花字Id,丰富视频内容。

场景三:实景+其他物体保留

保留人像、桌子以及桌子上的物体

如果需要在实景抠图中,保留视频中除了人像以外的其他物体,我们还即将会支持自然语言形式的抠图物体保留能力

基于CLIP语言图像预训练模型技术,我们能够有效分析视频中的物体类别信息,通过大模型技术有效保留抠图视频除了人像之外其他需要保留的物体。

可以设置AI_RealMatting这个Effect下的ReserveObjects数组内容,指定需要保留的物体自然语言名称,比如在本示例中,我们期望保留桌子和手机,就可以设置ReserveObjects为phone和desk组成的数组。

成片效果视频:https://v.youku.com/v_show/id_XNjAxOTE4NjQ4MA==.html

云剪辑第三讲视频6

Timeline示例:

{
  "VideoTracks": [{
      "VideoTrackClips": [{
        "MediaUrl": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/background.jpg",
        "Type": "GlobalImage",
        "Width": 1080,
        "Height": 1920,
        "AdaptMode": "Cover",
        "Effects": [{
          "Type": "Crop",
          "X": 0.0,
          "Y": 0.0,
          "Height": 0.7,
          "Width": 1
        }]
      }]
    },
    {
      "VideoTrackClips": [{
        "MediaUrl": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/material.mp4",
        "Width": 1080,
        "Height": 1920,
        "AdaptMode": "Cover",
        "Effects": [{
          "Type": "AI_RealMatting",
          "ReserveObjects": ["phone", "desk"]
        }]
      }]
    }
  ],
  "SubtitleTracks": [{
    "SubtitleTrackClips": [{
        "Type": "Text",
        "X": 0.02,
        "Y": 0.02,
        "Content": "《美妆小课堂》",
        "FontSize": 80,
        "EffectColorStyle": "CS0001-000012",
        "Font": "Source Han Sans CN"
      },
      {
        "Type": "Text",
        "X": 0.2,
        "Y": 0.7,
        "Content": "金牌美妆师",
        "FontSize": 80,
        "EffectColorStyle": "CS0001-000014"
      }
    ]
  }],
  "AudioTracks": [{
    "AudioTrackClips": [{
      "MediaUrl": "https://your-bucket.oss-cn-shanghai.aliyuncs.com/aigc_bgm.wav"
    }]
  }]
}

智能媒体服务IMS(Intelligent Media Services)是2021年5月正式商业化的一款云产品,其中的云剪辑功能主打视频生产能力,通过组织剪辑需要的时间线(Timeline)结构,即可在云端对用户的音视频素材进行剪辑,可以理解为IMS云端智能剪辑就是一款API版的iMovie。

本篇主要讲解绿幕抠图、实景抠图技术在视频剪辑及数字人训练中的使用,IMS云端智能剪辑还融入了众多AI能力,助力提高开发者的视频生产效率。

欢迎加入官方答疑钉钉群咨询交流:31783668

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/987425.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

达梦数据库awr报告收集

1、找出快照点snap_id与时间的对应关系 SYS.WRM$_SNAPSHOT表中记录了快照点snap_id与时间的对应关系 例如如下语句可以得出2023-09-04这一天各个时间点对应的快照点snap_id select snap_id,end_interval_time from SYS.WRM$_SNAPSHOT where end_interval_time between to…

亚马逊鲲鹏系统多渠道引流功能快速增加你的listing流量

如果亚马逊Listing没有流量,那么亚马逊产品排名也会在很靠后的位置,从而就会导致吸引不到客户点击进行下单购买,因此引流就很重要了,普通的引流方法很难达到效果,并且还会花费大量的时间,那么我们可以用亚马…

Elasticsearch实现词云效果Demo

文章目录 前言前期准备springbootElasticsearch依赖 思路准备数据查询数据处理文本样式处理 具体实施数据准备创建索引数据存储进行查询 踩坑记录聚合查询不生效问题 demo地址总结 前言 最近项目中使用Elasticsearch在做快速查询的功能,然后就想到了之前的一个项目…

航空航天行业的MES系统解决方案

航空航天行业的制造执行系统(MES)解决方案是为了满足这个高度复杂、高度规定、高度技术要求的行业而设计的。MES系统在航空航天制造中发挥着关键的作用,帮助企业提高生产效率、降低成本、确保质量合规性,并实现生产过程的可视化和…

免费小程序商城搭建之b2b2c o2o 多商家入驻商城 直播带货商城 电子商务b2b2c o2o 多商家入驻商城 直播带货商城 电子商务

1. 涉及平台 平台管理、商家端(PC端、手机端)、买家平台(H5/公众号、小程序、APP端(IOS/Android)、微服务平台(业务服务) 2. 核心架构 Spring Cloud、Spring Boot、Mybatis、Redis 3. 前端框架…

基于SpringBoot+Vue实现的前后端分离的外卖点餐系统源代码+数据库

该项目是一个前后端分离的外卖点餐系统,项目后端采用SpringBoot开发。 完整代码下载地址:基于SpringBootVue实现的前后端分离的外卖点餐系统源代码数据库 功能模块 基础数据模块 分类管理员工管理套餐管理 点餐业务模块 店铺营业状态微信登录缓存商品…

数字孪生背后:谁在构建真实的数字世界?

如果说过去人们对于数字孪生的定位仅仅是真实世界的数字映像,那么如今,在映像之外,于众多的产业之中,它也更在通过更加复杂的设计和 技术成为现实世界的新数字调控器。 在这艘向前行进的航船上,改变的不仅是前方更加…

【录用案例】CCF-C类,1/2区SCIEI,3个月14天录用,30天见刊,11天检索

计算机科学类SCI&EI 【期刊简介】IF:5.5-6.0,JCR1/2区,中科院2区 【检索情况】SCI&EI 双检(CCF-C类) 【征稿领域】边缘计算、算法与机器学习的结合研究 录用案例:3个月14天录用,录用…

二维码智慧门牌管理系统:解决地理地址标准化的革新方案

文章目录 前言一、地理地址标准化难题二、地理地址标准化解决方案三、统一治理多源地址四、地址数据清洗和标准化五、提升协作和效率 前言 随着信息化社会的快速发展,各个业务系统都涉及地址问题,然而每个平台的地址规范又不统一,这给地址管…

最新报告!TikTok 市场小家电大商机,GMV破亿的爆款如何复制?

近期,新锐小家电品牌Gaabor空气炸锅在东南亚卖爆了,单款商品GMV短时间内突破两亿,在印尼、泰国、马来西亚、菲律宾、越南均开设本土TikTok 小店,增长势头还在持续。 但Gaabor并不是个例。 整个东南亚家电市场规模增长迅速&#…

vue3+ts+vite项目引入echarts,vue3项目echarts组件封装

概述 技术栈:Vue3 Ts Vite Echarts 简介: 图文详解,教你如何在Vue3项目中引入Echarts,封装Echarts组件,并实现常用Echarts图例 文章目录 概述一、先看效果1.1 静态效果1.2 动态效果 二、话不多数,引入 …

Polarion创建项目

创建项目添加用户删除用户项目访问

消息中间件(一)

文章目录 消息中间件什么是中间件?为什么使用MQ?应用场景? JMS和AMQPJMSAMQPJMS和AMQP的区别 消息队列产品 消息中间件 什么是中间件? MQ全称为Message Queue,消息队列是应用程序和应用程序之间的通信方法。 中间件是…

大模型优化:RAG还是微调?

引言 随着人们对大型语言模型 (LLM) 的兴趣激增,许多开发人员和组织正忙于利用其能力构建应用程序。然而,当开箱即用的预训练LLM没有按预期或希望执行时,如何提高LLM申请的性能的问题。最终我们会问自己:我们应该使用检索增强生成…

Vue中如何实现城市3D分布图

cityfenbu.vue <template><div ><el-card class"seriesmap-box-card"><div slot"header" class"clearfix"><span>城市分布图 (点击可下钻到县)</span></div><div><div class"series-ma…

不出意外的话,2023年是AI大模型元年

这两天听的最多的新闻莫过于&#xff0c;谁谁谁&#xff08;AI 大模型&#xff09;面向全社会开放使用&#xff0c;文心一言、WPSAI、讯飞星火、百川智能等等&#xff0c;2023年&#xff0c;AI大模型注定在历史上增添了浓妆淡抹的一幕&#xff0c;未来 AI 将与各个软件应用如影…

RPC协议交互流程

文章目录 RPC特性RPC实现RPC交互流程RPC交互时序图RPC交互流程 RPC&#xff08;Remote Procedure Call&#xff0c;远程过程调用&#xff09; 是一种分布式计算的通信协议和编程模型&#xff0c;用于不同计算机或进程之间进行远程通信。它允许一个计算机程序&#xff08;通常是…

TOWE新能源电动汽车充电延长线,解决户外充电距离过短烦恼

随着新能源汽车市场的日益繁荣&#xff0c;越来越多的车主开始关注充电设备的便利性。为了满足广大车主的充电需求&#xff0c;同为科技&#xff08;TOWE&#xff09;荣誉推出全新16A三芯大功率新能源电动汽车充电延长电源线。这款产品采用优质材料&#xff0c;结构合理&#x…

@Value,@Autowired,@Qualifier

Value 当属性的类型是简单类型时&#xff0c;可以使用Value注解进行注入。 package com.powernode.spring6.bean4;import org.springframework.beans.factory.annotation.Value; import org.springframework.stereotype.Component;Component public class User {Value(value …

NASM编译器之下载安装使用

NASM的下载和安装 每种处理器都可能会有自己的汇编语言编译器&#xff0c;而对于同一款处理器来说&#xff0c;针对不同的平台(比如Windows和Linux&#xff09;&#xff0c;也会有不同版本的汇编语言编译器。 现存的汇编语言编译器有多种&#xff0c;用得比较多的有 MASM、FA…