实测完快手的AI视频「可灵」后,我觉得这才是第一个中国版Sora

news2025/1/8 14:23:05

6月6号,是快手的13周年生日。

在这一天,所有AI圈的人都想不到,快手在13周年之际,没有任何预兆、没有任何宣传,直接发布了他们的AI视频大模型。

可灵。

给我也干了个措手不及。

我当时正在看360的发布会,突然手机就叮叮当当一顿狂响,打开一看,一群人跟我说:快快快,看快手,他们发AI视频模型了。

我当时想着,发个AI视频模型就发个AI视频模型呗,能有啥大惊小怪的,这年头,做AI视频的多了。要么就是发了个老技术的产品给大家先用着占坑,要么就是发了个Sora那种新技术的纯PR视频,又不给用纯粹To VC的。还能有啥。

打开快手的模型官网一看,嚯,新技术的,运动幅度跟Sora有的一拼,还能支持最长2分钟。这就有点意思了。

然后,即刻开放邀测。

虽然不抱有能用的希望,但是我秉持着来都来了的原则,还是去申请了一下。

申请流程:下载快影APP - AI玩法 - AI生视频模块 - 填问卷申请。

我本来以为,跟两个月前的某AI视频产品一样,说是比Sora还好,但是我申请了两个月都没动静。

结果没过几个小时,我就收到了快手的短信。。。

不是哥们,你来真的啊?

你说的发布居然是真发啊,居然当天真的给人用啊?你居然不是画饼啊?

这一下,给我整不会了…

快手不愧是老铁,真实诚。

到家了之后,我花了好几个小时,跑了100多个case,又跟好基友@吉川明静勾兑了一下他那边的case。差不多有了一些不是特别全面的认知。

但,有一句话,我觉得是可以放心说了。

快手的可灵,就是我认为正儿八经的,经过验证的,而且还能上手直接用的,第一个中国版Sora

不过可灵是大模型,真正变成产品,还是有很多限制的,比如算力、功能、开发周期等等。

所以现在可以使用的版本,并不是完全体。

比如现在的固定时间只能为5s、不支持图生视频只支持文生、不能自定义尺寸等等。

但是都无关大雅,因为所有人对Sora的兴奋点,不是那些功能,而是他那最核心的:

极度真实的物理规律。

而这一点,快手可灵,做到了。

随手放几个我跑的case,第二个是吉川跑的。

这运动幅度、物理规律的稳定性,就非常的离谱。

如果不涉及人与人、或者人与物体之间复杂的交互,那可灵的物理表现,几乎可以称的上完美。

毕竟,连吃面条这种坑死所有AI视频产品的case,都能搞定掉。做一些复杂的动作或者细腻的表情,也都没啥问题。比如:

但是我们真的去看一部电影、一部电视剧,里面还是有很多复杂交互的。

比如最常见的打斗戏、比如操作一台极其精密的设备等等。而这些,也是物理难度最高的,连Sora处理的都非常的一般。

可灵自然也不例外,在复杂交互上,目前还有很大的进步空间。比如我跑的这个决斗场景。

但至少,他给了我们一个新的可能性。如果大家留意一下过往的所有AI视频,你用图生视频的方式去做,是几乎不可能做出这种交互镜头的,都是用蒙太奇或者AE去替代掉。而现在,有希望了。

而在单人镜头上,人物在没有支点(比如空中坠落)的时候,会发生一定程度上的变形。同时如果人物在画面中比例较小的时候,也会发生糊脸现象,这个是现在AI的通病,不仅AI视频有,AI绘图一样也有。等未来数据集和技术迭代吧。

还有一个很意外的片段,我自己非常非常喜欢。

Prompt是:“你站在桥上看风景,看风景的人在楼上看你。明月装饰了你的窗子,你装饰了别人的梦。”

虽然出来的视频,跟Prompt稍微有那么一些的不搭嘎,但是这个片段,真的属于意外之喜,我非常非常的喜欢。

目前看下来,可灵在“真实风格”的场景上,表现的最好,而在一些风格化的表现上,就会比“真实风格”上,稍微逊色一些。

比如我的这段Prompt:

“拟人化的穿着西装的狗,提着包在公交车上,窗外是飞驰而过的城市”

如果是真实风格,效果就会非常好。

但是如果改成动漫风格,就会傻里傻气很多…

可灵整体上,在Prompt的依从性上,个人觉得在AI视频里,肯定是第一梯队,但是如果你跟AI绘图的头部、跟文本大模型的头部去比,那感觉还是会差一些。

比如:“一只企鹅穿着西装,在办公室里开会,用严肃的表情进行演讲”,西装丢了,只剩企鹅了。

比如:“一只穿着盔甲的猫骑着独角兽在彩虹上奔驰,穿越魔法森林,背景是古老的城堡”,奔驰这个动作没了,直接不动了。

不过这也不是什么大问题,毕竟这才第一版,还在内测,这些做好了,都是锦上添花的东西。

模型的质量,模型的物理规律,才是真正的核心,真正的重中之重。

这一点,快手可灵,除了那个没发布的Sora之外,基本碾压所有同行。

我现在非常期待可灵的图生视频功能。

因为对于专业的AI视频创作者来说,基本上还是会用图生视频,因为可控性更强,一致性的控制更方便一点。而文生视频,还是会更偏向于普通用户一些。

说实话,我现在已经有了一个非常想做的AI作品的故事。

现在,我真的非常非常想用快手可灵,把他做出来。

毕竟,这是真正的第一个,中国版Sora

哪个创作者会不兴奋,会没有创作欲望呢?

就看什么时候,快手可灵能更新它的图生视频功能了。

我期待着那一天。

谢谢你,快手。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1818137.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SD5510 单节锂离子电池充电器和恒定5V升压控制器芯片IC

一般描述 SD5510为一款移动电源专用的单节锂离子电池充电器和恒定5V升压控制器,充电部分集高 精度电压和充电电流调节器、预充、充电状态指示和充电截止等功能于一体,可以输出最大1A充电电流。而升压电路采用CMOS工艺制造的空载电流极低的VFM开关…

SpringBoot不用写Controller、不用写Service、不用建表,直接起飞是什么感觉

Spring Data REST 提供了一种简单的方式来暴露 JPA 实体为 RESTful 服务,这使得构建基于 REST 的数据服务变得非常快速和高效。下面是一个使用 Spring Data REST 构建通用架构的基本示例: 首先,我们需要创建一个实体类(例如&…

Centos离线安装Python3

目录 1.准备工作 2.解压python压缩包 3.编译 4.安装、更改环境变量 5.建立pip连接 使用的是Centos7服务器,Py版本是py3.9.0 1.准备工作 首先确保服务器中存在相关的编译器,例如GCC;这里不做过多叙述,需要者前往&#xff1a…

【全开源】旅行吧旅游门票预订系统源码(FastAdmin+ThinkPHP+Uniapp)

🌍旅游门票预订系统:畅游世界,一键预订 一款基于FastAdminThinkPHPUniapp开发的旅游门票预订系统,支持景点门票、导游产品便捷预订、美食打卡、景点分享、旅游笔记分享等综合系统,提供前后台无加密源码,支…

milvus的GPU索引

前言 milvus支持多种GPU索引类型,它能加速查询的性能和效率,特别是在高吞吐量,低延迟和高召回率的场景。本文我们将介绍milvus支持的各种GPU索引类型以及它们适用的场景、性能特点。 下图展示了milvus的几种索引的查询性能对比,…

40. 【Java教程】数据库编程

本小节我们将学习如何使用 Java 语言结合数据库进行编程。注意,学习本小节需要你有一定的 SQL 基础,了解 MySQL 数据库的 基础 CRUD 操作。 本小节我们将选择开源免费的 MySQL 5.7 作为数据库,可以去官网下载并安装 MySQL。 通过本小节的学…

nosql数据库的特点

NoSQL简介 NoSQL是一种不同于关系数据库的数据库管理系统设计方式,是对非关系型数据库的统称,它所采用的数据模型并非传统关系数据库的关系模型,而是类似键/值、列族、文档等非关系模型。NoSQL数据库没有固定的表结构,通常也不存在连接操作,也没有严格遵守ACID约束。因此…

无法在地址[localhost]和端口[8005]上创建服务器关闭套接字(基本端口[8005]和偏移量[0])

今天小伙伴问我一个问题,说是新服务器启动应用,报了一个错误,如下: 一开始我怀疑是端口被占用 经过排查端口没有被占用,然后我怀疑localhost解析有问题 经过 ping localhost 后,得到以下结果到这里很明…

SpringBoot集成slf4j日志配置

目录 前言 1、slf4j概述 2、pom.xml的日志依赖 3、application.yml的日志配置 4、logback.xml配置文件定义 5、logback.xml配置文件解析 5.1 定义日志的存储路径 5.2 定义日志的输出格式 5.3 定义控制台输出 5.4 定义日志相关参数 5.5 定义日志的输出级别 6、测试日…

mysql中 redo日志(下)

大家好。上篇文章我们介绍了什么是redo日志以及redo日志的写入过程。建议没看过上篇文章的同学先看一下上一篇文章,今天我们继续来说一说redo日志。 一、redo日志文件 1. redo日志刷盘时机 我们知道mtr运行过程中产生的一组redo日志在mtr结束时会被复制到log buf…

利用AI大模型,将任何文本语料转化为知识图谱,可本地运行!

几个月前,基于知识的问答(KBQA)还是一个新奇事物。 现在,对于任何 AI 爱好者来说,带检索增强生成(RAG)的 KBQA 就像小菜一碟。看到自然语言处理(NLP)的可能性领域由于大…

JVM性能优化案例:优化垃圾回收器的年轻代和老年代占比

JVM性能优化案例:优化垃圾回收器的年轻代和老年代占比 我们有一款在线交易系统,要求低延迟和高吞吐量。系统运行在Ubuntu服务器上,使用OpenJDK 11,并启用了G1垃圾回收器。以下是系统的基本配置和GC日志信息: 操作系统…

学习笔记丨嵌入式BI分析的12个关键功能

编者注:以下内容节选编译自嵌入式分析厂商Qrvey发表的《What is Embedded Analytics?》(什么是嵌入式分析)一文,作者为Qrvey产品市场主管Brian Dreyer。 什么是嵌入式分析? 嵌入式分析是指能够将数据分析的特性和功…

React+TS前台项目实战(七)-- 全局常用组件Select封装

文章目录 前言Select组件1. 功能分析2. 代码详细注释说明3. 使用方式4. 效果展示(1)鼠标移入效果(2)下拉框打开效果(3)回调输出 总结 前言 今天这篇主要讲全局select组件封装,可根据UI设计师要…

java1.8运行arthas-boot.jar运行报错解决

报错内容 输入java -jar arthas-boot.jar,后报错。 [INFO] JAVA_HOME: D:\developing\jdk\jre1.8 [INFO] arthas-boot version: 3.7.2 [INFO] Can not find java process. Try to run jps command lists the instrumented Java HotSpot VMs on the target system.…

资源付费系统小程序APP公众号h5源码

🔐 揭秘“资源付费系统”:知识、技能与价值的交汇点 💎 🌟 引言:为何资源需要付费? 在数字化时代,我们周围充斥着大量的信息。但并非所有信息都具有同等的价值。其中,那些经过精心…

项目五串行通信系统 任务5-3温度信息上传

任务描述:DS18B20测量温度,单片机采集温度数据转换显示代码,并通过串行口发送到上位机显示。 底层文件: /********************************************* ds18b20底层函数:能完成一次温度数据读取 ***************************…

算法课程笔记——线段树动态开点

算法课程笔记——线段树动态开点 、

大模型高考数学测评结果,国内AI大模型成绩超GPT-4o!

每年高考都是备受全社会关注的一件大事,而今年略有不同,因为除了鱼跃龙门的高三学子们,还多了许多陪他们一同参加考试的 AI 大模型。 在所有的考试科目中,数学显然一直都是最难的那一门,不论是对考生还是对大模型。因…

设备管理系统——设备台账管理

设备管理系统中的设备台账管理是一项关键的功能,它涵盖了设备从购入、使用、维护到报废的全生命周期管理。以下是设备台账管理在设备管理系统中的详细功能和重要性: 一、设备台账管理的基本功能 设备信息录入: 录入设备的基本信息&#xff0…