融云观察:给 ChatGPT 加上声音和脸庞,AI 社交的多模态试验

news2024/9/24 17:17:06

(👆点击获取行业首款《社交泛娱乐出海作战地图》)

如果将短剧的爆火简单粗暴地归因为剧情上头、狗血反转和精妙卡点,那 GenAI 世界这一年来可以说是一部短剧 Live Show。关注【融云全球互联网通信云】了解更多

这厢 Open AI 宫斗内幕还没起底完,那头 Google 就因为 Gemini 的 Demo 视频造假喜提热搜。

不过我们还是能从混杂的剧情中摘取出主线,那就是后发力量所展示出的大模型演进方向——从一开始便进行多模态训练和调优,而非从文本、代码、图像、音视频逐步突破的渐进式多模态。

多模态大模型的进化,会进一步丰富用户与 AI 的互动方式,深入地影响我们的社交生活。尤其是,在通信技术的助力下,我们建立和发展关系本身就已经在很大程度上转向了线上化和数字化。


给 ChatGPT 加上声音和脸庞

过去,聊天机器人基于规则运行,根据用户输入触发不同的脚本。它们无法根据对话背景和用户语气来调整自己,只能回应有限的主题或执行预定的任务。

如今,在大模型的驱动下,聊天机器人可以提供自由、流畅的对话体验,让对话式人工智能充满了趣味性。这一变革性创新,让所有应用都面临着重构机遇。

这一切从 ChatGPT 开始,但它并非一个终结者,而是激起层层涟漪的第一颗石子儿。在我们已经习惯 ChatGPT 等聊天机器人展现出的流畅对话能力后,给它们加上声音和脸庞就成了下一步发展方向。

硅谷投资机构 a16z 曾对“开发一款拥有丰富互动方式的 AI 伴侣软件”这一任务所需要用到的工具进行了梳理,开发者组合使用它们就可以创建相应产品,实现聊天、语音电话甚至视频通话的功能。

比如,使用 Vicuna、Pygmalion 等模型生成具有特定个性的文本回答;调用 ElevenLabs 的 API 生成更贴近真实,可以控制年龄、性别和口音的语音回复;还有能让郭德纲讲出一口流利英文的 HeyGen 视频 AI。(关于这个明星 AI 公司,我们此前曾在「给你牵线,也帮你把关」,AI 机器人在社交软件中的花样存在中有过介绍。)

已经有不少开发者落地了实践,其中一个基本共识是:人们乐于尝试文本、语音、视频等多种方式与聊天机器人进行互动,但大家依然会追求更接近真人的体验。

最近,ChatGPT 全面开放了语音功能,声音就十分拟真——会以人们组织语言时常发出的“emm”声音来开始一段回答,会有短暂停顿和呼吸声以及口音、语气。

在实际用例中,开发者可以在应用中接入两种质量有较大差异的 TTS(文本转语音)API,并将生成质量更好的服务设置为付费项。结果显示,用户愿意为了更加逼真的体验而付费

应用也在向着实时交互扩展,不过这将意味着难度升维,是多项技术的综合考验。

当系统接收到声音信息后,AI 需进行声音检测和 ASR(语音识别)、NLP(语义理解),判断对话场景和用户意图,并将回答进行语音合成,与用户进行对话。

贴近现实生活中的通话体验,产品还需要进行全双工通信(可以同时进行信号的双向传输)以自然地处理用户临时打断回答等情况,及时从回答转为接收和识别用户信息模式,并根据用户释放的新信息进行反馈。

在 RTC 实时通信方面,融云将客户端的采集、编码、发送、解码和展示的链条全部都做成 Pipeline,且服务端合流及流的二次消费基本都是可插拔的,可以非常好地与大模型相嵌,助力完成 AI 实时交互升级。

随着音频驱动面部动画技术的发展、响应延迟的降低、语音生成的进步,我们与 AI 的对话将变得越来越个性和沉浸。趋势已经显现,并在越来越多场景中应用。


社交主桌,教育冒头

AI 驱动的应用市场中,聚光灯首先照在了社交赛道上。

对话式机器人“性格外向”且能讨论任何主题,这使得陪伴型 AI 成为用户最先尝试的 GenAI 杀手级应用。

我们此前曾分享过a16z 最新研究:全球 GenAI TOP50 应用的「6 大启示」,其中提到的用户量 Top50 应用中,就有 9 款是陪伴型产品。

目前的聊天机器人大多身兼伴侣和助手双重身份,尤其是在 Character.AI 引领下,大多聊天机器人产品都平台化发展,以“聊天机器人集市”形态为主,可以由不同的“人格”来承担更多“职能”

但以能否提供更多情绪价值为界,垂类产品在用户体验上有着明显分野。以 Pi 和 Call Annie 这两个具备实时通信能力的 AI 产品为代表。

不同于既能写代码又能做规划的生产力型 AI,Pi 更着重于训练自己的对话能力,定位于倾听者和伙伴。

Pi 的产品界面非常简洁,对话框表达依然以文本为主,而后自动进行语音读取,也可以直接拨打语音电话进行实时交互。

在体验上与众不同的是,Pi 表现出了更高的“情商”,会在对话中主动提出延伸问题。官方也鼓励用户在工作生活中“卷不动了”的时候,通过和 Pi 对话来缓解压力。

单元 2

因切割游戏布局而引起热议的字节跳动,在 AI 社交出海领域推出的探索性产品 Cici,也采用了类似的设计。产品沿用了主流的“机器人集市”架构,但在对话中默认开启语音功能,会主动将文字回复用语音再读一遍。

前 Tinder 首席产品官推出的 AirChat,则允许用户创建用语音、文字或视频进行异步沟通的聊天室。产品内置了 AI 语音翻译,用户可以直接用自己的惯用语讲话,应用会进行翻译并模仿使用者的口音进行表达,降低了不同国家用户之间的沟通成本。

不同于这些偏重异步交互的产品,Call Annie 直接提供 FaceTime 一样自然的视频通话体验。

Call Annie 有完整的视频通话体验设计,拨打、接通后便可以开始通话;开着它操作其他应用,只要没挂电话,App 最小化后会显示依然在通话;支持音视频通话互切,快速反馈的语速也让用户有真实的感觉。并且,除了当家花旦 Annie,还提供其他四十多个对话者。

Call Annie 的所有设计都在为沉浸感加码,这个产品体验太贴合 1V1 社交场景了。

1V1 社交一直是社交品类中商业化路径最为明晰的形态,也是常年霸榜收入 Top 的赛道之一。在全球化的语境下,1V1 社交也是东南亚、北美、拉美等出海高价值区域的热门场景。

融云今年上线的 CallPlus SDK,就是支撑开发者进军这一场景的利器。完整封装了拨打、接听、挂断等整套呼叫流程,支持一对一及多人音视频通话;独家提供通话记录管理能力,且支持用户在过程中顺畅地进行音视频通话互转。

a16z 在一份报告中把 AI 对约会应用的改变总结为四个方向,分别是简介润色、语言建议、关系教练牵线搭桥

事实上,在 AI 语音和视频等更丰富的交互能力加持下,AI 重塑的可能不仅是线上约会的过程,甚至包括对象

也就是说,GenAI 带给社交的,不仅仅是基于 IM 和 RTC 通信能力提升社交关系升级的效率和体验,还有智能体、虚拟人等全新交互对象。这意味着社交将出现代际升级,社交范围将被重新定义。AI 伴侣会融入我们与朋友和家人的关系中,成为生活的一部分。

目前,用户对 Call Annie 的微词主要集中在其冷淡、自持、客观的态度上,“像一个不近人情的班主任”。这也是为什么在社交媒体上,这款应用最火的使用场景和宣传口径是“免费练习口语”。

据媒体报道,Call Annie 一推出,就造成了美国的教育平台 Chegg 的股价暴跌。无论是出于业务创新还是战略应对的考量,教育赛道对 AI 实时交互应用表现出更高的热情也就有据可依了。

文心一言中已经上线了英语口语老师插件,支持用户进行口语交流。网易有道也推出了相应的付费 App,内置话题来覆盖日常英语学习场景。

与侧重社交的 AI 机器人不同的是,教育场景的 AI 机器人大多在对话结束后会给用户的发音和语法打分,并提出润色建议。可以说,这很教育,也很符合简中互联网爱打分的氛围。

无论是社交、教育还是其他细分赛道,新一轮的创新热潮正在被 AI 推动,也考验从业者适应新业态的能力

AI 的大爆炸时刻,给被下行掌控的世界劈开了一道缝隙,并迅速蔓延为一场全球性的人声鼎沸。我们愿意相信,也积极参与它带来的范式转变。这将撑起人们对未来生活、社交方式的崭新畅想,能重新把我们带到希望里。


AIGC 常看常新,我们也在学习中整理了一些颇有助益的行业报告、论文。感兴趣的朋友,进入【融云全球互联网通信云】公众号,在对话框里发送“AIGC”即可获得这些资料。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1324496.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[PyTorch][chapter 8][李宏毅深度学习][Back propagation]

前言: 反向传播算法(英:Backpropagation algorithm,简称:BP算法)是一种监督学习算法,常被用来训练多层感知机。 它用于计算梯度计算中,降低误差。 目录: 链式法则 模型简介(Model) 损失函…

godot 报错Unable to initialize Vulkan video driver解决

版本 godot 4.2.1 现象 godot4.2.1 默认使用vulkan驱动,如果再不支持vulkan驱动的主机上,进入引擎编辑器将报错如下 解决 启动参数添加 –rendering-driver opengl3 即可进入引擎编辑器 此时运行项目仍然会报错无法初始化驱动 在项目设置中配置编…

Apache Tomcat httpoxy 安全漏洞 CVE-2016-5388 已亲自复现

Apache Tomcat httpoxy 安全漏洞 CVE-2016-5388 已亲自复现 漏洞名称漏洞描述影响版本 漏洞复现环境搭建漏洞利用修复建议 总结 漏洞名称 漏洞描述 在Apache Tomcat中发现了一个被归类为关键的漏洞,该漏洞在8.5.4(Application Server Soft ware)以下。受影响的是组…

Python---IP 地址的介绍

1. IP 地址的概念 IP 地址就是标识网络中设备的一个地址,好比现实生活中的家庭地址。 网络中的设备效果图: 2. IP 地址的表现形式 说明: IP 地址分为两类: IPv4 和 IPv6 IPv4 是目前使用的ip地址 IPv6 是未来使用的ip地址 IPv4 是由点分十进制组成 …

跟着我学Python进阶篇:01.试用Python完成一些简单问题

往期文章 跟着我学Python基础篇:01.初露端倪 跟着我学Python基础篇:02.数字与字符串编程 跟着我学Python基础篇:03.选择结构 跟着我学Python基础篇:04.循环 跟着我学Python基础篇:05.函数 跟着我学Python基础篇&#…

类和对象(中篇)

类的六个默认成员函数 如果一个类中什么成员都没有,简称为空类。 空类中真的什么都没有吗?并不是,任何类在什么都不写时,编译器会自动生成以下6个默认成员函数。 默认成员函数: 用户没有显式实现,编译器会…

Linux上随机输出谚语的程序fortune

概要: Linux上有一个随机输出谚语的程序叫fortune 手册对它的描述是:输出一个随机的、充满希望的、有趣的谚语 本篇所用的系统是Ubuntu22.04 一、fortune的安装 sudo apt install fortune-mod 二、fortune的使用 1、示例一 这个谚语是什么意思啊…

[DNS网络] 网页无法打开、显示不全、加载卡顿缓慢 | 解决方案

[网络故障] 网页无法打开、显示不全、加载卡顿缓慢 | 解决方案 问题描述 最近,我在使用CSDN插件浏览 MOOC 网站时,遇到了一些网络故障。具体表现为: MOOC 中国大学慕课网:www.icourse163.org点击CSDN插件首页的 MOOC&#xff08…

SLAM算法与工程实践——RTKLIB编译

SLAM算法与工程实践系列文章 下面是SLAM算法与工程实践系列文章的总链接,本人发表这个系列的文章链接均收录于此 SLAM算法与工程实践系列文章链接 下面是专栏地址: SLAM算法与工程实践系列专栏 文章目录 SLAM算法与工程实践系列文章SLAM算法与工程实践…

linux 内核的 lru_list 的结构

在linux的slab分配的入口slab_alloc有一个传入参数lru,它的作用是使每个slab对象在unused,但可能后面继续使用的时候,不需要free,可以先放在lru_list上。lru_list的结构为: struct list_lru {struct list_lru_node *n…

网工内推 | 上市公司中级网工,思科、华为认证优先,有带薪年假

01 新晨科技 招聘岗位:中级网络工程师 职责描述: 1. 负责公司网络系统的规划、设计、实施、维护和优化; 2. 负责网络设备的选型、采购、安装、配置和调试; 3. 负责网络安全策略的制定和实施,保障公司网络安全&#xf…

fastjson1.2.24 反序列化漏洞(CVE-2017-18349)分析

FastJson在< 1.2.24 版本中存在反序列化漏洞&#xff0c;主要原因FastJson支持的两个特性&#xff1a; fastjson反序列化时&#xff0c;JSON字符串中的type字段&#xff0c;用来表明指定反序列化的目标恶意对象类。fastjson反序列化时&#xff0c;字符串时会自动调用恶意对…

国标28181平台只能连接视频监控吗?

在一些视频监控项目中&#xff0c;国标28181平台成为了必不可少的工具。这个平台的主要作用在于将分布在不同区域的视频监控录像机、摄像头等设备进行联网管理&#xff0c;同时还能将视频监控连接到上一级的国标监控平台。 可以说&#xff0c;国标监控平台是一个非常重要的承上…

原子学习笔记3——使用tslib库

一、tslib介绍 tslib 是专门为触摸屏设备所开发的 Linux 应用层函数库&#xff0c;并且是开源。 tslib 为触摸屏驱动和应用层之间的适配层&#xff0c;它把应用程序中读取触摸屏 struct input_event 类型数据&#xff08;这是输入设备上报给应用层的原始数据&#xff09;并进行…

动力电池系统介绍(十四)——热管理系统

动力电池系统介绍&#xff08;十四&#xff09; 一、梗概二、座舱热管理&#xff08;汽车空调&#xff09;2.1 空调制冷2.2 空调制热2.2.1 传统燃油汽车空调制热2.2.2 新能源汽车空调制热 三、动力系统热管理3.1 燃油车发动机热管理3.1.1 冷却系统3.1.2 润滑系统3.1.3 进排气系…

网络编程day5

作业 1> 使用select完成TCP客户端程序 //client #include<myhead.h> #define CLINET_IP "192.168.125.79" #define CLINET_PORT 9999 #define SERVE_IP "192.168.125.79" #define SERVE_PORT 8888 int main(int argc, const char *argv[]) {/…

音视频直播核心技术介绍

直播流程 采集&#xff1a; 是视频直播开始的第一个环节&#xff0c;用户可以通过不同的终端采集视频&#xff0c;比如 iOS、Android、Mac、Windows 等。 前处理&#xff1a;主要就是美颜美型技术&#xff0c;以及还有加水印、模糊、去噪、滤镜等图像处理技术等等。 编码&#…

文件消失但是有占用内存的恢复方法

文件消失但占用内存是一个常见的问题&#xff0c;通常是由于文件系统错误或病毒攻击引起的。在这种情况下&#xff0c;文件虽然从目录结构中消失&#xff0c;但它们仍然占用存储空间。本文将分析这一问题的原因&#xff0c;并探讨解决该问题的几种方法。 文件消失但占用内存的原…

Text2SQL学习整理(四)将预训练语言模型引入WikiSQL任务

导语 上篇博客&#xff1a;Text2SQL学习整理&#xff08;三&#xff09;&#xff1a;SQLNet与TypeSQL模型简要介绍了WikiSQL数据集提出后两个早期的baseline&#xff0c;那时候像BERT之类的预训练语言模型还未在各种NLP任务中广泛应用&#xff0c;因而作者基本都是使用Bi-LSTM…

头部首发优志愿头部u_sign生成与TLS指纹处理! + 数据可视化技术讲解【Python爬虫】

目录 针对大学名称 大学排名, 综合指数,学校情况等数据进行爬取 找对应得数据包 请求发现数据有加密 发现加密参数 搜索加密参数&#xff0c;好进行分析 分析过程 数据可视化 针对大学名称 大学排名, 综合指数,学校情况等数据进行爬取 首先进行鼠标右键&#xff0c;进行…