大模型应用:新时代的多模态交互

news2024/11/25 14:38:12

引言

如果把大模型接入到终端设备,会怎么样?

(1)智能交互回顾

历史文章《[智能交互复兴:ChatGPT +终端(奔驰/Siri)= ?]》中提到:大模型遍布多个应用场景

其中有智能对话和终端设备(手机/嵌入式/脑机接口等),再结合不断壮大的多模态功能(图文理解、文生图、视频理解、多模态交互等),新一代交互方式即将来临。

上一代交互以文本框为主,部分产品虽然支持语音输入,但背后依然是语音转文本,丢失了语速、语气、音色、音量、环境音等信息,导致NLU(自然语言理解)出现偏差。

智能音箱优秀代表:小米小爱、天猫精灵、百度度秘

用户刚开始用,有新鲜感,但时间长了,就会发现又蠢又萌,语言理解能力堪忧,用户不得不跟人工智障battle,斗智斗勇,直到失去兴趣,沦为小孩子玩物。

(2)交互范式变革

如今,大模型时代,信息传播方式开始变化,不再局限于文本框输入,还能:

  • ①真正的语音交互,像人一样读懂语气、情感、语速等,无缝衔接

  • ②输入图片、视频,以及各种传感器

  • ③对话载体也不再是电脑、手机,还是蔓延到各类终端设备。

(2.1)语音模态

语言、语音融合,一步到位,不再拆分ASR/NLU/TTS

【2024-10-26】智谱迈出重要一步,推出自主智能体 AutoGLM情感语音模型 GLM-4-Voice,进一步逼近OpenAI的技术前沿。

GLM-4-Voice情感语音模型不仅能模拟真实情感表达,还能切换多种方言和语气,实现与真人般的对话体验。该模型已上线清言app,并对外开源。

可自助调节语速,支持多语言和方言,并且延时更低、可随时打断

同时,对话方式不再你一言我一语,机械式一问一答,而是真正的全双工模式

【2024-8-5】[全双工对话:大模型能边说边听了]

  • 上海交大开发出新模型 LSLM(Listening-while-Speaking Language Model),实现了真正的”全双工对话“。listening-while-speaking language model

  • 论文 Language Model Can Listen While Speakin

LSLM可以同时说话和听话。AI一边”嘴巴”不停,一边”耳朵”也没闲着

两个关键技术:

  • 基于token的解码器TTS:负责生成语音

  • 流式自监督学习编码器:实时处理音频输入

【2024-8-8】贾扬清的Lepton AI 直接把 LLMTTS 合二为一。

  • 传统系统里,文本和音频排队等处理;

  • 这里文本和语音并行处理,速度嘎嘎快,首次音频时间(TTFA)直接缩水到十分之一,自然无比顺滑。

除了减少延迟,Lepton AI 还引入简化和优化内容处理的高级机制,根据对话内容动态调整音频片段。这样,对话不仅连贯,还超级自然,停顿、中断?不存在!用户体验直接拉满

“Her”梦想照进现实

(2.2)多模态交互

除了语音模态,输入形式还可以扩展到图片、视频、传感器信号、动作等模态。

各种多模态大模型还在快速进化,层出不穷,应接不暇。

(种草,后面再谈)

多模态交互是大势所趋,毕竟人类沟通时,语言并非唯一渠道,有时候只需一个表情、一个动作就完成了信息传递。

神经系统接收和处理外界信息以作出反应、进行通信并确保身体的健康与安全。

神经系统接收和处理原始的外界信息,作出反应、进行通信并确保身体的健康与安全。

  • 环境信息传递到感觉器官:眼睛、耳朵、鼻子、舌头和皮肤。细胞和组织接收原始刺激,并将其转化为神经系统可以使用的信号。

  • 神经将信号传递到大脑,大脑将其解释为影像(视觉)、声音(听觉)、气味(嗅觉)、味道(味觉)和触感(触觉)

  • 其中,视觉信息占比高达90%以上

详见往期文章:《[从人脑到计算机:AGI道阻且长]》

(2.3)载体终端化

电脑、手机不是唯一,未来的交互设备无处不在,电视、玩具、音箱、耳机、手环、项链、别针等。

这些设备确实实际存在,有形,未来还会往“无形”发展,如:脑机接口。

【2024-11-1】B站超级科学晚会上,西工大脑机接口谢松云教授展示如何通过意念控制无人机起降、机械臂操作。

  • 45min处, 带脑电帽操控3台无人机表演,9个指令之一

  • 脑电帽提取脑电波特征,翻译成行为指令

  • 脑电波操控机械臂,抓豆角

详见:https://www.bilibili.com/video/BV1U71LY1EWc

(3)嵌入式设备交互

“无形”的意念交互距离落地还有一定距离,这里先聊聊嵌入式设备这种有形交互。

将大模型植入小型设备/家具/玩具上,我们的生活会变成什么样?

(3.1)玩具交互

【2024-4-9】FoloToy用AI改造传统行业(玩具),原先仅能播放音乐、讲故事的早教玩具,有了更多“玩法”,可实现多语种多角色扮演对话,并且联网后还能提供丰富的天文地理知识。

FoloToy」团队接入大模型后,同火火兔玩具厂商推出一款儿童或老人陪伴玩具——Fofo

【2024-4-27】Living AI公司最新研发的口袋宠物机器人Aibi,蓝牙耳机盒的大小,可以随时随地带着它去任何地方,重新定义智能AI口袋桌宠,时刻陪伴着你

【2024-9-3】[跃然创新把大模型做到毛绒玩具上,AI界泡泡玛特出来了]

找不到商业化落地场景 Agent+一个简单的Wifi音箱+儿童喜爱的毛绒玩具,这三个看起来都平平无奇的元素,加在一起

挂在小熊玩偶上的“彩色泡泡”名叫BubblePal,从硬件形态上看像一个可爱版的 AI Friend

  • 小朋友可以自由选择泡泡背后的角色: 爱因斯坦艾莎公主还是孙悟空等等耳熟能详的动画角色,捏住泡泡就能与其对话;

  • 家长在后端通过手机APP能够获取对话的全部内容,以此来了解3-6岁小朋友的成长和心理健康动态。

这样一个简单的“泡泡”,几乎巧妙地避开了如今围绕着AI的所有难题。

  • 基座大模型能力还不够用?

  • 容易出现 幻觉 ?

  • Agent 不够像?

  • 用户没有付费意愿?

  • BubblePal 上线一个月,用户活跃度非常好,用户平均每天使用时长超过了 30 分钟

  • 上线当周,后台收到了大量订单咨询,家长反馈特别强烈。没想过能卖得这么好,日tokens调用量正在成倍地往上涨,上线两周,单日tokens 消耗达到了2亿,现在每日 tokens消耗已经超过了4亿。

(3.2)动手试试

准备AI开发套件,包含:主板、音箱、摄像头、屏幕以及SD卡等设备,可以搭建简易多模态交互设备。

基本配置

  • LLM:默认科大讯飞13b多模态模型

  • 功能:文本、图片交互,应用场景还有语音翻译、拼写检查、姿态识别等

  • 支持自定义

在这里插入图片描述

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2234306.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

一周内从0到1开发一款 AR眼镜 相机应用?

目录 1. 📂 前言 2. 💠 任务拆分 2.1 产品需求拆分 2.2 开发工作拆分 3. 🔱 开发实现 3.1 代码目录截图 3.2 app 模块 3.3 middleware 模块 3.4 portal 模块 4. ⚛️ 拍照与录像 4.1 前滑后滑统一处理 4.2 初始化 View 以及 Came…

信息安全工程师(76)网络安全应急响应技术原理与应用

前言 网络安全应急响应(Network Security Incident Response)是针对潜在或已发生的网络安全事件而采取的网络安全措施,旨在降低网络安全事件所造成的损失并迅速恢复受影响的系统和服务。 一、网络安全应急响应概述 定义:网络安全应…

用图说明 CPU、MCU、MPU、SoC 的区别

CPU CPU 负责执行构成计算机程序的指令,执行这些指令所指定的算术、逻辑、控制和输入/输出(I/O)操作。 MCU (microcontroller unit) 不同的 MCU 架构如下,注意这里的 MPU 表示 memory protection unit MPU (microprocessor un…

vue3动态监听div高度案例

案例场景 场景描述&#xff1a;现在左边的线条长度需要根据右边盒子的高度进行动态变化 实践代码案例 HTML部分 <div v-for"(device, index) in devices" :key"index"><!-- 动态设置 .left-bar 的高度 --><div class"left-bar"…

【Docker系列】指定系统平台拉取 openjdk:8 镜像

&#x1f49d;&#x1f49d;&#x1f49d;欢迎来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

【含文档+源码】基于SpringBoot+Vue的新型吃住玩一体化旅游管理系统的设计与实现

开题报告 本文旨在探讨新型吃住玩一体化旅游管理系统的设计与实现。该系统融合了用户注册与登录、旅游景点管理、旅游攻略发帖、特色旅游路线推荐、附近美食推荐以及酒店客房推荐与预定等多项功能&#xff0c;旨在为游客提供全方位、一体化的旅游服务体验。在系统设计中&#…

B3735 [信息与未来 2018] 圣诞树

题目描述 圣诞树共有 nn 层&#xff0c;从上向下数第 11 层有 11 个星星、第 22 层有 22 个星星、以此类推&#xff0c;排列成下图所示的形状。 星星和星星之间用绳子连接。第 1,2,\cdots, n - 11,2,⋯,n−1 层的每个星星都向下一层最近的两个星星连一段绳子&#xff0c;最后一…

解决 Hypack 安装不能正常运行的引导及微软 VC++ 运行库 VCRedist

解决 Hypack 安装不能正常运行的引导及微软 VC 运行库 VCRedist 前言1、常见 Hypack 安装不能正常运行的错误1.1、无法打开大地测量参数1.2、无法运行硬件设置和组合 2、从 Hypack 2013 开始&#xff0c;程序安装后&#xff0c;在程序目标目录&#xff0c;有支持目录 Support &…

给大模型研究生一些救命建议

这篇写给大模型方向的研一新生&#xff0c;我呆证看完以后能救你们大命 首先我知道大模型算法工程师这个 title 十分诱人&#xff0c;你们现在也被导师说得一腔热血。 但是&#xff0c;大模型它跟七八年前的 CV、NLP 都不太一样&#xff0c;最不一样的点在哪里呢? 就是LLM …

Oracle基础查询

第一章 数据查询 1.1 单表查询 1.1.1 数据准备 找到分享的sql文件&#xff0c;选中文件&#xff0c;右键进行复制&#xff0c;选中以wateruser用户登录的连接&#xff0c;右键粘贴&#xff0c;然后ok确认&#xff0c;就可以将两个sql文件添加到了Datagrip的工程中&#xff0c;打…

解决com.mysql.jdbc.NonRegisteringDriver内存泄漏问题

1. 问题背景 线上出现内存报警&#xff0c;通过dump文件&#xff0c;MAT分析&#xff0c;发现mysql-connector-java 有内存泄漏问题 2.问题分析 然后看大对象列表&#xff0c;NonRegisteringDriver 对象确实占内存比较多&#xff0c;里面村的数据库连接的虚引用占比较多 3.解…

如何优雅处理异常?处理异常的原则

前言 在我们日常工作中&#xff0c;经常会遇到一些异常&#xff0c;比如&#xff1a;NullPointerException、NumberFormatException、ClassCastException等等。 那么问题来了&#xff0c;我们该如何处理异常&#xff0c;让代码变得更优雅呢&#xff1f; 1 不要忽略异常 不知…

华为2288HV2服务器安装BCLinux8U6无法显示完整安装界面的问题处理

本文记录了华为2288HV2服务器安装BCLinux8U6无法显示完整安装界面&#xff0c;在安装过程中配置选择时&#xff0c;右侧安装按钮不可见&#xff0c;导致安装无法继续的问题处理过程。 一、问题现象 华为2288HV2服务器安装BCLinux8U6时无法显示完整的安装界面&#xff0c;问题…

Qt多边形填充/不填充绘制

1 填充多边形绘制形式 void GraphicsPolygonItem::paint(QPainter *painter, const QStyleOptionGraphicsItem *option, QWidget *widget) {Q_UNUSED(option);Q_UNUSED(widget);//painter->setPen(pen()); // 设置默认画笔//painter->setBrush(brush()); // 设置默…

Python设计模式探究:单例模式实现及应用解析

&#x1f49d;&#x1f49d;&#x1f49d;欢迎莅临我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里可以感受到一份轻松愉快的氛围&#xff0c;不仅可以获得有趣的内容和知识&#xff0c;也可以畅所欲言、分享您的想法和见解。 推荐&#xff1a;「storm…

Linux权限解析:用户、组和权限的协同

​​​​​​​在Linux系统中&#xff0c;权限决定了谁能做什么。本文将指导你如何掌握这些权限&#xff0c;以确保你的系统既安全又高效&#xff01; 目录 1.shell命令及其运行原理 2.Linu权限的概念 (1) 用户 (2) 切换用户命令su (3) 指令提权命令sudo (4) 什么是权限…

java、excel表格合并、指定单元格查找、合并文件夹

#创作灵感# 公司需求 记录工作内容 后端&#xff1a;JAVA、Solon、easyExcel、FastJson2 前端&#xff1a;vue2.js、js、HTML 模式1&#xff1a;合并文件夹 * 现有很多文件夹 想合并全部全部的文件夹的文件到一个文件夹内 * 每个部门发布的表格 合并全部的表格为方便操作 模…

koa项目实战 == 实现注册登录鉴权

一. 项目的初始化 1 npm 初始化 npm init -y生成package.json文件: 记录项目的依赖 2 git 初始化 git init生成’.git’隐藏文件夹, git 的本地仓库 3 创建 ReadMe 文件 二. 搭建项目 1 安装 Koa 框架 npm install koa2 编写最基本的 app 创建src/main.js const Koa…

JAVA基础:单元测试;注解;枚举;网络编程 (学习笔记)

单元测试 操作步骤&#xff1a; a.导包import org.junit; b.三个注解 Test Before After c.点击Test 运行就可以了 用在不需要控制台输入的情境下&#xff1a;javaweb&#xff0c;框架项目&#xff0c;微服务项目 供开发人员自己做测试。 package com.page…

四个TikTok万能爆单选品法,第1个超过75%卖家会用!

做TK想爆单至关键的一步就是选品&#xff01;7分靠选品、3分靠运营&#xff0c;一开始你要把品选错了&#xff0c;再怎么运营都是在浪费时间。接下来分享一些万能选品思路&#xff0c;不管做什么类目的商家都可以参考&#xff01; 一、热卖品榜单选品 这是一种很常见&#xf…