聆思CSK6大模型+AI交互多模态开源SDK介绍

news2024/11/24 7:53:58

视觉语音大模型 AI 开发套件( CSK6-MIX )是围绕 CSK6011A 芯片设计的具备丰富语音图像功能与硬件外设的开发板,采用具备丰富组件生态的 Zephyr RTOS作为操作系统,官方提供了十几种开源SDK,包含大模型语音交互、大模型拍照识图、文生图、人脸识别、头肩追踪、手势识别、坐姿提醒等。

聆思科技还提供了模型训练推理工具将自己的算法模型部署至芯片上,也可以配合这个工具构建自己的 AI 应用。

语音交互与识图

功能介绍

SDK主要包含以下功能:

●语音交互:支持按键录音或唤醒后通过语音与大模型进行对话

●拍照识图:支持通过摄像头拍摄图像并上传给大模型进行识别,支持依据识图内容进行提问

●图片生成:支持通过语音交互描述画面内容,令大模型生成图片并显示至套件屏幕上

语音交互模式

支持的语音交互模式

多模态SDK支持三种交互方式,其特点如下:

模式

唤醒方式

交互方式

按键交互

按下屏幕麦克风图标或开发板K3按键

按住按键说话,松开提交

语音唤醒(单轮)

唤醒词 “小美小美”

听到提示音 “在呢” 后进行提问,每次提问均需要唤醒

语音唤醒(多轮)

唤醒词 “小美小美”

听到提示音 “在呢” 后进行提问,可持续对话,当超过20秒无语音输入时自动结束本次交互

语音交互模式的切换

在待机页面,下滑可调出下滑菜单,点击下滑菜单中的 设置图标,可进行配置页面:

选中对应的模式后,点击左上角即可回到待机页面并生效。

按键交互模式

设置成按键交互(按键唤醒)模式下,按住屏幕上的麦克风按钮或开发板上的K3按键,即进入录音状态,松开按键则结束录音并提交。

语音唤醒模式

当设置为语音唤醒(单轮)语音唤醒(多轮),可通过唤醒词 —— “小美小美” 对设备进行唤醒,当听到 “在呢” 的提示音后,即可正常进行语音输入。

退出对话

在使用过程中,点击左上角即可结束本轮对话回到待机页面,此操作会同步清除本次对话的上下文信息。

拍照识图

在待机页,点击拍照按钮即可进入取景页面,对准要拍照的物体,点击右侧中间的拍照键完成抓拍,确认画面抓拍正常后(无晃动模糊的情况),点击右侧的 √ 进行提交识别:

文生图

在设备进入语音交互状态后,可以通过带有绘画意图的提示词让大模型进行作画,比如:

●“画一只熊猫”

●“画一个人正在使用电脑”

图片生成与设备控制

功能介绍

本示例主要包含以下功能:

  • 可通过“小聆小聆”对设备进行唤醒
  • 可通过语音交互与大模型进行对话
  • 可通过语音交互使用大模型绘制图片并显示在屏幕上
  • 可通过语音交互通过大模型控制屏幕显示的颜色
  • 支持通过LSPlatfrom接入自己的大模型应用

大模型语音对话功能

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件说出我们的问题,比如:“什么是大模型?”
  • 稍等片刻后,开发套件将播放返回的答案

大模型作画

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件以 “画xx” 的句式说出我们希望它绘制的图像,比如:“画一只大熊猫”
  • 稍等片刻后,开发套件将在显示屏上显示大模型根据我们需求生成的图片

大模型控制设备

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件件以 “把屏幕设置成xx” 的句式说出希望屏幕显示的颜色,比如:“把屏幕设置成大海一样的颜色”
  • 稍等片刻后,开发套件将把屏幕设置成理解了我们描述后的颜色

智能问答与坐姿检测

功能介绍

本示例功能包含:

  • 坐姿检测:通过摄像头检测人员坐姿,并在出现不良坐姿时进行提醒(红灯闪烁)
  • 语音识别:支持离线识别指定唤醒词并进行录音
  • 网络:通过 WIFI 芯片接入网络,对接聆思大模型平台,支持与大模型进行对话
  • 屏显:通过显示屏展示应用相关动画界面

体验大模型语音对话功能

  • 我们可以通过 “小聆小聆” 唤醒词对开发套件进行唤醒
  • 套件被正常唤醒时,会播放应答语 —— "在呢"
  • 此时我们可以接着对开发套件说出我们的问题,比如:“什么是大模型?”
  • 稍等片刻后,开发套件将播放返回的答案

体验坐姿检测

本示例工程中默认启用了坐姿检测功能,当摄像头识别到不良坐姿时,开发板上也将闪烁红色 LED 进行提醒,同时,我们也可通过 PC 工具查看实时拍摄的图像与坐姿检测结果。

本示例运行时,摄像头将持续拍摄图像并并送入坐姿检测算法进行处理,当检测到画面中出现不良坐姿(如趴桌、手托脸等)时,将闪烁红色 LED 进行提醒,如下图。

借助串口连接即可看到预览图和识别结果;

相关资料

开发版硬件详情和资料下载套件简介 | 聆思文档中心

大模型多模态应用开发培训视频大模型时代下的智能硬件新玩法_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1835892.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

spark常见问题

写文章只是为了学习总结或者工作内容备忘,不保证及时性和准确性,看到的权当个参考哈! 1. 执行Broadcast大表时,等待超时异常(awaitResult) 现象:org.apache.spark.SparkException: Exception…

设置角色运动的动画

(1) 打开Assets-UnityTechnologies-Animation-Animators,Create-Animation-Controller,命名为JohnLemon (2) 打开JohnLemon,出现下图 (3) 依次将Assets-UnityTechnologies-Animation-Animation中的JohnIdle和JohnWalk拖放到Base Layer窗口中 (4) 右击Idl…

整合JavaSSM框架【超详细】

在整合SSM之前我们首先要知道SSM框架指的是哪些框架? Java的SSM指的是Spring、Spring MVC、MyBatis这三个框架 Spring框架 什么是Spring? Spring是一个支持快速开发Java EE应用程序的框架。它提供了一系列底层容器和基础设施,并可以和大量常…

win11右键小工具

开头要说的 在日常使用场景中,大家如果用的是新的笔记本电脑,应该都是安装的win11系统, 当然win11系统是最被诟病的, 因为有很多人觉得很难操作, 就比如一个小小的解压操作, 在win7和win10上&#xff…

基于DDD的编码实践

分层设计 领域驱动设计(Domain-driven design, DDD) 作为一种复杂软件系统的应对方案,在设计和编码提供了一种新的解决方式,即领域驱动,要求程序员在设计和编码时从领域专家的角度出发来实现架构/代码,做到…

随机产生一些江河上的坐标数据

不久前收到一个需求,说要随机创建约一百个某段江河上的坐标点,用于做一些数据呈现。 我首先是想到用AI直接给我一点数据,没想到给出来的坐标,有许多都落在陆地上,根本不符合我的要求。后来结合AI给出的建议&#xff0…

爬抖音直播间观众数据

打开抖音,稍微看了下买房直播间,突然很好奇是那些用户在观看,想拿下这些用户数据,再通过用户等级、在线观看时长排序,筛选出优质客户。 普及一下抖音用户等级: 抖音用户的提升与用户在直播间消费的金额直接…

打造基于大模型的AI产品

我要飞往印度进行短暂旅行,因此花了一个小时的时间处理在线签证申请流程。完成后,由于我现在知道涉及的内容,我向 ChatGPT 4o 询问了相关问题。这些观点中的大多数都是部分或完全错误的。 NSDT工具推荐: Three.js AI纹理开发包 - …

Linux C编译器从零开发三

AST语法树 BNF抽象 expr equality equality relational ("" relational | "!" relational)* relational add ("<" add | "<" add | ">" add | ">" add)* add mul ("" …

苹果电脑下载vite包错

苹果电脑下载vite包错/Users/lili/.npm/_cacache/index-v5/c5/50/b451703d03b3802b9ee6b7ff2b0bde4de7f26830eb52c904d6911c137cf8包错解决方式 解决方式&#xff1a;sudo chown -R 501:20 "/Users/wangxin/.npm"

2024/6/18(RBAC,查询用户权限,细粒度授权,选课,支付宝生成二维码支付,支付结果查询需要内网穿透)

黑马程序员【学成在线项目】,P141 测试沙箱支付宝_黑马学成在线支付宝沙箱-CSDN博客 需要内网穿透

甘特图如何画以及具体实例详解

甘特图如何画以及具体实例详解 甘特图是一种常见的项目管理工具又称为横道图、条状图(Bar chart)。是每一位项目经理和PMO必须掌握的项目管理工具。甘特图通过条状图来显示项目、进度和其他时间相关的系统进展的内在关系随着时间进展的情况。但是多项目经理和PMO虽然考了各种证…

OSPF开销、协议优先级、定时器(华为)

#交换设备 OSPF开销值 如果没有定义OSPF接口的开销值&#xff0c;OSPF会根据该接口的带宽自动计算其开销值。 计算公式&#xff1a; 接口开销 带宽参考值 / 接口带宽 &#xff08;取整数部分&#xff0c;结果小于1时取1&#xff09;通过改变带宽参考值可以间接改变接口的开…

多模态融合算法分析

多模态融合算法分析 多模态论文多模态融合早期融合晚期融合混合融合模型级融合 对比分析早期融合&#xff08;Feature-level Fusion&#xff09;晚期融合&#xff08;Decision-level Fusion&#xff09;混合融合&#xff08;Hybrid Fusion&#xff09;ML-LSTM&#xff08;Multi…

BC153 [NOIP2010]数字统计

数字统计 一.题目描述二.输入描述&#xff1a;三.输出描述&#xff1a;四.数字范围五.题目思路六.代码实现 一.题目描述 请统计某个给定范围[L, R]的所有整数中&#xff0c;数字2出现的次数。 比如给定范围[2, 22]&#xff0c;数字2在数2中出现了1次&#xff0c;在数12中出现1次…

[机器学习算法]线性回归

1. 理解基本概念 在开始学习线性回归之前&#xff0c;确保理解以下基本概念&#xff1a; 自变量&#xff08;特征&#xff09;&#xff1a;用来预测因变量&#xff08;目标&#xff09;的输入变量。 因变量&#xff08;目标&#xff09;&#xff1a;需要预测的输出变量。 回归…

网关助力边缘物联网

网关助力边缘物联网 在探讨网关如何助力边缘物联网&#xff08;IoT&#xff09;的议题时&#xff0c;我们不得不深入分析这一技术交汇点的复杂性与潜力。边缘计算与物联网的融合&#xff0c;通过将数据处理与分析能力推向网络边缘&#xff0c;即数据生成的地方&#xff0c;极大…

自我激励学习提升语言模型的推理能力

随着人工智能技术的快速发展&#xff0c;语言模型&#xff08;LMs&#xff09;在各种下游任务中展现出了卓越的能力。特别是在少样本&#xff08;few-shot&#xff09;和零样本&#xff08;zero-shot&#xff09;学习环境中&#xff0c;通过吸收特定任务的指令和示例&#xff0…

IDEA设置nacos权重

本地开发的时候&#xff0c;连接开发环境的NACOS&#xff0c;有时候会有其他请求发送到自己的机子上&#xff0c;由于本地代码会有更新不及时的情况&#xff0c;导致代码报错&#xff0c;同时也会影响本地的日志输出&#xff0c;此时只要在idea设置 spring.cloud.nacos.discov…

icloud 邮箱登入失败

APP NAME mail2HOSTING APP NAME cloudos2CLIENT TIME Tue Jun 11 2024 09:00:47 GMT0800 (中国标准时间) (1718067647802)USER AGENT Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36HOSTNAME www.icloud.…