彩蛋岛 销冠大模型案例

news2025/2/23 21:43:01

彩蛋岛 销冠大模型案例

任务:

https://kkgithub.com/InternLM/Tutorial/tree/camp3/docs/EasterEgg/StreamerSales

视频

https://www.bilibili.com/video/BV1f1421b7Du/?vd_source=4ffecd6d839338c9390829e56a43ca8d

项目git地址:

https://kkgithub.com/PeterH0323/Streamer-Sales

底层技术:

🚀 KV cache + Turbomind 推理加速
📚 RAG 检索增强生成
🎙️ ASR 语音转文字输入
🔊 TTS 文字转语音输出
🦸 数字人解说视频生成  SD 来生成视频:comfyUI 
🌐 Agent 使用网络查询实时快递等信息


图片扣字; 图片进行长边裁剪;图片检测识别

xtuner 微调训练

在线体验:
https://openxlab.org.cn/apps/detail/HinGwenWong/Streamer-Sales

笔记

功能:主播文案一键生成+商品解说

输入:给定商品特点

目标:激发用户购买意愿

架构:
在这里插入图片描述

数据集设计

主播视角;性格,说话方式
用户视角:可能关心问题
产品视角: 特性,亮点

训练

xtuner zero2 训练:

xtuner train finetune_configs/internlm2_chat_7b/internlm2_chat_7b_qlora_custom_data.py --deepspeed deepspeed_zero2

数字人-文生图流程

成熟的赛道是直接使用真人录制好的视频,然后 TTS 之后直接生成口型贴到人脸上,这种方法可控性强,而且获得成本低,已经大量推广了。

comfyui

生成人像图
DW Pose 生成骨骼图
ControlNet 控制人物姿态
AnimateDiff 生成视频
插帧提升帧率
提升分辨率

ComfyUI 环境搭建

https://kkgithub.com/InternLM/Tutorial/tree/camp3/docs/EasterEgg/StreamerSales#2-%E7%8E%AF%E5%A2%83%E6%90%AD%E5%BB%BA

文生图流程

首先加入 sd checkpoint ,和 vae 模型,vae 可选,模型可选

DW Pose 生成骨骼图 & ControlNet 控制人物姿态

AnimateDiff 生成视频

TTS 文字转语音

conda activate streamer-sales
uvicorn server.tts.tts_server:app --host 0.0.0.0 --port 8001 # tts

ASR 语音识别生成文字

conda activate streamer-sales
uvicorn server.asr.asr_server:app --host 0.0.0.0 --port 8003 # asr

异步

uvicorn

感觉

技术点比较全面,适合参考。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2145693.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式-结构型-11-代理模式

文章目录 1. 基本介绍2. 静态代理2.1 基本介绍UML 类图 2.2 应用实例定义接口目标对象代理对象调用代理 2.3 静态代理优缺点 3. 动态代理3.1 基本介绍3.2 JDK 中生成代理对象的 API参数说明UML类图 3.3 应用实例定义接口目标对象代理工厂调用代理 4. Cglib 代理4.1 基本介绍4.2…

2011-2022年数字金融与企业ESG表现:效应、机制与“漂绿”检验(内含原始数据+处理代码)

2011-2022年数字金融与企业ESG表现:效应、机制与“漂绿”检验(内含原始数据处理代码) 1、时间:2011-2022年 2、来源:上市公司年报、华证ESG、北大数字普惠金融 3、指标:年份、股票代码、股票简称、行业名…

使用Maven创建一个Java项目并在repository中使用

JDK环境:1.8.0_371 Maven环境 :Apache Maven 3.6.3 配置完成jdk和mvn后,进入到指定文件夹下执行如下语句: mvn archetype:generate -DgroupIdtop.chengrongyu -DartifactIdCyberSpace -DarchetypeArtifactIdmaven-archetype-quic…

Matlab Delany-Bazley和Miki模型预测多孔材料吸声性能

Delany-Bazley模型和Miki模型是常用于预测多孔材料吸声性能的两种模型。Delany-Bazley模型是一种经验模型,用于描述多孔材料的声学特性,特别是复杂多孔材料如泡沫材料。该模型基于材料的几何参数(如孔隙率、孔隙形状等)来预测材料…

Meta-Learning数学原理

文章目录 什么是元学习元学习的目标元学习的类型数学推导1. 传统机器学习的数学表述2. 元学习的基本思想3. MAML 算法推导3.1 元任务设置3.2 内层优化:任务级别学习3.3 外层优化:元级别学习3.4 元梯度计算3.5 最终更新规则 4. 算法合并5. 理解 MAML 的优…

Paper Digest|OpenSPG 超大规模知识仓储 KGFabric 论文解读

本文作者:祝锦烨,蚂蚁集团开发工程师,主要研究方向是图谱存储与计算。过去一年在团队的主要工作是蚂蚁知识图谱平台和 KGFabric 相关研发,研究成果收录于 VLDB24。 2024 年 8 月 26 日,数据管理与数据库领域顶级国际会…

[数据集][目标检测]红外微小目标无人机直升机飞机飞鸟检测数据集VOC+YOLO格式7559张4类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):7559 标注数量(xml文件个数):7559 标注数量(txt文件个数):7559 标注…

Hikvision综合安防管理平台isecure center文件读取深度利用

前言 远离一线很久了,很难有实战的机会。碰到Hikvision的漏洞,市面上的很多文章又很模糊,自己摸全点做个详细记录。 参考文章,向佬学习。本次测试为内部授权测试,已脱敏。https://mp.weixin.qq.com/s/zvo195UQvWwTppm…

WPF 的TreeView的TreeViewItem下动态生成TreeViewItem

树形结构仅部分需要动态生成TreeViewItem的可以参考本文。 xaml页面 <TreeView MinWidth"220" ><TreeViewItem Header"功能列表" ItemsSource"{Binding Functions}"><TreeViewItem.ItemTemplate><HierarchicalDataTempla…

TikTok直播专线服务商推荐

在追求TikTok直播的极致体验时&#xff0c;搭建稳定高效的专线网络无疑是最重要的第一步。国内市场涌现出众多TikTok直播专线服务商&#xff0c;面对如此多的选择&#xff0c;用户究竟该如何权衡利弊&#xff0c;作出明智的决策呢&#xff1f;以下是一些关键因素和TIKTOK直播专…

基于 K8S kubernetes 的常见日志收集方案

目录 1、日志对我们来说到底重不重要&#xff1f; 2、常见的日志收集方案 2.1 EFK 2.2 ELK Stack 2.3 ELKfilebeat 2.4 其他方案 2、elasticsearch组件介绍 3、filebeat组件介绍 3.1 filebeat和beat关系 3.2 filebeat是什么&#xff1f; 3.3 Filebeat工作原理 3.4 …

FEAD:fNIRS-EEG情感数据库(视频刺激)

摘要 本文提出了一种可用于训练情绪识别模型的fNIRS-EEG情感数据库——FEAD。研究共记录了37名被试的脑电活动和脑血流动力学反应&#xff0c;以及被试对24种情绪视听刺激的分类和维度评分。探讨了神经生理信号与主观评分之间的关系&#xff0c;并在前额叶皮层区域发现了显著的…

56.【C语言】字符函数和字符串函数(strtok函数)(未完)

目录 12.strtok函数(较复杂) *简单使用 总结: *优化 12.strtok函数(较复杂) *简单使用 strtok:string into tokens cplusplus的介绍 点我跳转 翻译: 函数 strtok char * strtok ( char * str, const char * delimiters ); 总结: delimiters参数指向一个字符串&#xff0…

RK3568平台(基础篇)示波器的使用

一.示波器面板介绍 示波器的横轴表示的是时间,在横轴上有10个小格,每个小格的时间是200us。 示波器的纵轴表示的是电压,在纵轴上有8个小格,每个小格的电压表示1V。 以上是个方波,方波在纵轴上占5个小格,每个小格的电压是500mv,所以这个方波的电压为2500mv。 方波在横…

每日OJ题_牛客_dd爱框框(滑动窗口)

目录 dd爱框框&#xff08;滑动窗口&#xff09; 解析代码 dd爱框框&#xff08;滑动窗口&#xff09; dd爱框框_牛客题霸_牛客网 解析代码 基础同向双指针算法。关于滑动窗口的介绍可看这篇&#xff1a;Offer必备算法02_滑动窗口_八道力扣OJ题详解&#xff08;由易到难&am…

【我的 PWN 学习手札】Largebin Attack(<= glibc-2.38可利用)

目录 前言 一、Largebin Attack的通用利用方法 二、再次 Largebin Attack 三、测试与模板 前言 早期的 Largebin Attack&#xff0c;通过修改 largebin 中 free chunk 的 bk 和 bk_nextsize 指针域&#xff0c;能够实现任意地址写堆地址。然而在 glibc > version2.30 后…

Mycat搭建读写分离

启动Mycat 进入 /mycat/conf/datasources目录下&#xff0c;修改prototypeDs.datasource.json文件 去mycat/bin目录用启动mycat ./mycat start (关闭mycat ./mycat stop)连接mycat 默认端口8066 用户名root 密码123456 注意&#xff1a;这里ip设为null表示任何ip都可以访问…

【学习笔记】SSL/TLS安全机制之CAA

1、概念界定 CAA全称Certificate Authority Authorization&#xff0c;即证书颁发机构授权&#xff0c;每个CA都能给任何网站签发证书。 2、CAA要解决的问题 例如&#xff0c;蓝色网站有一张橙色CA颁发的证书&#xff0c;我们也知道还有许多其他的CA&#xff1b;中间人可以说服…

JACM23 - A New Algorithm for Euclidean Shortest Paths in the Plane

前言 如果你对这篇文章感兴趣&#xff0c;可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」&#xff0c;查看完整博客分类与对应链接。 本文关注的问题为计算几何学中的经典问题&#xff0c;即「在平面上给定一组两两不相交的多边形障碍物&#xff0c;寻找两点…

Redis(redis基础,SpringCache,SpringDataRedis)

文章目录 前言一、Redis基础1. Redis简介2. Redis下载与安装3. Redis服务启动与停止3 Redis数据类型4. Redis常用命令5. 扩展数据类型 二、在Java中操作Redis1. Spring Data Redis的使用1.1. 介绍1.2. 环境搭建1.3. 编写配置类&#xff0c;创建RedisTemplate对象1.4. 通过Redis…