【全球首个开源AI数字人】DUIX数字人-打造你的AI伴侣!

news2024/7/2 3:55:14

目录

  • 1. 引言
    • 1.1 数字人技术的发展背景
    • 1.2 DUIX数字人项目的开源意义
    • 1.3 DUIX数字人技术的独特价值
    • 1.4 本文目的与结构
  • 2. DUIX数字人概述
    • 2.1 定义与核心概念
    • 2.2 硅基智能与DUIX的关系
    • 2.3 技术架构
    • 2.4 开源优势
    • 2.5 应用场景
    • 2.6 安全与合规性
  • 3. DUIX数字人技术特点
    • 3.1 开源性与社区支持
    • 3.2 跨平台兼容性
    • 3.3 低算力要求与广泛适用性
    • 3.4 高帧率与流畅体验
    • 3.5 真人级的交互质量
    • 3.6 网络依赖性小
    • 3.7 可定制性与灵活性
    • 3.8 实时渲染能力
    • 3.9 安全性与合规性
  • 4.效果展示
  • 5.部署运行
    • 5.1 安卓 SDK 集成教程
    • 5.2 iOS SDK 集成教程
  • 9. 结语


1. 引言

1.1 数字人技术的发展背景

数字人技术,作为人工智能领域的一个重要分支,近年来得到了迅猛发展。随着计算能力的提升、算法的优化以及大数据的积累,虚拟数字人不仅在外观上越来越接近真人,而且在交互能力上也日益智能化。数字人技术在客服、教育、娱乐等多个领域展现出广泛的应用前景。

1.2 DUIX数字人项目的开源意义

在这样的技术浪潮中,开源项目扮演着至关重要的角色。开源不仅促进了技术的快速迭代和创新,还降低了技术应用的门槛,使得更多的开发者和企业能够参与到数字人技术的开发和应用中来。DUIX数字人项目的开源,正是这一趋势的体现,它为数字人技术的发展注入了新的活力。

1.3 DUIX数字人技术的独特价值

DUIX数字人项目以其开源的特性,为开发者提供了一个自由度高、可定制性强的平台。开发者可以基于DUIX进行二次开发,创造出符合特定需求的数字人应用。同时,DUIX数字人的跨平台特性,使其能够轻松部署在多种设备上,为用户提供更加丰富和便捷的交互体验。

1.4 本文目的与结构

本文旨在深入探讨DUIX数字人技术的各项特点和应用,为对数字人技术感兴趣的开发者和企业提供一份详尽的技术指南。接下来的章节将详细介绍DUIX数字人的技术特点、SDK功能、交互平台能力,并通过实践案例展示DUIX数字人的应用场景和开发指南。最后,我们将对DUIX数字人技术的未来发展进行展望,并提供相关的参考文献和资源链接。

2. DUIX数字人概述

2.1 定义与核心概念

DUIX数字人,全称为"Dialogue User Interface System",是一个由硅基智能开发的数字人智能交互平台。它基于先进的人工智能技术,通过集成语音识别(ASR)、语音合成(TTS)、大模型、知识库等能力,实现了数字人的高度拟人化和实时交互。
在这里插入图片描述

2.2 硅基智能与DUIX的关系

硅基智能作为DUIX数字人项目的发起者和维护者,致力于推动数字人技术的创新和应用。通过开源DUIX项目,硅基智能不仅展示了其在人工智能领域的技术实力,也为全球开发者提供了一个共同参与和贡献的平台。

2.3 技术架构

DUIX数字人的技术架构包括以下几个关键部分:

  • 云服务SDK:支持2D仿真数字人的实时驱动渲染,通过RTC协议推送视频流服务。
  • 本地版SDK:允许数字人在本地硬件设备上渲染,实现实时驱动。
  • 交互能力:集成了语音交互技术,包括语音识别和语音合成,以及与大模型和知识库的交互。

2.4 开源优势

DUIX数字人项目的开源特性带来了多方面的优势:

  • 透明性:所有源代码对公众开放,用户和开发者可以查看、学习和修改代码。
  • 协作性:全球开发者可以共同参与项目的开发和维护,形成强大的社区支持。
  • 创新性:开源促进了技术的快速迭代,开发者可以基于现有代码进行创新和优化。

2.5 应用场景

DUIX数字人可广泛应用于以下场景:

  • 客户服务:作为虚拟客服,提供24/7的咨询服务。
  • 教育培训:作为虚拟教师,进行知识讲解和互动教学。
  • 娱乐互动:在游戏和社交媒体中作为虚拟角色与用户互动。

2.6 安全与合规性

在使用DUIX数字人时,硅基智能强调了安全和合规性的重要性。文档中特别提醒用户不要通过任何第三方插件使用服务,以防止API Key等敏感信息的泄露。

3. DUIX数字人技术特点

3.1 开源性与社区支持

DUIX数字人项目的一个显著特点就是其开源性。这意味着所有的源代码都对外公开,开发者可以自由地访问、修改和分发代码。开源不仅促进了技术的透明度,还鼓励了全球开发者社区的协作和创新。社区的支持为DUIX数字人带来了持续的改进和功能扩展。

3.2 跨平台兼容性

DUIX数字人SDK支持iOS、安卓、H5等多种集成方式,这使得数字人应用可以轻松地跨平台部署。无论是在智能手机、平板电脑还是个人电脑上,用户都能享受到一致的交互体验。

3.3 低算力要求与广泛适用性

DUIX数字人对硬件的要求相对较低,这意味着它可以在多种设备上流畅运行,包括个人电脑、平板、车载系统,甚至是手机。这大大扩展了数字人应用的使用场景和潜在用户群。

3.4 高帧率与流畅体验

DUIX数字人模型支持50帧/秒以上的超流畅画面质量,远超电影级的24帧/秒标准。这为用户提供了更加自然和逼真的交互体验。

3.5 真人级的交互质量

DUIX数字人不仅在视觉上追求逼真,还在交互质量上下足了功夫。模型能够精准地同步动作、微表情乃至声音唇形,使得数字人的交互更加接近真人。

3.6 网络依赖性小

DUIX数字人在设计时考虑了无网络或网络不稳定的环境,使得数字人应用即使在没有网络的情况下也能运行,这为多种场景提供了便利。

3.7 可定制性与灵活性

DUIX数字人提供了高度的可定制性,允许开发者根据特定需求进行定制开发。无论是视频、媒体、客服、金融还是广电行业,DUIX都能够满足多样化的业务需求。

3.8 实时渲染能力

DUIX数字人的实时渲染能力十分突出,视频生成效率超过1:0.5,完全符合直播和实时交互应用的标准。

3.9 安全性与合规性

DUIX数字人在提供强大功能的同时,也非常注重安全性和合规性。文档中明确指出,使用第三方插件可能会导致安全风险,因此推荐用户直接使用官方提供的SDK和API。

4.效果展示

DUIX数字人Demo展示了其对话语义的理解和反馈能力。虽然目前还有3-4秒的反应时间,但随着技术的不断优化,这个小问题将很快得到解决。
官网提供有很多款数字人模板,您可以轻松访问开源项目网址进行下载和应用。硅基智能承诺,将持续更新本地模型库,确保您始终能够体验到最新、最前沿的数字人模型。
在这里插入图片描述

数字人模板之丰富令人赞叹,我自信满满地选择了一位性格狂野的数字女友,想要一展身手。然而,经过一下午的激烈辩论,我意外地发现,这场智力与情感的较量竟难分伯仲。

硅基智能开源AI女友框架DUIX,会吵架,还会吃醋

5.部署运行

DUIX提供了详细的集成教程,无论是安卓还是iOS,都有清晰的步骤指导。从初始化SDK到数字人形象展示,再到音频播放和动作控制,每一步都详尽无遗。
在这里插入图片描述

5.1 安卓 SDK 集成教程

该开源项目duix.ai提供了详细的使用部署教程,可以移步该项目的地址去查看,我直接把重要的部分贴在了下方。

SDK集成
在 build.gradle 中增加配置如下

dependencies {
    // 引用SDK项目
    implementation project(":duix-sdk")
    // sdk 中使用到 exoplayer 处理音频(必选)
    implementation 'com.google.android.exoplayer:exoplayer:2.14.2'
    
    // 云端问答接口使用的SSE组件(非必选)
    implementation 'com.squareup.okhttp3:okhttp-sse:4.10.0'

    ...
}

权限要求, AndroidManifest.xml中,增加如下配置

<manifest xmlns:android="http://schemas.android.com/apk/res/android">
    <uses-permission android:name="android.permission.INTERNET" />
    <uses-permission android:name="android.permission.CHANGE_WIFI_STATE" />
    <uses-permission android:name="android.permission.ACCESS_NETWORK_STATE" />
    <uses-permission android:name="android.permission.ACCESS_WIFI_STATE" />
    <uses-permission android:name="android.permission.MODIFY_AUDIO_SETTINGS" />
    <uses-permission android:name="android.permission.WAKE_LOCK" />

</manifest>

5.2 iOS SDK 集成教程

SDK 提供了多种回调方法,包括数字人渲染报错回调、音频播放结束回调、音频播放进度回调等。动作相关的还支持随机动作、开始动作、结束动作等。建议前往开源项目去查看详细文档

### 开发环境
开发⼯具: Xcode  ios12.0以上 iphoneX及以上

## 快速开始
          NSString *basePath =[NSString stringWithFormat:@"%@/%@",[[NSBundle mainBundle] bundlePath],@"gj_dh_res"];
          NSString *digitalPath =[NSString stringWithFormat:@"%@/%@",[[NSBundle mainBundle] bundlePath],@"lixin_a_540s"];
      
        //初始化
       NSInteger result=   [[GJLDigitalManager manager] initBaseModel:basePath digitalModel:digitalPath showView:weakSelf.showView];
        if(result==1)
        {
           //开始
            [[GJLDigitalManager manager] toStart:^(BOOL isSuccess, NSString *errorMsg) {
                if(!isSuccess)
                {
                    [SVProgressHUD showInfoWithStatus:errorMsg];
                }
            }];
        }
## 调用流程
1.启动服务前需要准备好同步数字人需要的基础配置和模型文件。
2.初始化数字人渲染服务。
3.调用toStart函数开始渲染数字人
4.调用toSpeakWithPath函数驱动数字人播报。
5.调用cancelAudioPlay函数可以主动停止播报。
6.调用toStop结束并释放数字人渲染

9. 结语

随着DUIX数字人技术的深入发展,我们有机会重新审视和认识数字人在社会中的角色和价值。数字人不仅作为技术的产物,更应成为促进社会进步、提高人类生活质量的重要力量。技术与人文关怀的结合,将确保数字人技术的应用能够以负责任和有益的方式发展。

DUIX数字人的开源特性为开发者提供了广阔的创新空间。我们号召开发者们继续发扬探索精神,不断尝试和实现DUIX数字人的新功能和应用场景。同时,也应意识到作为技术创造者的责任,确保技术的应用符合伦理标准,促进社会的整体福祉。

随着技术的不断发展和创新,我们相信DUIX数字人将带来更多激动人心的可能性,为人类社会带来更多积极的变化。让我们拭目以待,并在这一旅程中共同努力。

项目链接
https://github.com/GuijiAI/duix.ai
探索开源地址,开启你的数字人之旅!

在这里插入图片描述

🎯🔖更多专栏系列文章:AIGC-AI大模型开源精选实践

😎 作者介绍:我是寻道AI小兵,资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索。
📖 技术交流:建立有技术交流群,可以扫码👇 加入社群,500本各类编程书籍、AI教程、AI工具等你领取!
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我,让我们携手同行AI的探索之旅,一起开启智能时代的大门!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1877612.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[OtterCTF 2018]Bit 4 Bit

我们已经发现这个恶意软件是一个勒索软件。查找攻击者的比特币地址。** 勒索软件总喜欢把勒索标志丢在显眼的地方&#xff0c;所以搜索桌面的记录 volatility.exe -f .\OtterCTF.vmem --profileWin7SP1x64 filescan | Select-String “Desktop” 0x000000007d660500 2 0 -W-r-…

Java新手启航:Windows下JDK安装,开启编程之旅

你是不是对编程充满好奇&#xff0c;想要迈入Java的世界&#xff0c;却不知道从何开始&#xff1f;别担心&#xff0c;每一个Java大师都是从安装JDK开始的&#xff0c;而今天&#xff0c;我将手把手教你如何轻松完成JDK的安装&#xff0c;让你迈出编程之旅的第一步! 接下来&am…

[Cloud Networking] BGP

1. AS (Autonomous System) 由于互联网规模庞大&#xff0c;所以网络会被分为许多 自治系统&#xff08;AS-Autonomous system&#xff09;。 所属类型ASN名称IPv4 数量IPv6数量运营商ISPAS3356LEVEL3 - Level 3 Parent, LLC, US29,798,83273,301,954,048互联网企业AS15169GO…

vue组件全局注册

描述&#xff1a; vue组件的注册分为局部和全局注册两部分&#xff0c;局部注册相对容易&#xff0c;不做赘述&#xff1b;而不同框架的注册方法又有所不同&#xff0c;下面针对vite框架和vue-cli框架的注册分别进行说明 vue组件全局注册 一、vite框架中全局组件注册二、Vue-cl…

AI复活亲人市场分析:技术、成本与伦理挑战

“起死回生”这种事&#xff0c;过去只存在于科幻电影里&#xff0c;但今年&#xff0c;被“复活”的案例却越来越多。 2月底&#xff0c;知名音乐人包晓柏利用AI“复活”了她的女儿&#xff0c;让她在妈妈生日时唱了一首生日歌&#xff1b;3月初&#xff0c;商汤科技的年会上…

ComfyUI汉化插件安装

步骤一&#xff1a;点击Manager 步骤二&#xff1a;选择安装插件 步骤三&#xff1a;搜索Translation&#xff0c;选择第一个点击右边得安装 步骤四&#xff1a;点击下放得RESTART进行重启 步骤五&#xff1a;等待重启完成后&#xff0c;点击设置 步骤六&#xff1a;选择中文语…

day02-Spark集群及参数

一、Spark运行环境变量问题(了解) 1-pycharm远程开发运行时&#xff0c;执行的是服务器的代码 2-通过本地传递指令到远程服务器运行代码时&#xff0c;会加载对应环境变量数据&#xff0c;加载环境变量文件是用户目录下的.bashrc文件 在/etc/bashrc 1-1 在代码中添加 使用os模块…

[方法] Unity 3D模型与骨骼动画

1. 在软件中导出3D模型 1.1 3dsmax 2014 1.1.1 TGA转PNG 3dsmax的贴图格式为tga&#xff0c;我们需要在在线格式转换中将其转换为Unity可识别的png格式。 1.1.2 模型导出 导出文件格式为fbx。在导出设置中&#xff0c;要勾选三角算法&#xff0c;取消勾选摄像机和灯光&#…

海康车牌识别 报警回调后程序崩溃

我用的32位 6.1.9版本SDK 回调会导致程序崩溃 咨询了下海康官方技术 答复如下&#xff1a;&#xff08;此答复我没尝试 自行尝试 我的解决方法是更换了老版本 5.3版本 没什么问题 个人资源中有 自行下载

grpc学习golang版( 四、多服务示例 )

系列文章目录 第一章 grpc基本概念与安装 第二章 grpc入门示例 第三章 proto文件数据类型 第四章 多服务示例 第五章 多proto文件示例 第六章 服务器流式传输 第七章 客户端流式传输 第八章 双向流示例 文章目录 一、前言二、定义proto文件三、编写server服务端四、编写Client客…

【漏洞复现】安美数字酒店宽带运营系统——命令执行漏洞(CNVD-2021-37784)

声明&#xff1a;本文档或演示材料仅供教育和教学目的使用&#xff0c;任何个人或组织使用本文档中的信息进行非法活动&#xff0c;均与本文档的作者无关。 文章目录 漏洞描述漏洞复现测试工具 漏洞描述 安美数字酒店宽带运营系统 server_ping.php 存在远程命令执行漏洞&#…

3.3V到5V的负电源产生电路(电荷泵电压反相器)SGM3204输出电流0.2A封装SOT23-6

前言 SGM3204 非稳压 200mA 电荷泵负电源产生电路&#xff0c;LCEDA原理图请访问资源 SGM3204电荷泵负电源产生电路 SGM3204电荷泵负电源产生电路 一般描述 SGM3204从 1.4V 至 5.5V 的输入电压范围产生非稳压负输出电压。 该器件通常由 5V 或 3.3V 的预稳压电源轨供电。由于…

OpenGL3.3_C++_Windows(19)

Demo演示 1 几何着色器 几何Geometry glsl 发生在什么阶段&#xff1f; 图形渲染管线&#xff1a; 顶点数据——顶点着色器阶段——图元装配;&#xff08;Geometry glsl &#xff09;——光栅化阶段——裁切——片段着色器——测试和混合可选的Geometry几何着色器&#xff08;…

龙芯久久派到手开机测试

今天刚拿到龙芯久久派&#xff0c;没看到文档&#xff0c;只有视频&#xff0c;我来写个博客&#xff0c;做个记录&#xff0c;免得以后忘记 1.连接usb转ttl串口与龙芯久久派&#xff0c;如图所示。 2.将usb转串口接到电脑USB口 也就是这个接电脑上 3.打开串口调试助手或Secu…

前端路由管理

前端路由管理简介&#xff1a; 当谈到前端路由管理时&#xff0c;通常指的是在单页面应用程序&#xff08;SPA&#xff09;中管理页面间导航和URL的过程。路由管理器是一个工具&#xff0c;可以帮助前端开发者定义应用程序的不同视图之间的关系&#xff0c;同时能够响应URL的改…

广东省钟表行业协会第十二届会员大会暨2024年钟表行业发展交流会

6月25日广东省钟表行业协会第十二届会员大会暨2024年钟表行业发展交流会在广州万富希尔顿酒店隆重召开。大会选举沙胜昔为广东省钟表行业协会第十二届理事会会长。 领导发言 新任会长 沙胜昔 首席荣誉会长 吴伟阳 新老会长交接仪式 本次大会&#xff0c;全国钟表大伽齐参与…

美业门店管理系统中收款门店对应的加盟商如何查看?美业系统源码、演示视频分享私

专业的美业系统更加贴合美业门店的经营需求&#xff0c;提供了更全面、便捷、高效的管理功能&#xff0c;有助于提升门店的服务质量和经营效益。博弈美业系统包括PC、iPad、手机、小程序四大端口&#xff0c;满足不同人群的各种需求。 ▶ 收款门店对应的加盟商如何查看&#xf…

找不到d3dcompiler_43.dll无法继续执行的修复指南

在电脑使用过程中&#xff0c;我们可能会遇到一些错误提示&#xff0c;其中之一就是“缺失d3dcompiler43.dll”。那么&#xff0c;这个错误提示到底是怎么回事呢&#xff1f;小编将从常见原因、对电脑的影响以及解决方法等方面进行详细解析。 一&#xff0c;了解d3dcompiler_43…

【高性能服务器】单进程服务器

&#x1f525;博客主页&#xff1a; 我要成为C领域大神&#x1f3a5;系列专栏&#xff1a;【C核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞&#x1f44d;收藏⭐评论✍️ 本博客致力于知识分享&#xff0c;与更多的人进行学习交流 ​ 单进程服务器 …

OLMo:真正完全开源的大模型

最近&#xff0c;又有一家机构AI2&#xff08;Allen Institute for AI&#xff09;开源了一个LLM&#xff1a;OLMo&#xff0c;它的英文全称就叫Open Language Model。相比之前开源的大模型&#xff0c;OLMo的独特之处是完全开源&#xff0c;除了训练的模型&#xff0c;OLMo还开…