微软 Azure 推出文本到语音虚拟人;英伟达发布 8B 小语言模型,可在 RTX 工作站部署丨 RTE 开发者日报

news2024/9/27 19:27:01

在这里插入图片描述

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、英伟达发布 80 亿参数新 AI 模型:精度、效率高,可在 RTX 工作站上部署

英伟达发布了 Mistral-NeMo-Minitron 8B 小语言 AI 模型,共 80 亿个参数,具备精度高、计算效率高等优点,可在 GPU 加速的数据中心、云和搭载英伟达 RTX 显卡的工作站上运行。

英伟达表示通过宽度剪枝(width-pruning)Mistral NeMo 12B,并知识蒸馏(knowledge distillation)轻度重新训练后获得 Mistral-NeMo-Minitron 8B,相关成果发表在《Compact Language Models via Pruning and Knowledge Distillation》论文中。

剪枝通过去除对准确率贡献最小的模型权重来缩小神经网络。在 「蒸馏」 过程中,研究小组在一个小型数据集上重新训练剪枝后的模型,以显著提高通过剪枝过程而降低的准确率。

就其规模而言,Mistral-NeMo-Minitron 8B 在语言模型的九项流行基准测试中遥遥领先。这些基准涵盖了各种任务,包括语言理解、常识推理、数学推理、总结、编码和生成真实答案的能力。(@IT 之家)

2、微软 Azure AI 语音服务推出虚拟人形象,支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用,Azure AI 语音服务最新推出了文本到语音虚拟人功能,可以将简单的文本转换为人类自然说话视频。

8 月 22 日,微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080,每秒 25 帧。

Text to Speech Avatar 具有以下功能:

  • 将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频,该视频具有自然的声音。
  • 提供不同的人物预设形象。
  • 形象的声音由Azure AI 文本转语音生成。
  • 使用批量合成 API 异步或实时合成文本到语音人像视频。
  • 在 Speech Studio中提供内容创建工具,无需编码即可创建视频内容。
  • 通过 Speech Studio 中的实时聊天头像工具启用实时人像对话。

定价方面,文本转视频服务的收费将根据视频输出的长度计算并按秒收费。该服务现已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区推出。(@IT 之家)

3、Ideogram 发布 2.0 全新版本,写实风格显著提升,接近真实照片,还能生成网页设计页面

Ideogram 发布 Ideogram 2.0 版本,这是一款功能强大的文字转图像模型,具有行业领先的生成真实图像、平面设计、排版等能力。

Ideogram 2.0 具有以下主要功能特点:

多种图像风格选择:

  • 现实主义风格:能够生成高度逼真的图像,纹理和细节(如皮肤和头发)都非常接近真实照片
  • 设计风格:强化了文本的准确性,非常适合制作带有长文本的图形设计,如贺卡、海报和社交媒体内容
  • 3D 风格: 支持生成三维立体感较强的图像
  • 动漫风格:专为生成动画或卡通风格的图像而设计

灵活的图像生成:

  • 任意宽高比:支持各种宽高比的图像生成,包括 3:1 和 1:3 等非传统比例
  • 颜色调控:用户可以指定颜色调色板,以便在生成的图像中保持一致的视觉风格,适用于艺术控制和品牌一致性

高级图像生成工具:

  • Magic Prompt: 自动生成创意性的提示词,帮助用户更轻松地开始创作
  • Describe功能:根据已有图像生成详细的文本提示,以此为基础创建新的图像

API 与移动端支持:

  • Ideogram API: 开发者可以通过 API 将 Ideogram 的图像生成能力集成到他们的应用中,并且相比其他同类产品,价格更具竞争力
  • **iOS 应用:**提供了移动端应用程序,用户可以随时随地生成图像(Android 版本将在稍后推出)

庞大的图像库搜索:

  • 用户可以通过文本搜索访问超过 10 亿张公开生成的图像,找到灵感并探索他人的创作

(@小互 AI)

4、马斯克点赞可灵 AI

8 月 20 日,AI 插画艺术爱好者 Déborah 在推特上发布了一段由可灵 AI 完成、时长为五秒钟的视频。这条视频获得了埃隆·马斯克的关注,并且他在评论区回复「AI Entertainment is happening fast」。

可灵 AI 作为快手自研的视频生成大模型,自今年 6 月初发布以来便受到了国内外的广泛关注和好评。市场分析机构摩根士丹利公开评论:「可灵 AI 的表现要比抖音和腾讯过往发布的视频生成模型都更加优秀。」

从视频生成效果本身来看,可灵 AI 不仅能够模拟物理世界特性,还具备了强大的概念组合能力和想象力,生成的视频分辨率高达 1080p,时长最高可达 2 分钟。

6 月 21 日,可灵 AI 正式推出图生视频功能,支持用任意静态图像生成 5s 视频,并且可搭配不同的文本内容,实现丰富的视觉叙事 。马斯克点赞的视频,也是出自可灵 AI 这一核心爆款功能。在海外,快手的图生视频得到了广泛的使用。被点赞视频的作者 Déborah 也多次用可灵 AI 制作视频 。

7 月 6 日,在上海举行的 2024 世界人工智能大会上,可灵 AI 正式上线了网页端,推出了更加清晰的高画质版,在视频处理的精细度上有了大幅提升。其中,首尾帧控制、镜头控制等新功能也一起上线,并且创作者单次生成的文生视频时长也增加至 10 秒。

7 月底,可灵 AI 大模型全面开放内测,并正式面向全球上线会员体系,针对不同类别的会员,提供相应的专属功能服务。(@AI 科技评论)

5、原 Character.AI CEO 诺姆・沙泽尔将任谷歌 Gemini 联合技术负责人

根据谷歌发送给员工的消息,本月重返谷歌的 Character.AI 联合创始人兼原 CEO 诺姆・沙泽尔(Noam Shazeer)将担任谷歌 AI 项目 Gemini 的联合技术负责人。

沙泽尔将与谷歌长期从事人工智能研究的杰夫・迪恩(Jeff Dean)和奥里奥尔・维尼亚尔斯(Oriol Vinyals)一起开发 Gemini,其目标是与 OpenAI 的大语言模型 GPT 竞争。

本月初,初创公司 Character.AI 宣布,该公司已与谷歌母公司 Alphabet 签署了一项协议,授予这家搜索引擎巨头非独家使用其大型语言模型的许可。Character.AI 联合创始人诺姆・沙泽尔和丹尼尔・德・弗雷塔斯将重返谷歌,谷歌发言人曾宣布沙泽尔将加入 DeepMind 研究团队。(@IT 之家)

02 有态度的观点

1、Rippleing 创始人:你的公司 AI washing 了吗?

Rippling 创始人 Parker Conrad 对于 AI 技术的实际应用持怀疑态度,认为许多软件公司在产品中添加了新颖但不实用的 AI 功能。他指出,目前 AI 世界中存在大量无关紧要的东西,尽管 AI 有潜力带来变革,但他对目前所见的 AI 功能并不印象深刻。

Conrad 理解为什么公司会声称其产品具有 AI 功能,因为这可以提高公司的市场估值。数据显示,AI 公司在美国的投资中占有重要比重,超过 40% 的新独角兽企业是 AI 初创企业。Parkway Venture Capital 的管理合伙人 Nekeshia Woods 认为 AI 正在成为企业自动化日常任务的方式,并预计 AI 助手和通用机器人将在未来出现。
Conrad 认为 AI 的强大在于其能力在处理大量非结构化信息,帮助公司更好地了解其业务。尽管存在 AI 疲劳现象,但人们对 AI 的问题正在增加,投资者和创始人开始关注对人工智能的大量投资何时能获得回报。Conrad 对 AI 的未来保持观望态度。(@AI 科技评论)

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2067177.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ArrayList底层扩容机制详解保姆级

我们对下面代码进行debug,当我们使用无参构造器时,也就是没用指定ArrayList的容量的时候他他是空的,当我们第一次添加的时候才会扩容为10,当容量满之后每次会以1.5倍进行扩容。 当我们new之后elementData是空的 ,只有执…

存储数据(变量)

变量:专门用来存储数据的容器 let title:string //console.log(消息说明,打印的内容) //console.log(我说,hello world) //变量的存储和修改(string number boolean) //1.变量存储 //1.1 字符串 string 类型 //注意点1&#xff1a…

C语言 之 memcpy函数的内存重叠问题 及解决该问题的思路

文章目录 函数原型:例子: 解决方式整体思路如下: 内存重叠问题主要是使用函数memcpy的时候会发生的 函数原型: void * memcpy ( void * destination, const void * source, size_t num);这个函数能够在source指向的空间中拷贝nu…

基于YOLOv8的高效滑动验证码滑块缺口检测模型研究与应用

在当今互联网高速发展的时代,滑动验证码作为一种有效的安全验证手段,广泛应用于各类网站和应用中,以防范自动化攻击和恶意登录。然而,随着技术的不断进步,滑动验证码的破解难度也在逐渐提升。为了应对这一挑战&#xf…

Ubuntu 22.04 某次重启后nvidia-smi 失效

Ubuntu 22.04 某次重启后nvidia-smi 失效 某次重启后失效,遂在网上寻找答案: 方案一:使用dkms进行安装相应模块 具体的可以参考链接 dkms 但是我试了一下并不好用,并且报错如下: Building module:cleaning build a…

Stable Diffusion整合包与手动本地部署结合内网穿透远程AI绘画

文章目录 前言1. 本地部署Stable Diffusion Web UI1.1 整合包安装1.2 手动安装Stable Diffusion Web UI 2. 安装Cpolar内网穿透3. 实现公网访问Stable Diffusion Web UI4. 固定Stable Diffusion Web UI 公网地址 💡 推荐 前些天发现了一个巨牛的人工智能学习网站&a…

基于STM32的温湿度采集设计

介绍 项目详情:通过STM32采集DHT11的数据将温湿度信息显示带LCD及虚拟串口上。 软件平台:keil5 基于STM32的温湿度采集设计是一个结合了硬件连接、软件编程以及数据处理的综合项目。以下是对该设计的详细介绍: 一、设计背景与意义 温湿度…

淘宝(天猫)商品详情数据接口在自有电商平台的应用!

在电商市场的日益成熟下,越来越多的电商参与者上线了自主研发的电商平台。这主要是因为,在电商销售中,品牌在自有电商平台售卖商品的优势颇多: 自有的电商平台能够赋予品牌更大的灵活性和自由度等,品牌商品销售时无需…

【网络编程】第十一章 数据链路层 - 以太网(MAC+MTU+ARP+MSS+RARP)

文章目录 重点链路层以太网MAC帧格式碰撞域MAC地址MAC地址和IP地址 MTU-最大传输单元MTU 对 IP 的影响MTU 对 UDP 的影响MTU 对 TCP 的影响-MSS ARP协议ARP协议的工作流程ARP请求的过程ARP应答的过程 ARP 缓存中间人攻击 RARP协议 重点 数据链路层的作用:两个设备 …

博物馆地图导览:利用GIS与蓝牙定位技术,融合语音解说功能

引言 亲爱的技术员、开发者朋友们,随着科技的不断进步,博物馆等文化场所的导览方式也在不断创新。今天,我将为大家介绍我们的新产品——博物馆地图导览系统,该系统集成了GIS(地理信息系统)、蓝牙定位技术以…

PHP反序列化一

1.序列化/反序列化 序列化:对象转化为字节流 反序列化:字节流转化为对象 二者相互结合,可以轻松的存储和传输数据,使程序更具维护性 2.反序列化漏洞 原因是程序没有对用户输入的反序列化字符串进行检测,导致反序列化过程可以被恶意控制&…

Heygen注册不了?试试这两种方法!

随着数字媒体发展,视频内容已成为传播信息的重要手段。然而,高质量的视频制作往往需要专业的技术知识和昂贵的制作成本。HeyGen平台,正是打破这一局限的创新工具。它不仅为视频创作者提供了一个全新的创作空间,更能极大程度地降低…

minio使用与注解事务管理

目录 一、minio启动 1、创建文件夹 2、cmd启动 3、查看端口地址以及密码 二、minio使用步骤 1、创建bucket,并且把Access Policy设置成public 2、代码 三、注解事务管理 一、minio启动 1、创建文件夹 2、cmd启动 3、查看端口地址以及密码 二、minio使用步…

uni-app开发日志:实现无限层级树形分类页面,通过schema2code生成代码并在此基础上完善修改list、add和edit页面

本文中省略很多开发说明,可能需有一定uniapp的实战基础的朋友才能看明白。 schema2code 生成的无限级分类页面只提供超简易版的功能,没有层级选择,只能自己填入父类ID,列表的时候也是全部显示,没有层级关系&#xff0c…

闲置物品交易平台网站商城-计算机毕设Java|springboot实战项目

🎓 作者:计算机毕设小月哥 | 软件开发专家 🖥️ 简介:8年计算机软件程序开发经验。精通Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等技术栈。 🛠️ 专业服务 🛠️ 需求定制化开发源码提…

WIFI 频段及信道简介

一、WiFi 三频AP规划信道时,建议分别采用2.4G、5.2G、5.8G频段可用信道。 2.4G频段;5.2G频段;5.8G频段。 1、中国5G WiFi频段 5.8GHz频段,中国开放只有149、153、157、161、165这5个信道; 其中可支持一组80MHz信道…

Linux 软件编程 数据库与网页

sqlite3数据库操作效率: 1.增加事务机制 2.关闭数据库磁盘同步写入 3.使用预处理SQL语句机制实现提升数据库效率 事务机制: 1.可以提高sqlite处理数据的效率 2.确保数据的一致性 关闭数据库中写同步机制: 在…

文献阅读:单细胞分辨率下小鼠大脑衰老的分子和空间特征

文献介绍 文献题目: Molecular and spatial signatures of mouse brain aging at single-cell resolution 研究团队: 庄小威(美国哈佛大学)、Catherine Dulac(美国哈佛大学) 发表时间: 2022-12…

具有手势识别的动捕设备——mHand Pro VR数据手套

数据手套是指通过手套内置的传感器,实时采集手部运动数据的动捕设备,通常被应用于虚拟仿真、虚拟现实vr交互、动画制作等领域。其中,基于惯性动作捕捉技术研发的数据手套,凭借其高性价比的优势,在市面上的应用更为广泛…

数据驱动的社交网络:分析Facebook的算法与用户体验

在现代社交网络中,Facebook以其庞大的用户基础和数据驱动的算法而著称。这些算法不仅决定了用户在平台上的体验,也深刻影响了他们与内容的互动方式。本文将深入分析Facebook的算法如何通过数据驱动优化用户体验,并探讨其在社交网络中的作用。…