微软 Azure 推出文本到语音虚拟人；英伟达发布 8B 小语言模型，可在 RTX 工作站部署丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、英伟达发布 80 亿参数新 AI 模型：精度、效率高，可在 RTX 工作站上部署

英伟达发布了 Mistral-NeMo-Minitron 8B 小语言 AI 模型，共 80 亿个参数，具备精度高、计算效率高等优点，可在 GPU 加速的数据中心、云和搭载英伟达 RTX 显卡的工作站上运行。

英伟达表示通过宽度剪枝（width-pruning）Mistral NeMo 12B，并知识蒸馏（knowledge distillation）轻度重新训练后获得 Mistral-NeMo-Minitron 8B，相关成果发表在《Compact Language Models via Pruning and Knowledge Distillation》论文中。

剪枝通过去除对准确率贡献最小的模型权重来缩小神经网络。在「蒸馏」过程中，研究小组在一个小型数据集上重新训练剪枝后的模型，以显著提高通过剪枝过程而降低的准确率。

就其规模而言，Mistral-NeMo-Minitron 8B 在语言模型的九项流行基准测试中遥遥领先。这些基准涵盖了各种任务，包括语言理解、常识推理、数学推理、总结、编码和生成真实答案的能力。（@IT 之家）

2、微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

微软 Azure AI 语音服务允许开发者构建多语言生成式 AI 语音应用，Azure AI 语音服务最新推出了文本到语音虚拟人功能，可以将简单的文本转换为人类自然说话视频。

8 月 22 日，微软宣布全面推出 Text to Speech Avatar 功能。这项新功能使开发者能够为其用户创建个性化虚拟人。该服务的输出视频分辨率为 1920 x 1080，每秒 25 帧。

Text to Speech Avatar 具有以下功能：

将文本转换为由 Azure AI 文本转语音提供支持的人类说话视频，该视频具有自然的声音。
提供不同的人物预设形象。
形象的声音由Azure AI 文本转语音生成。
使用批量合成 API 异步或实时合成文本到语音人像视频。
在 Speech Studio中提供内容创建工具，无需编码即可创建视频内容。
通过 Speech Studio 中的实时聊天头像工具启用实时人像对话。

定价方面，文本转视频服务的收费将根据视频输出的长度计算并按秒收费。该服务现已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区推出。（@IT 之家）

3、Ideogram 发布 2.0 全新版本，写实风格显著提升，接近真实照片，还能生成网页设计页面

Ideogram 发布 Ideogram 2.0 版本，这是一款功能强大的文字转图像模型，具有行业领先的生成真实图像、平面设计、排版等能力。

Ideogram 2.0 具有以下主要功能特点：

多种图像风格选择：

现实主义风格：能够生成高度逼真的图像，纹理和细节（如皮肤和头发）都非常接近真实照片
设计风格：强化了文本的准确性，非常适合制作带有长文本的图形设计，如贺卡、海报和社交媒体内容
3D 风格：支持生成三维立体感较强的图像
动漫风格：专为生成动画或卡通风格的图像而设计

灵活的图像生成：

任意宽高比：支持各种宽高比的图像生成，包括 3:1 和 1:3 等非传统比例
颜色调控：用户可以指定颜色调色板，以便在生成的图像中保持一致的视觉风格，适用于艺术控制和品牌一致性

高级图像生成工具：

Magic Prompt: 自动生成创意性的提示词，帮助用户更轻松地开始创作
Describe功能：根据已有图像生成详细的文本提示，以此为基础创建新的图像

API 与移动端支持：

Ideogram API: 开发者可以通过 API 将 Ideogram 的图像生成能力集成到他们的应用中，并且相比其他同类产品，价格更具竞争力
**iOS 应用：**提供了移动端应用程序，用户可以随时随地生成图像（Android 版本将在稍后推出）

庞大的图像库搜索：

用户可以通过文本搜索访问超过 10 亿张公开生成的图像，找到灵感并探索他人的创作

（@小互 AI）

4、马斯克点赞可灵 AI

8 月 20 日，AI 插画艺术爱好者 Déborah 在推特上发布了一段由可灵 AI 完成、时长为五秒钟的视频。这条视频获得了埃隆·马斯克的关注，并且他在评论区回复「AI Entertainment is happening fast」。

可灵 AI 作为快手自研的视频生成大模型，自今年 6 月初发布以来便受到了国内外的广泛关注和好评。市场分析机构摩根士丹利公开评论：「可灵 AI 的表现要比抖音和腾讯过往发布的视频生成模型都更加优秀。」

从视频生成效果本身来看，可灵 AI 不仅能够模拟物理世界特性，还具备了强大的概念组合能力和想象力，生成的视频分辨率高达 1080p，时长最高可达 2 分钟。

6 月 21 日，可灵 AI 正式推出图生视频功能，支持用任意静态图像生成 5s 视频，并且可搭配不同的文本内容，实现丰富的视觉叙事。马斯克点赞的视频，也是出自可灵 AI 这一核心爆款功能。在海外，快手的图生视频得到了广泛的使用。被点赞视频的作者 Déborah 也多次用可灵 AI 制作视频。

7 月 6 日，在上海举行的 2024 世界人工智能大会上，可灵 AI 正式上线了网页端，推出了更加清晰的高画质版，在视频处理的精细度上有了大幅提升。其中，首尾帧控制、镜头控制等新功能也一起上线，并且创作者单次生成的文生视频时长也增加至 10 秒。

7 月底，可灵 AI 大模型全面开放内测，并正式面向全球上线会员体系，针对不同类别的会员，提供相应的专属功能服务。（@AI 科技评论）

5、原 Character.AI CEO 诺姆・沙泽尔将任谷歌 Gemini 联合技术负责人

根据谷歌发送给员工的消息，本月重返谷歌的 Character.AI 联合创始人兼原 CEO 诺姆・沙泽尔（Noam Shazeer）将担任谷歌 AI 项目 Gemini 的联合技术负责人。

沙泽尔将与谷歌长期从事人工智能研究的杰夫・迪恩（Jeff Dean）和奥里奥尔・维尼亚尔斯（Oriol Vinyals）一起开发 Gemini，其目标是与 OpenAI 的大语言模型 GPT 竞争。

本月初，初创公司 Character.AI 宣布，该公司已与谷歌母公司 Alphabet 签署了一项协议，授予这家搜索引擎巨头非独家使用其大型语言模型的许可。Character.AI 联合创始人诺姆・沙泽尔和丹尼尔・德・弗雷塔斯将重返谷歌，谷歌发言人曾宣布沙泽尔将加入 DeepMind 研究团队。（@IT 之家）

02 有态度的观点

1、Rippleing 创始人：你的公司 AI washing 了吗？

Rippling 创始人 Parker Conrad 对于 AI 技术的实际应用持怀疑态度，认为许多软件公司在产品中添加了新颖但不实用的 AI 功能。他指出，目前 AI 世界中存在大量无关紧要的东西，尽管 AI 有潜力带来变革，但他对目前所见的 AI 功能并不印象深刻。

Conrad 理解为什么公司会声称其产品具有 AI 功能，因为这可以提高公司的市场估值。数据显示，AI 公司在美国的投资中占有重要比重，超过 40% 的新独角兽企业是 AI 初创企业。Parkway Venture Capital 的管理合伙人 Nekeshia Woods 认为 AI 正在成为企业自动化日常任务的方式，并预计 AI 助手和通用机器人将在未来出现。
Conrad 认为 AI 的强大在于其能力在处理大量非结构化信息，帮助公司更好地了解其业务。尽管存在 AI 疲劳现象，但人们对 AI 的问题正在增加，投资者和创始人开始关注对人工智能的大量投资何时能获得回报。Conrad 对 AI 的未来保持观望态度。（@AI 科技评论）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述