AI跟踪报道第50期-新加坡内哥谈技术-本周AI新闻: 听听没有Scarlett Johansson的GPT-4o更加震撼

news2024/11/14 13:48:55

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

点击下面视频观看在B站本周AI更新:

B 站 链接 观看:

本周AI新闻: 听听没有Scarlett Johansson的GPT-4o更加震撼_哔哩哔哩_bilibili想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅: https://rengongzhineng.io/1) SAM2: 下载模型:https://github.com/facebookresearch/segment-a, 视频播放量 0、弹幕量 0、点赞数 0、投硬币枚数 0、收藏人数 0、转发人数 0, 视频作者 内哥谈技术, 作者简介 N哥,新加坡。订阅中文简报,成为AI领域的领跑者。https://rengongzhineng.io/,相关视频:【爱死亡机器人】第一季:祝你狩猎顺利,「Manyana」机器人,AI回复,语音合成,低配服务器 和 安卓手机 可部署,KDL第七季马桶人系列,快艾特你的好朋友给你买~,[AI视频]随手拍的一张医院走廊的照片让ai走出去,结果ai最终迷失在了自己创造的空间里,手工制作反泰坦过程(上),定制机器人女友续集,MURDER DRONES Series Finale [TRAILER],大模型RAG企业项目实战:手把手带你搭建一套完整的RAG系统,原理讲解+代码解析,草履虫都能学明白!LLM大模型_RAG_大模型微调_多模态,AI眼中1到1亿元的石榴,如何让气缸在任意位置停留icon-default.png?t=N7T8https://www.bilibili.com/video/BV1Gfi5ejEBP/

SAM2:

  •  下载模型:https://github.com/facebookresearch/segment-anything-2
  • 下载数据:https://ai.meta.com/datasets/segment-anything-video/
  • 试试:https://sam2.metademolab.com/ 
  1.  ​​​​​​​Gemma 2B: 
  •  Gemma 2 2B (https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f)
  • ShieldGemma (https://huggingface.co/collections/google/shieldgemma-release-66a20efe3c10ef2bd5808c79)
  • Gemma Scope (https://huggingface.co/collections/google/gemma-scope-release-66a4271f6f0b4d4a9d5e04e2) 

自从OpenAI推出ChatGPT的新语音高级模式已经有几天了,被选中的ChatGPT Plus订阅用户似乎对此赞不绝口。网上已经出现了许多展示该功能的视频,展示了其唱歌、模仿口音、纠正发音和叙述故事的能力。

其中一个例子是X用户@nickfloats上传的视频,他让ChatGPT“像机长对乘客讲故事一样讲一个故事。” 只过了一秒钟,ChatGPT便开始行动,甚至调整音频使其听起来更像是从广播中传出的声音。虽然ChatGPT在添加引擎声音等更复杂的请求上有些困难,但语音本身清晰且富有情感,并且能够很好地处理用户的打断。

在上传到YouTube的一次对话中,ChatGPT表示它可以处理“几十种语言”的输入,但确切的数量可能会因方言和地区变体的计算方式而有所不同。一个片段展示了聊天机器人纠正法语单词发音的能力,并给出具体的语调调整建议。另一个语言演示中,ChatGPT在详细请求下用土耳其语讲述了一个情感故事。虽然一些土耳其X用户指出口音听起来不像母语,但它能够完成故事请求并在适当时笑或哭。

这个机器人在处理美国各地区口音方面也表现不错,一个视频展示了包括纽约、波士顿、威斯康星和典型“山谷女孩”在内的多种口音示例。其他视频还展示了ChatGPT的高级语音功能用不同风格唱歌,包括以蓝调风格演绎“生日快乐”以及模仿青蛙和猫唱同一首歌的声音。

在这些展示中出现了几种不同的男女声音,虽然并不包括五月份被移除的类似斯嘉丽·约翰逊的“Sky”声音。

对于那些觉得错过这些有趣展示的人来说,OpenAI发言人Taya Christianson告诉,高级语音模式将在今年秋季向所有ChatGPT Plus订阅用户开放,每月订阅费用为20美元。

高级语音模式的主要功能

  • 自然对话:高级语音模式使用户能够与ChatGPT进行实时、流畅的对话。它允许用户中途打断,模仿人类对话的动态,这一直是之前AI助手面临的挑战。
  • 情感识别:AI可以检测并回应用户语音中的情感线索,增强互动的同理心。
  • 多说话者处理:该模型可以区分对话中的不同说话者,提高其上下文理解能力。
  • 高质量音频输出:利用先进的文本转语音模型,语音回复设计得自然清晰,减少了AI生成语音常见的机械感。
  • 预设声音:用户可以从四种AI生成的声音中选择——Juniper、Breeze、Cove和Ember,这些声音旨在避免模仿真实人物,解决了之前关于声音相似度的争议。

发布细节

由于初始计划的延迟,高级语音模式的发布刚刚开始,主要是为了确保该功能符合OpenAI的安全和用户体验标准。被选中参与此测试阶段的用户将通过电子邮件和应用内消息收到通知,告知如何访问新功能。OpenAI计划在未来几个月内逐步向所有ChatGPT Plus用户开放该功能。

技术规格

高级语音模式通过一个名为GPT-4o的先进多模态模型运行,该模型集成了语音转文本和文本转语音功能,并能实时理解情感细微差别。该模型实现了无缝互动体验,最大程度减少延迟,增强对话流畅性。

安全与内容审核

OpenAI实施了多种安全措施,包括与100多位外部专家一起测试语音模型,并引入过滤器以防止生成不适当或受版权保护的内容。这些措施是OpenAI致力于确保负责任的AI开发的一部分,同时解决了先前关于声音相似度和内容安全的担忧。

如何访问OpenAI高级语音模式:情感响应的ChatGPT对话 虽然高级语音模式尚未向所有ChatGPT Plus用户推出,但以下是功能广泛可用时的使用步骤。为了开始使用高级语音模式,用户需要选择即将出现在麦克风图标旁边的语音图标。用户开始对话后,将被带到另一个屏幕,在那里可以通过选择麦克风图标来静音或取消静音麦克风。用户也可以通过按右下角的红色图标结束对话。

观看了解更多关于ChatGPT应用程序中高级语音模式的内容,该功能专为ChatGPT Plus用户设计,允许自然的实时对话,识别情感和非语言线索。学习如何访问、使用和最大化这一创新语音互动模式。

高级语音模式如何同时处理多个对话 ChatGPT中的高级语音模式允许AI通过区分不同的说话者并理解每次互动的上下文来同时处理多个对话。高级语音模式在这方面的一些关键能力包括:

处理多个说话者

AI可以识别和理解对话中的多个说话者。 它可以跟踪每个说话者陈述的上下文并作出相应回应。

对话流

高级语音模式允许流畅的实时对话,能够处理中断。 这模仿了自然人类对话的动态,这是之前AI助手面临的挑战。

情感识别

AI可以检测并回应用户语音中的情感线索。 这使模型能够提供更加同理和有上下文的回应。 预设声音 ChatGPT提供四种AI生成的声音——Juniper、Breeze、Cove和Ember。 这些声音旨在避免模仿真实人物。 通过利用这些能力,高级语音模式可以参与多个同时进行的对话,跟踪每个对话的上下文,并对每个说话者的陈述和情感线索作出适当回应。这比之前的系统在AI对话能力上有了显著进步。

总之,OpenAI的高级语音模式将改变用户与AI的互动方式,使其更加自然和吸引人。该功能的逐步推出旨在根据用户反馈改进其功能,预计不久将全面开放。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1974487.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

shellcode加密免杀

通过加密shellcode方式过安全软件拦截 先说结论,笔者没成功 shellcode: Shellcode 是一段用于在目标系统上执行特定操作的机器码。它通常被用于利用软件漏洞,以获取对目标系统的控制权或执行特定的恶意行为。 Shellcode 可以执行诸如创建进程…

MySQL 预处理、如何在 [Node.js] 中使用 MySQL?

前面文章我们已经总结了mysql下载安装配置启动以及如何用 Navicat 连接,还有MySQL的入门基础知识 、Node.js的基本知识、Express框架基于Node.js基础知识、下面我们总结如何在Node.js中使用MySQL数据库以及MySQL预处理基本知识。 目录 一、MySQL预处理 二、如何在…

JavaFX布局-GridPane

JavaFX布局-GridPane 常用实行alignmenthgapvgappaddinggridLinesVisible 实现方式Java实现fxml实现 使用行和列来组织其子节点将节点放置在二维网格中的任何单元格,同时也可以设置跨越行、跨越列 常用实行 alignment 对齐方式,设置内容居中&#xff0…

032-GeoGebra中级篇-列表与集合(list and set)及常用操作大全

列表在 GeoGebra 中扮演着重要角色,使用户能够处理和管理一组数值、点或对象。这些列表可以用于执行多种操作,如计算平均值、排序、查找最大或最小值、绘制点的集合等。通过使用列表,用户可以简化复杂的计算步骤,增强图形的动态性…

《计算机组成原理》(第3版)第1章 计算机系统概论 复习笔记

第1章 计算机系统概论 一、计算机系统简介 (一)计算机的软硬件概念 1.计算机系统由“硬件”和“软件”两大部分组成 (1)所谓“硬件”,是指计算机的实体部分,如主机、外部设备等。 &#xff0…

phpMyAdmin 漏洞

一、日志文件拿shell 在sql语句执行界面执行命令 将日志功能打开 再次查看 更改日志保存路径 擦看是否更改成功 植入一句话木马 访问木马 使用工具连接 二、导⼊导出拿WebShell 判断网站位置 判断在www在Extensions同级 写shell 访问shell,使用工具连接 三、可视化界面getshe…

C++11特性(二)

系列文章目录 C11特性(一) 文章目录 系列文章目录前言一、可变模板参数1.1 什么是可变参数模板1.2 如何打印可变模板参数的内容递归函数方式展开参数包逗号表达式展开参数包 1.3 emplace_back的实现1.4 可变模板参数为何高效 二、lambda表达式2.1 C98中的一个例子2.2 lambda表…

基于JAVA的商品供应管理系统-JavaEE

点击下载源码 基于JAVA的商品供应管理系统-JavaEE 摘 要 当今社会己进入信息社会时代,信息己经受到社会的广泛关注,被看作社会和科学技术发展的三大支柱(材料、能源、信息)之一。信息是管理的基础,是进行决策的基本依…

vue3使用svg(无废话版)

1.去阿里云矢量图标库&#xff0c;复制svg代码 2.新建一个phone.svg文件(存放在assets/icons/phone.svg)&#xff0c;内容是刚刚复制的svg代码 <svg t"1722592653925" class"icon" viewBox"0 0 1024 1024" version"1.1" xmlns&quo…

数据失踪?这四款U盘数据恢复利器教你如何避免错误操作与保障安全性

当U盘上的数据不见了&#xff0c;数据恢复软件就像是你的救命稻草。一些好的数据恢复软件还会提供安全的恢复选项&#xff0c;确保在恢复的过程中不会对原来的数据造成损害。接下来&#xff0c;我们就来看看这些顶级的U盘数据恢复软件是怎么帮我们恢复U盘数据的&#xff0c;同时…

红旗E-QM5起火,一汽红旗否认车辆质量问题

近日&#xff0c;据媒体报道&#xff0c;7月31日下午&#xff0c;长春一辆一汽红旗E-QM5发生起火事故。 一汽红旗方面则表示&#xff1a;“现场勘查和初步调查表明&#xff0c;该事件并非因车辆自身质量问题导致自燃。疑似车辆在行驶过程中与路面井盖发生碰撞导致动力电池受损&…

专业130+总分430+浙大浙江大学842考研信号系统与数字电路经验电子信息与通信工程真题,大纲,参考书。

通过接近一年的备考&#xff0c;专业842信号和数电总结130&#xff08;专业课比预期低&#xff09;&#xff0c;总分430如愿上岸浙大&#xff0c;这一路复习走过弯路&#xff0c;淋过雨&#xff0c;也走过大路&#xff0c;风和日丽&#xff0c;总结一些自己的心得&#xff0c;希…

C语言 ——— 学习、使用 strcmp函数 并模拟实现

目录 strcmp函数的功能 学习strcmp函数​编辑 使用strcmp函数 模拟实现strcmp函数 strcmp函数的功能 strcmp函数的功能是字符串比较&#xff0c;两个字符串的对应位置的字符进行比较&#xff0c;直到字符不同或达到终止的 \0 字符为止 举例说明&#xff1a; 字符串1&am…

法制史学习笔记(个人向) Part.7

法制史学习笔记(个人向) Part.7 11. 清朝法律制度 11.1 立法概述 11.1.1 立法指导思想 简单来说是&#xff1a;详译明律&#xff0c;参以国制&#xff1b; 努尔哈赤时期&#xff0c;后金政权处于由习惯法到成文法的过渡过程中&#xff1b;皇太极统治时期&#xff0c;奉行“参…

Linux中vim的基本介绍和使用

善为理者&#xff0c;举其纲&#xff0c;疏其网。 vim 1、vim介绍2、命令模式详情3、底行模式详情4、困难问题5、历史存疑问题6、vim配置问题6、1、配置的原理6、2、一键式配置 1、vim介绍 如果我面想要在Linux上编写代码的话&#xff0c;我就需要vim来帮助我们编写代码。但是…

基于JSP、java、Tomcat三者的项目实战--校园交易网(3)主页--实现修改商品的名字与价格功能(万字爆更)增查改删,三端交互样样齐全

技术支持&#xff1a;JAVA、JSP 服务器&#xff1a;TOMCAT 7.0.86 编程软件&#xff1a;IntelliJ IDEA 2021.1.3 x64 前文几个功能的实现的博客 基于JSP、java、Tomcat、mysql三层交互的项目实战--校园交易网&#xff08;1&#xff09;-项目搭建&#xff08;前期准备工作&am…

Pycharm2023.1安装及其破解(含安装包)

一、下载 安装包 pycharm-professional-2023.1.exe https://www.alipan.com/s/f9WgrwLRbVn 提取码: 0yow 二、安装 三、激活 激活码&#xff1a;pycharm专业版激活码,2025.1月结束_pycharm序列号-CSDN博客 四、汉化

2024年8月2日(安装MySQL,以及各种操作)

一、安装并配置MySQL 1、下载mysql软件包 [rootmysql ~]# wget https://downloads.mysql.com/archives/get/p/23/file/mysql-8.0.33-1.el7.x86_64.rpm-bundle.tar 2、解压 [rootmysql ~]# tar -xf mysql-8.0.33-1.el7.x86_64.rpm-bundle.tar 3、检查是否具有mariadb/mysql&…

技术成神之路:设计模式(十一)迭代器模式

前言 迭代器这个词听到并不陌生吧&#xff0c;我们再开发中遍历HashMap 和 HashSet的时候 用到的迭代器和这里的迭代器是一个概念&#xff0c;当然&#xff0c;这个模式不是教你如何去实现的&#xff0c;而是以了解为主。 介绍 迭代器模式&#xff08;Iterator Pattern&#…