谷歌「Her」来啦!发布Gemini Live语音模式,现场演示两次翻车

news2025/1/11 14:32:15

重磅惊喜!

今天,在MadeByGoogle发布会上,谷歌公布了 AI语音助手 Gemini Live,对标的正是GPT-4o,而且是两周前开放测试的语音模式。

Gemini Live 可以进行顺畅的语音交流,听从语音指令,可以随时打断对话、稍后继续对话。

谷歌在发布会中提到,Gemini Live 有10条声线,支持自由对话、打断AI说话、以及免提播放等等。

更惊艳的是,Gemini Live 深度集成到安卓系统里,只需要长按电源键或者说“OK Google”,就能唤起Gemini Live,能实现屏幕读取、内容感知等。

如同集成到苹果系统里的Siri一样,Gemini Live 也是以语音助手的形态呈现出来的。

Gemini Experiences和Google Assistant的副总裁兼总经理Sissie Hsiao强调:

AI的发展能引起人们重新思考:助理到底能提供什么帮助?通过这些更新,Gemini将以语音助手的形式,提供更直观和对话式的体验,使其成为复杂任务的可靠伙伴。

此外,Gemini Live 还能与所有的Google应用和工具进行集成,实现跨软件交互、图片识别等。

例如,给Gemini发音乐会传单的信息,要求它查看日历上当天是否有待办事项,来判断自己有没有空去音乐会。

还可以让Gemini设置待办,晚上七点看一下门票价格。

这个上下文记忆功能是真的强大啊!

还可以话锋一转,让Gemini把浓咖啡的原料,添加到Keep购物清单中。

不需要描述太多细节,Gemini就能get到你想要什么。但这个功能需要过几周才能上线。

我想我知道为什么要过几周才能上线,因为谷歌自己都没调试好这个功能!

你看,发布会的实机演示就翻车了,还翻车了两次:

谷歌,你们是不是线下没商量好?还不如只放个视频演示上来呢!

已向Google Advanced用户开放测试

现在,这个语音功能已经向订阅Google Advanced的用户开放测试,暂时仅支持英文交流,且只有安卓手机能优先体验。谷歌宣称,在未来几周后苹果用户也能使用,并将开放更多语言。

虽然谷歌的语音功能上线得晚,但是它开放的早呀!OpenAI的语音功能还在小范围测试,完全开放还需要等到秋季(但谁也不知道,到底是早秋还是晚秋 )。

此外——

这个发布会不仅是语音功能比较惊艳,还有谷歌的新手机Pixel 9 。相比于上一代Pixel 8,它搭载了更先进的设备端AI模型,更快的响应速度、更多的AI功能,遥遥领先。

想具体领略一下它的魅力,请看VCR:

就是这个手机背面的摄像头,有点丑……

美好愿景

这里还有一些更长期的对未来的展望,Gemini未来还会推出多步骤连续推理功能,可以实现AI高级代理:全自动做计划,用Google Doc整合整合信息做成报告,成为用户、组织、企业的自动化研究助理。

比较恐怖的是,这些展望并没有那么遥远,它们就会在未来几个月内落地实现。

剩下的就是一些客套话了。比如AI的新功能也会带来新的挑战呀,我们会继续注重于服务效率和质量呀,未来继续加油呀,等等等等。

是每家发布会都会走的一些必备流程。

但,谷歌的发布会已经惊吓到我的小心脏了,虽然很多东西都是展望、期货,但至少Gemini Live是现在就能用的新玩意。

而且,很多期货内容(例如AI高级代理),也能吓死一堆小型创业公司了。

别总是吊在只会画“草莓”饼的OpenAI上了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2040411.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

设计模式21-组合模式

设计模式21-组合模式(Composite Pattern) 写在前面 动机定义与结构定义结构主要类及其关系 C代码推导优缺点应用场景总结补充叶子节点不重载这三个方法叶子节点重载这三个方法结论 写在前面 数据结构模式 常常有一些组件在内部具有特定的数据结构。如何…

StreamUtils 流处理工具

一、工具类展示 提供对集合的过滤、拼接、排序、MAP转化、分组、转为SET集合等方法 /*** stream 流工具类**/ NoArgsConstructor(access AccessLevel.PRIVATE) public class StreamUtils {/*** 将collection过滤** param collection 需要转化的集合* param function 过滤方法…

【Linux Install】Ubuntu20, Windows10 双系统安装

1. 制作启动盘 1.1 下载 Ubuntu 系统镜像 ISO 文件 从 Ubuntu 官网下载 (https://cn.ubuntu.com/download/desktop)。官网访问慢的,从国内镜像点下。 1.2 烧录 Ubuntu ISO 镜像 下载 Rufus:从Rufus官网下载 Rufus 工具。 插入U 盘:将U盘插…

mysql-增添轮播图

使用工具Navicat连接mysql: 首先 然后 需要注意的是需要上面两个步骤执行之后,再点击连接测试才可以成功,其他单独连接测试都不成功,然后点击确定即可!!!!! MySQL修改: 首先,进入mysql mysql -u root -p 密码忘记参考教程:Linux错误 ERROR 1045 (28000): Acce…

数据结构入门——07堆

1.堆 堆(Heap)是一种特殊的完全二叉树数据结构,具有以下两个主要特性: 结构特性: 堆是一棵完全二叉树,即除了最后一层的叶子节点外,每一层都是满的,最后一层的叶子节点从左向右依次…

西安国际数字影像产业园作为一个数字创意孵化园的实际情况怎么样?

在科技飞速发展的今天,数字创意产业正迅速崛起,成为全球经济的新增长点。西安国际数字影像产业园作为中国西部数字创意产业的领军者,凭借其独特的优势和发展策略,迅速崭露头角,成为全国瞩目的焦点。那么,是…

前端统计SDK设计和实现

前端统计的范围 访问量 PV自定义事件性能,错误 前端统计的实现 发送统计数据 不用 axios ( 因为统计服务器通常由第三方提供,需要跨域 ),而用 img 发送,因为可跨域,且兼容性非常好 自定义事件的统计 pv 的统计 性能…

【鸿蒙学习】HarmonyOS应用开发者基础 - 构建更加丰富的页面之Tabs(三)

学完时间:2024年8月14日 一、前言叨叨 学习HarmonyOS的第六课,人数又成功的降了500名左右,到了3575人了。 本文接上一文章【鸿蒙学习】HarmonyOS应用开发者基础 - 构建更加丰富的页面(一),继续记录构建更…

探索数据结构:AVL树的分析与实现

✨✨ 欢迎大家来到贝蒂大讲堂✨✨ 🎈🎈养成好习惯,先赞后看哦~🎈🎈 所属专栏:数据结构与算法 贝蒂的主页:Betty’s blog 1. AVL树的介绍 在前面我们学习二叉搜索树时知道,在数据有序…

鸿蒙开发APP应用UX体验标准

基础体验 应用导航 3.1.1.1 系统返回 页面布局 3.1.2.1 布局基础要求 3.1.2.2 挖孔区适配 人机交互 3.1.3.1 避免与系统手势冲突3.1.3.2 典型手势时长设计3.1.3.3 点击热区 视觉风格 3.1.4.1 色彩对比度3.1.4.2 字体大小 3.1.4.3 图标 3.1.4.3.1 应用图标3.1.4.3.2 界…

统一响应结果封装,Result类的实现【后端 06】

统一响应结果封装,Result类的实现 在开发Web应用或API接口时,如何优雅地处理并返回响应结果是每个开发者都需要考虑的问题。统一响应结果封装(Unified Response Encapsulation)作为一种广泛采用的实践,不仅提高了API的…

快讯 | OpenAI 找回场子:chatgpt-4o-latest 刷新多项AI跑分纪录

在数字化浪潮的推动下,人工智能(AI)正成为塑造未来的关键力量。硅纪元视角栏目紧跟AI科技的最新发展,捕捉行业动态;提供深入的新闻解读,助您洞悉技术背后的逻辑;汇聚行业专家的见解,…

LeetCode 205 同构字符串

题目 给定两个字符串 s 和 t ,判断它们是否是同构的。 如果 s 中的字符可以按某种映射关系替换得到 t ,那么这两个字符串是同构的。 每个出现的字符都应当映射到另一个字符,同时不改变字符的顺序。不同字符不能映射到同一个字符上&#xff0c…

边缘智能:让每一个温室都成为计算中心

( 于景鑫 国家农业信息化工程技术研究中心)当人工智能的浪潮席卷全球,大语言模型(LLM)引领智能风潮之时,"智慧农业"也摩拳擦掌跃跃欲试。设施农业作为现代农业的翘楚,正站在数智化变革…

C语言典型例题38

《C程序设计教程(第四版)——谭浩强》 例题3.5 写程序,判断某一年是否为闰年 代码: //《C程序设计教程(第四版)——谭浩强》 //例题3.5 写程序,判断某一年是否为闰年//相关知识:如果…

观存储历史,论数据未来

数据存储 这几天我反复观看了腾讯云社区的《中国数据库前世今生》纪录片,每次的感受都大相径庭。以下是我在这段时间里对纪录片的两个不同感想,希望感兴趣的小伙伴们也能去观看一番。 一个是关于国产数据库的发展趋势的探讨:https://blog.c…

使用 C# 反射查询程序集的元数据 (LINQ)

文章目录 1. 反射概述2. LINQ 概述3. 使用反射和 LINQ 查询程序集的元数据4. 扩展:查询字段和属性5. 扩展示例:查询公共类及其属性和方法6. 总结 在 C# 中,反射是一个强大的工具,它允许我们在运行时检查程序集、类型、方法等的元数…

机器学习速成第二集——监督学习之回归(理论部分)!

目录 回归算法 线性回归与非线性回归在实际应用中的优缺点比较是什么? 线性回归的优缺点 非线性回归的优缺点 优点: 缺点: 多项式回归模型如何选择最佳的多项数以提高预测准确性? 岭回归和套索回归在防止过拟合方面的具体…

【屏驱MCU】实现文件路径的的挂载

说明:本文涉及到一些底层的 .py 编译脚本以及编辑原理,笔者也不是完全明白,本文的主要目的是介绍一下流程,供小白使用。 接上文:【屏驱MCU】RT-Thread 文件系统接口解析 屏驱MCU系列文章 【屏显MCU】多媒体接口总结&am…

【Python学习-UI界面】PyQt5 小部件6- QComboBox

样式如下: 一个 QComboBox 对象呈现一个下拉列表供选择。它在表单上占用的屏幕空间最小,仅显示当前选定项。 可以将组合框设置为可编辑;还可以存储像素映射对象。 常用方法如下: 序号方法描述1addItem将字符串添加到集合中2addItems在列…