Edge 浏览器推出 Copilot Vision:免费实时解析屏幕内容;Aqua Voice:极速 AI 语音输入工具丨日报

news2025/4/18 22:49:23

在这里插入图片描述

开发者朋友们大家好

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、微软 Edge 浏览器免费上线 Copilot Vision 功能,可实时解读屏幕内容

4 月 17 日,微软人工智能首席执行官穆斯塔法・苏莱曼在 Bluesky 平台宣布,Edge 浏览器现已免费提供人工智能助手功能「Copilot Vision」。该功能可解读屏幕内容并协助用户操作应用程序。

例如,用户烹饪时可通过「Copilot Vision」获取食谱指导,或让它解析职位描述并直接进入面试准备或求职信撰写环节。微软官方支持页面提示,该功能虽能高亮显示屏幕内容辅助查找信息,但不会代替用户点击链接或执行具体操作。(@IT 之家)

2、OpenAI 发布最强推理模型 o3 和 o4-mini:图像深度思考首秀,还能自主调用工具

北京时间 4 月 17 日凌晨,OpenAI 发布了两款突破性 AI 模型——o3 和 o4-mini,它们能通过图像进行推理,并可自主调用多种工具。

这些推理模型可以自主组合并使用 ChatGPT 内的所有工具——包括网页搜索、利用 Python 分析上传的文件和数据、对视觉输入进行深入推理,甚至还能生成图像。最重要的是,这些模型不仅能判断何时使用工具,还能决定如何使用工具,从而以正确的输出格式,在一分钟内给出经过深思熟虑的详细回答,帮助解决更复杂的问题。(@腾讯科技)

3、微信首个 AI 助手,「元宝」正式入驻

在这里插入图片描述

据官方介绍,元宝 AI 是腾讯元宝 APP 入驻微信的 AI 助手,搭载混元和 DeepSeek 双模引擎,无缝衔接微信生态。目前,微信用户可以在微信中搜索「元宝」,亦或者直接扫描上面的二维码图片,将其添加到通讯录,即可与它展开对话。

其亮点概括如下:

  • 由腾讯混元大模型和 DeepSeek 提供 AI 服务,支持聊天,答题;

  • 支持文字和语音消息输入,以联系人身份嵌入微信通讯录,聊天时会显示「对方正在输入…」;

  • 生成部分内容时会提供跳转页面,支持跳转到元宝 APP 进行后续追问;

  • 可自动解读转发的公众号文章,支持解析 100M 以内的文件,暂不支持理解视频或音频内容;

  • 具有「记忆」功能,支持如查找、转发、清空聊天记录。(@APPSO)

4、OpenAI 正在构建社交网络

据外媒 The Verge 援引知情人士消息称,OpenAI 正在研发一个类似 X(前 Twitter)的社交网络。

  • 项目还处于早期阶段,但据称内部已完成原型开发;

  • 项目重点是 ChatGPT 的图像生成功能和社交信息流;

  • CEO Sam Altman 已私下向圈外人征求反馈;

  • 尚不清楚这个项目是作为独立应用发布还是整合进 ChatGPT。

此前有传闻称,Meta 计划推出独立的 AI 应用,并计划将其与社交信息流结合,当时 Altman 在 X 平台发文暗示:「那好,我们也可能开发一款社交应用。( @APPSO)

5、Claude Research 上线,深度整合 Google

昨日凌晨,Anthropic 宣布 Claude 将上线 Research 功能和 Google Workspace 深度集成。Claude 本次新增的 Research 功能,与此前 OpenAI 在 ChatGPT 中所推出的 Deep Research 类似,能够主动进行多轮搜索,逐步深入问题并进行多角度探索,最后系统性地为用户提供更高质量的回答内容。值得一提的是,本次 Claude 的 Research 拥有代理式(Agentic)搜索框架,支持自主规划并执行多步骤搜索任务。

据悉,本次 Google Workspace 依靠 Anthropic 的 MCP 协议,这也意味着 Agent 的形态又一次变得清晰起来,真正能让用户少动手,高回报率地获得想要的内容。(@APPSO)

02 有亮点的产品

1、Aqua Voice:极速语音输入工具,4 倍提升输入效率

Aqua (@aquavoice_) 是一款极速 AI 语音输入工具,现支持在任意文本框中使用语音输入,包括 Cursor、Gmail、Slack 及终端等各类界面。

其启动响应时间低于 50 毫秒,输入延迟最低仅 450 毫秒,同时拥有顶尖的语音识别准确度。

借助 Aqua,可将文字输入效率提升至原来的 4 倍。(@Y Combinator@X)

2、DeepTrue:全球首创实时唇语同步翻译视频会议平台

Deeptrue 是全球首款支持实时唇形同步翻译的视频会议平台。用户只需要用母语发言,系统会实时生成口型完全匹配的多语言翻译视频,使其他与会者看到和听到的将是同步翻译的流畅表达,且口型完全匹配。整个过程实时完成,实现完美的唇语同步效果,打造真正无缝的跨语言会议体验。(@Product Hunt)

03 有态度的观点

1、OpenAI CPO:AI 的科技创新浪潮才刚开始

在这里插入图片描述

OpenAi 首席产品官 Kevin Weil 表示,技术推动使人类在当今获得了许多进步,而技术是几乎一切的根源。

他指出,AI 模型正在以惊人的速度变得更智能、更快、更便宜和更安全,并且这种进步速度远超摩尔定律的预测。因此 Kevin 也强调:今天我们使用的 AI 模型只是未来模型的最基础版本,科技创新的浪潮才刚刚开始。

Kevin 还在对话中提到了 AI 与孩子的教育培养,应该是「共存」。Kevin 对 AI 个性化辅导的潜力十分惊讶,并表示「这应该是 AI 能做的、最重要的事情之一。」而对于培养孩子的兴趣能力,Kevin 虽然认同「编程」在很长一段时间内都很重要,但他更认为培养孩子的好奇心、独立、自信和思考能力才是更重要的。

另外,Kevin 还强调了「AI 不会取代创造力」。他通过自己的日常工作来阐述了这一点:用 Sora 生成多个不同版本的内容,同时进行头脑风暴,但最后依然会选择效果最好的一版,交给人类艺术家去制作最终版本。

视频对话链接:https://youtu.be/scsW6_2SPC4(@APPSO)

在这里插入图片描述

更多 Voice Agent 学习笔记:

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
在这里插入图片描述

素材来源官方媒体/网络新闻

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2337587.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

async-profiler火焰图找出耗CPU方法

事情起于开发应用对依赖的三方包(apache等等)进行了升级后(主要是升级spring),CPU的使用率较原来大幅提升,几个应用提升50%-100%。 查找半天,对比每次版本的cpu火焰图,看不出有什么…

@Autowird 注解与存在多个相同类型对象的解方案

现有一个 Student 类,里面有两个属性,分别为 name 和 id;有一个 StuService 类,里面有两个方法,返回值均为类型为 Student 的对象;还有一个 StuController 类,里面有一个 Student 类型的属性&am…

WordPiece 详解与示例

WordPiece详解 1. 定义与背景 WordPiece 是一种子词分词算法,由谷歌于2012年提出,最初用于语音搜索系统,后广泛应用于机器翻译和BERT等预训练模型。其核心思想是将单词拆分为更小的子词单元(如词根、前缀/后缀),从而解决传统分词方法面临的词汇表过大和未知词(OOV)处…

PVE+CEPH+HA部署搭建测试

一、基本概念介绍 Proxmox VE ‌Proxmox Virtual Environment (Proxmox VE)‌ 是一款开源的虚拟化管理平台,基于 Debian Linux 开发,支持虚拟机和容器的混合部署。它提供基于 Web 的集中管理界面,简化了计算、存储和网络资源的配置与监控。P…

ROS ROS2 机器人深度相机激光雷达多传感器标定工具箱

系列文章目录 目录 系列文章目录 前言 三、标定目标 3.1 使用自定义标定目标 四、数据处理 4.1 相机数据中的标定目标检测 4.2 激光雷达数据中的标定目标检测 输入过滤器: 正常估算: 区域增长: 尺寸过滤器: RANSAC&a…

android rtsp 拉流h264 h265,解码nv12转码nv21耗时卡顿问题及ffmpeg优化

一、 背景介绍及问题概述 项目需求需要在rk3568开发板上面,通过rtsp协议拉流的形式获取摄像头预览,然后进行人脸识别 姿态识别等后续其它操作。由于rtsp协议一般使用h.264 h265视频编码格式(也叫 AVC 和 HEVC)是不能直接用于后续处…

熊海cms代码审计

目录 sql注入 1. admin/files/login.php 2. admin/files/columnlist.php 3. admin/files/editcolumn.php 4. admin/files/editlink.php 5. admin/files/editsoft.php 6. admin/files/editwz.php 7. admin/files/linklist.php 8. files/software.php 9. files…

DeepSeek 与开源:肥沃土壤孕育 AI 硕果

当 DeepSeek 以低成本推理、多模态能力惊艳全球时,人们惊叹于国产AI技术的「爆发力」,却鲜少有人追问:这份爆发力的根基何在? 答案,藏在中国开源生态二十余年的积淀中。 从倪光南院士呼吁「以开源打破垄断」&#xf…

Maven中clean、compil等操作介绍和Pom.xml中各个标签介绍

文章目录 前言Maven常用命令1.clean2.vaildate3.compile4.test5.package6.verify7.install8.site9.deploy pom.xml标签详解格式<?xml version"1.0" encoding"UTF-8"?>(xml版本和编码)modelVersion&#xff08;xml版本&#xff09;groupId&#xff…

力扣刷题-热题100题-第35题(c++、python)

146. LRU 缓存 - 力扣&#xff08;LeetCode&#xff09;https://leetcode.cn/problems/lru-cache/?envTypestudy-plan-v2&envIdtop-100-liked 双向链表哈希表 内置函数 对于c有list可以充当双向链表&#xff0c;unordered_map充当哈希表&#xff1b;python有OrderedDic…

Nautilus 正式发布:为 Sui 带来可验证的链下隐私计算

作为 Sui 安全工具包中的强大新成员&#xff0c;Nautilus 现已上线 Sui 测试网。它专为 Web3 开发者打造&#xff0c;支持保密且可验证的链下计算。Nautilus 应用运行于开发者自主管理的可信执行环境&#xff08;Trusted Execution Environment&#xff0c;TEE&#xff09;中&a…

云服务器CVM标准型S5实例性能测评——2025腾讯云

腾讯云服务器CVM标准型S5实例具有稳定的计算性能&#xff0c;CPU采用采用 Intel Xeon Cascade Lake 或者 Intel Xeon Cooper Lake 处理器&#xff0c;主频2.5GHz&#xff0c;睿频3.1GHz&#xff0c;CPU内存配置2核2G、2核4G、4核8G、8核16G等配置&#xff0c;公网带宽可选1M、3…

leetcode面试经典算法题——2

链接&#xff1a;https://leetcode.cn/studyplan/top-interview-150/ 20. 有效的括号 给定一个只包括 ‘(’&#xff0c;‘)’&#xff0c;‘{’&#xff0c;‘}’&#xff0c;‘[’&#xff0c;‘]’ 的字符串 s &#xff0c;判断字符串是否有效。 有效字符串需满足&#x…

Ubuntu20.04安装企业微信

建议先去企业微信官网看一下有没有linux版本&#xff0c;没有的话在按如下方式安装&#xff0c;不过现在是没有的。 方案 1、使用docker容器 2、使用deepin-wine 3、使用星火应用商店 4. 使用星火包deepin-wine 5、使用ukylin-wine 本人对docker不太熟悉&#xff0c;现…

在Ubuntu服务器上部署xinference

一、拉取镜像 docker pull xprobe/xinference:latest二、启动容器&#xff08;GPU&#xff09; docker run -d --name xinference -e XINFERENCE_MODEL_SRCmodelscope -p 9997:9997 --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0 # 启动一个新的Docker容…

异步编程——微信小程序

1. 前言 引用来自&#xff1a;微信小程序开发中的多线程处理与异步编程_微信小程序 多线程-CSDN博客 微信小程序是基于JavaScript开发的&#xff0c;与浏览器JavaScript不同&#xff0c;小程序运行在WebView内部&#xff0c;没有多线程的概念。小程序的 JavaScript 是单线程的…

STM32 四足机器人常见问题汇总

文章不介绍具体参数&#xff0c;有需求可去网上搜索。 特别声明&#xff1a;不论年龄&#xff0c;不看学历。既然你对这个领域的东西感兴趣&#xff0c;就应该不断培养自己提出问题、思考问题、探索答案的能力。 提出问题&#xff1a;提出问题时&#xff0c;应说明是哪款产品&a…

Windows 下实现 PHP 多版本动态切换管理(适配 phpStudy)+ 一键切换工具源码分享

&#x1f680; Windows 下实现 PHP 多版本动态切换管理&#xff08;适配 phpStudy&#xff09; 一键切换工具源码分享 &#x1f4e6; 工具特点&#x1f9ea; 效果展示&#x1f9f1; 环境要求&#x1f9d1;‍&#x1f4bb; 源码展示&#xff1a;php_switcher.py&#x1f6e0; 打…

ReportLab 导出 PDF(图文表格)

ReportLab 导出 PDF&#xff08;文档创建&#xff09; ReportLab 导出 PDF&#xff08;页面布局&#xff09; ReportLab 导出 PDF&#xff08;图文表格) 文章目录 1. Paragraph&#xff08;段落&#xff09;2. Table&#xff08;表格&#xff09;3. VerticalBarChart&#xff0…

yolov8复现

Yolov8的复现流程主要包含环境配置、下载源码和验证环境三大步骤&#xff1a; 环境配置 查看电脑状况&#xff1a;通过任务管理器查看电脑是否有独立显卡&#xff08;NVIDIA卡&#xff09;。若有&#xff0c;后续可安装GPU版本的pytorch以加速训练&#xff1b;若没有&#xff0…