开发者朋友们大家好
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、微软 Edge 浏览器免费上线 Copilot Vision 功能,可实时解读屏幕内容
4 月 17 日,微软人工智能首席执行官穆斯塔法・苏莱曼在 Bluesky 平台宣布,Edge 浏览器现已免费提供人工智能助手功能「Copilot Vision」。该功能可解读屏幕内容并协助用户操作应用程序。
例如,用户烹饪时可通过「Copilot Vision」获取食谱指导,或让它解析职位描述并直接进入面试准备或求职信撰写环节。微软官方支持页面提示,该功能虽能高亮显示屏幕内容辅助查找信息,但不会代替用户点击链接或执行具体操作。(@IT 之家)
2、OpenAI 发布最强推理模型 o3 和 o4-mini:图像深度思考首秀,还能自主调用工具
北京时间 4 月 17 日凌晨,OpenAI 发布了两款突破性 AI 模型——o3 和 o4-mini,它们能通过图像进行推理,并可自主调用多种工具。
这些推理模型可以自主组合并使用 ChatGPT 内的所有工具——包括网页搜索、利用 Python 分析上传的文件和数据、对视觉输入进行深入推理,甚至还能生成图像。最重要的是,这些模型不仅能判断何时使用工具,还能决定如何使用工具,从而以正确的输出格式,在一分钟内给出经过深思熟虑的详细回答,帮助解决更复杂的问题。(@腾讯科技)
3、微信首个 AI 助手,「元宝」正式入驻
据官方介绍,元宝 AI 是腾讯元宝 APP 入驻微信的 AI 助手,搭载混元和 DeepSeek 双模引擎,无缝衔接微信生态。目前,微信用户可以在微信中搜索「元宝」,亦或者直接扫描上面的二维码图片,将其添加到通讯录,即可与它展开对话。
其亮点概括如下:
-
由腾讯混元大模型和 DeepSeek 提供 AI 服务,支持聊天,答题;
-
支持文字和语音消息输入,以联系人身份嵌入微信通讯录,聊天时会显示「对方正在输入…」;
-
生成部分内容时会提供跳转页面,支持跳转到元宝 APP 进行后续追问;
-
可自动解读转发的公众号文章,支持解析 100M 以内的文件,暂不支持理解视频或音频内容;
-
具有「记忆」功能,支持如查找、转发、清空聊天记录。(@APPSO)
4、OpenAI 正在构建社交网络
据外媒 The Verge 援引知情人士消息称,OpenAI 正在研发一个类似 X(前 Twitter)的社交网络。
-
项目还处于早期阶段,但据称内部已完成原型开发;
-
项目重点是 ChatGPT 的图像生成功能和社交信息流;
-
CEO Sam Altman 已私下向圈外人征求反馈;
-
尚不清楚这个项目是作为独立应用发布还是整合进 ChatGPT。
此前有传闻称,Meta 计划推出独立的 AI 应用,并计划将其与社交信息流结合,当时 Altman 在 X 平台发文暗示:「那好,我们也可能开发一款社交应用。( @APPSO)
5、Claude Research 上线,深度整合 Google
昨日凌晨,Anthropic 宣布 Claude 将上线 Research 功能和 Google Workspace 深度集成。Claude 本次新增的 Research 功能,与此前 OpenAI 在 ChatGPT 中所推出的 Deep Research 类似,能够主动进行多轮搜索,逐步深入问题并进行多角度探索,最后系统性地为用户提供更高质量的回答内容。值得一提的是,本次 Claude 的 Research 拥有代理式(Agentic)搜索框架,支持自主规划并执行多步骤搜索任务。
据悉,本次 Google Workspace 依靠 Anthropic 的 MCP 协议,这也意味着 Agent 的形态又一次变得清晰起来,真正能让用户少动手,高回报率地获得想要的内容。(@APPSO)
02 有亮点的产品
1、Aqua Voice:极速语音输入工具,4 倍提升输入效率
Aqua (@aquavoice_) 是一款极速 AI 语音输入工具,现支持在任意文本框中使用语音输入,包括 Cursor、Gmail、Slack 及终端等各类界面。
其启动响应时间低于 50 毫秒,输入延迟最低仅 450 毫秒,同时拥有顶尖的语音识别准确度。
借助 Aqua,可将文字输入效率提升至原来的 4 倍。(@Y Combinator@X)
2、DeepTrue:全球首创实时唇语同步翻译视频会议平台
Deeptrue 是全球首款支持实时唇形同步翻译的视频会议平台。用户只需要用母语发言,系统会实时生成口型完全匹配的多语言翻译视频,使其他与会者看到和听到的将是同步翻译的流畅表达,且口型完全匹配。整个过程实时完成,实现完美的唇语同步效果,打造真正无缝的跨语言会议体验。(@Product Hunt)
03 有态度的观点
1、OpenAI CPO:AI 的科技创新浪潮才刚开始
OpenAi 首席产品官 Kevin Weil 表示,技术推动使人类在当今获得了许多进步,而技术是几乎一切的根源。
他指出,AI 模型正在以惊人的速度变得更智能、更快、更便宜和更安全,并且这种进步速度远超摩尔定律的预测。因此 Kevin 也强调:今天我们使用的 AI 模型只是未来模型的最基础版本,科技创新的浪潮才刚刚开始。
Kevin 还在对话中提到了 AI 与孩子的教育培养,应该是「共存」。Kevin 对 AI 个性化辅导的潜力十分惊讶,并表示「这应该是 AI 能做的、最重要的事情之一。」而对于培养孩子的兴趣能力,Kevin 虽然认同「编程」在很长一段时间内都很重要,但他更认为培养孩子的好奇心、独立、自信和思考能力才是更重要的。
另外,Kevin 还强调了「AI 不会取代创造力」。他通过自己的日常工作来阐述了这一点:用 Sora 生成多个不同版本的内容,同时进行头脑风暴,但最后依然会选择效果最好的一版,交给人类艺术家去制作最终版本。
视频对话链接:https://youtu.be/scsW6_2SPC4(@APPSO)
更多 Voice Agent 学习笔记:
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
多模态 AI 怎么玩?这里有 18 个脑洞
AI 重塑宗教体验,语音 Agent 能否成为突破点?
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
素材来源官方媒体/网络新闻