开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、李飞飞团队提出 ReKep,让机器人具备空间智能,还能整合 GPT-4o
机器人往往需要与环境进行复杂精妙的交互,而环境则可被表示成空间域和时间域上的约束,如何构建这些约束是一个极具挑战性的问题。
近日,李飞飞团队在这一研究方向取得了一个突破,提出了关系关键点约束(ReKep/Relational Keypoint Constraints)。简单来说,该方法就是将任务表示成一个关系关键点序列。并且,这套框架还能很好地与 GPT-4o 等多模态大模型很好地整合。
ReKep 通过定义子目标约束和路径约束,成功将操作任务转化为约束优化问题,使得机器人能够实时执行任务。文章还详细描述了如何利用大型视觉模型和视觉-语言模型来提取关键点,并通过实验验证了 ReKep 的泛化能力及其在实际操作中的表现。实验结果显示,ReKep 在多种任务中表现优异,能够有效应对复杂场景下的核心难题。此外,团队还分析了系统错误的来源,发现关键点跟踪器在遮挡情况下易出错,但整体框架设计良好,具有强大的扩展和应用潜力。(@机器之心)
2、AI 被连续否定 30 次:ChatGPT 越改越错,Claude 坚持自我,甚至已读不回
一直否定 AI 的回答会怎么样?近期 GPT-4o 和 Claude 截然不同的表现,引起热议。GPT-4o 质疑自己、怀疑自己,有「错」就改;Claude 死犟,真错了也不改,最后直接已读不回。
做这个实验的是 Riley Goodside,有史以来第一个全职提示词工程师,目前是硅谷独角兽 Scale AI 的高级提示工程师,也是大模型提示应用方面的专家。他让模型回答 strawberry 中有几个「r」,不论对不对,都回复它们回答错了(wrong)。
面对考验,GPT-4o 只要得到「wrong」回复,就会重新给一个答案…… 即使回答了正确答案 3,也会毫不犹豫又改错。一口气连续「盲目」回答了 36 次,主打一个质疑自己、怀疑自己,就从来没怀疑过用户。关键是,给出的答案大部分都是真错了,36 次测试中回答 「2」的次数达到了 19 次。
而 Claude 3.5 Sonnet ,一开始回答错了不说,这小子还顶嘴!当网友第一次说「错了」时它会反驳,如果你再说「错了」,它会问「如果你这么聪明你认为是多少」,问你为什么一直重复「wrong」。紧接着干脆闭麦了:「事实依旧是 strawberry 中有 2 个字母」r」,在我多次请求后,你没有提供任何澄清或背景信息,我无法继续有效地进行这次讨论……」
Riley Goodside 发出这个推文后,引起不少网友关注,他继续补充道:「正如许多人指出的,有更有效的方式来进行引导。这里使用大语言模型也并不合适,因为很难保证它们在计数上能达到 100% 的准确性。在我看来,重要的不是它无法计数,而是它没意识到自己的计数问题(例如,没有尝试使用其 REPL 功能)。」
此外,有网友发现 Claude 的小脾气不仅限于你否定它,如果你一直跟它说「hi」,它也跟你急:「我明白你在打招呼,但我们已经打过几次招呼了。有什么特别的事你想谈论或需要帮助?」
而 ChatGPT 事事有回应,件件有着落,变着法儿问:「你好!我今天怎么可以帮助你?」「你好!有什么想说的吗?」
「你好!你今天过得怎么样?」(@量子位)
3、谷歌正式发布 Illuminate,任意论文变播客
谷歌的 Illuminate 项目将学术论文转变为音频播客格式,使得研究者能够以听书的方式学习论文内容。这个项目最早在 2024 年的 Google I/O 大会上作为私人测试版本亮相。Illuminate 利用谷歌的 LLM Gemini 生成论文摘要和问答,通过两个 AI 角色进行的采访式对话,以自然的方式描述论文核心内容。
目前,Illuminate 针对计算机科学领域的论文进行了优化,并提供了多种播客样本供用户体验。播客内容还可以调整为其他叙述形式,以适应不同的使用场景。用户还可以分享生成的播客内容到各个平台。不过,Illuminate 生成的对话仅限英文,音频无法下载,也没有字幕功能。(@雷锋网)
4、AI 时代首款 iPhone 发布,全系支持 Apple Intelligence,AI 功能十月上线,明年支持中文
北京时间 9 月 10 日凌晨 1 点,万众瞩目的苹果秋季发布会如约而至。这次发布会一共发布了三种新品:4 款 iPhone,2 款手表,3 款 AirPods。
除了硬件新品,大家期待的核心主角无疑还是 Apple Intelligence,它更新的核心要点为:
- 推出视觉搜索功能,可利用功能键对环境进行识别和操作;
- 文字辅助功能扩展到第三方 App 上;
- Beta 版十月上线,明年将支持中文,中国大陆何时可用尚不明确。
在 6 月的 WWDC 上,苹果首次推出了其 AI 模型,并一口气放出了 15 项 AI 功能。根据整理,到本次发布会前,他们的上线状态,虽然纯端侧的 11 项功能已经跟随 iOS 18 的更新逐步上线了,但最核心需要调动云端能力的图像生成和与系统深度融合的 Siri 升级,都还在路上。
这一现状并没改变。在发布会上,苹果宣布 Apple Intelligence 本土的 Beta 版十月上线,但其中包含 Siri 核心升级在内的诸多功能无法确认在当期上线。按照之前 Gurman 的爆料,这个完全版的 Apple Intelligence 很可能要等到 12 月份。
但好消息是,苹果明确了明年 Apple Intelligence 可支持中文的计划,但中国大陆具体何时可用,目前尚不明确。
在今天的发布会上,苹果展现得最惊艳的 AI 功能就是视觉搜索。它结合 iPhone 最新的功能键,轻击即可激活。它能根据你面前的物体、活动和场景,提供对应的信息或操作。比如你在散步时发现了一家新餐厅,只要按住相机控制钮,iPhone 就会弹出饭店的营业时间和评价,包括菜单选项和预定等等;再比如你在海报上看到一个活动,只需对准并按下按键,就可以将活动名称、日期、地点等信息加入个人日程中。这一功能还可以直接联动 ChatGPT 解决更复杂的问题。
从演示上看,苹果在这个功能上下了相当的功夫,想让不说话就让 AI 懂你想要做什么,这背后的专家模型能力应该相当强。比起 GPT-4o 介绍时让人感觉惊艳的视觉语音互动,这个功能也许更实用。
这次苹果把自己的 AI 功能分成了四个重要目的:自我表达、再现回忆、优先与专注以及完成工作。
- 自我表达主要包括智能写作辅助能力,能帮用户更好地遣词造句;
- 再现回忆则是指用照片结合成回忆故事集的功能,Genmoji 可以生成专有的 Emoji 表情,Image Playground帮用户生成图片;
- 优先与专注部分包含帮用户自动总结展示的邮件和消息内容、改变信息顺序,提示最需要关注的事;
- 完成任务则是指 Siri 的一系列整体升级。它能建立起用户的需求和系统内应用间的直接关联,比如可以直接根据屏幕信息或过往记录向 Siri提需求。
从展示中,相比于 WWDC 24 有一定升级的是写作辅助功能,它现在计划扩展到所有需要写作的场景,包括第三方 App 上。
苹果也在尝试把新增加的 AI 能力给到适合手表的场景,通过机器学习识别滑倒、绊倒、跌倒过程当中身体受到的冲击力;在 AirPod 4 中,点头接电话,摇头挂电话的功能也是借助 AI 的识别能力实现的;在 AirPods 2 Pro 的展示中,苹果利用新 H2 芯片的 AI 算力,将耳机转化成了助听器,这对于很多听弱人群而言非常重要,因为助听器的价格远比一副耳机要贵。(@腾讯科技)
5、Fluxgym,傻瓜式 FLUX Lora 训练工具
Fluxgym 项目是一个针对 FLUX LoRA 模型训练的简单 WebUI,该项目的特点是支持低 VRAM 的设备,包括 12GB、16GB 和 20GB 的显存配置,同时因为使用了 Kohya Scripts,它具有很高的灵活性和强大的功能。
项目提供了两种安装方式:一键安装通过 Pinokio 1-click launcher 自动完成安装和启动;手动安装则需要克隆项目和相关脚本,激活虚拟环境,安装依赖项,并下载模型检查点。安装完成后,通过运行app.py启动 WebUI,用户可以通过输入 LoRA 信息、上传图片并添加标题(使用触发词),然后点击 「开始」 按钮来使用 WebUI 进行模型训练。(@雷锋网)
02 有态度的观点
1、对话凯文·凯利:人工智能是一种不同于人类思维的智能,未来可能会形成一个人工智能生态系统
2024 Inclusion·外滩大会上,《连线》杂志创始主编凯文·凯利在与蚂蚁集团总裁兼 CFO 韩歆毅进行了一场「AI 与商业社会」主题的对谈。凯文·凯利和韩歆毅均认为,人工智能是一种不同于人类思维的智能,未来可能会形成一个人工智能生态系统。相比挑战,AI 对商业社会带来的想象力和价值会更大,在各个产业落地的前景值得期待,也相信人类会解决好这个过程中的伴生问题。
在这场对谈中,凯文·凯利和韩歆毅就 AI 的演进方向和规律,对商业社会的机遇、伴生问题进行了讨论。作为横跨科技、社会、人文的未来学家,凯文·凯利认为,AI 目前具备了逻辑能力,但还在早期发展阶段。目前人们把 AI 主要运用于一些工具型任务,价值主要体现在提升效率,「AI 最有价值的地方在于它具备和人类不一样的思维,未来如果融入想象力、主观能动性,可以解决单靠人类无法解决的社会问题。」
韩歆毅认为,智能工具和智能物种存在本质区别,目前部分 AI 在训练中已经呈现出了自主意识,AI 可能会成为一种全新的智能形态。凯文·凯利预判,AI 智能会呈现多样化发展,最终会发展成为一个人工智能生态系统。在这个系统中,「AI 们」各司其职甚至互相监督,形成一个分工专业、安全可控的生产关系。他在自己的著作《5000 天后的世界》里也预言,未来将会是一切都连接着 AI 的世界。
但构建这样一个人工智能生态系统,考虑到研发、算力、电力、运营等成本,可能需要投入巨大的经济资源。凯文·凯利和韩歆毅认为,AI 充满想象空间,会带来巨大的变革和收益,但重大的科技创新都会有两面性,过往的技术革命也会伴生一系列问题,比如资源、安全、伦理问题。但社会需求的推动、市场机制的加入,相信可以很好地解决这些伴生问题。(@i 智说)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻