Cyber Weekly #15

赛博·新闻

1、OpenAI 绝密项目「草莓」首次曝光

据外媒路透社报道，OpenAI 内部正在一个代号为「草莓（Strawberry）」的项目中开发一种新的人工智能模型。该模型细节此前从未被报道过，而 OpenAI 正在努力证明该模型类型能够提供高级推理能力。报道称，「草莓」模型的目的不仅是让公司的人工智能支持答案查询，还能提前规划，以便自主、可靠地浏览互联网，以执行 OpenAI 所称的「深度研究」。路透社报道称，Q* 正是「草莓」的前身，在去年的报道中， Q* 更是被视为一项重要突破。

2、OpenAI 提出 AGI 五级标准，自认为接近解决人类水平问题

据彭博社报道，OpenAI 提出了一套支持「自定义」AI 进化等级的分类系统，以此来帮助人们更清晰地理解关于 AI 的安全和未来发展。OpenAI 发言人指出，该分级系统被划分为从能够与人类进行基本对话的人工智能（Level 1）开始，一直到能够独立完成组织任务的高级人工智能（Level 5）。报道称，OpenAI 内部认为自己处于第一级，但即将迈入第二级「推理者」，即能够解决基本问题任务的系统，类似于拥有像博士学位但没有工具的人类。具体等级如下：

第一级(Level 1)：聊天机器人，具有对话语言能力的 AI
第二级(Level 2)：推理者，能解决人类级别问题的 AI
第三级(Level 3)：代理，能采取行动的 AI 系统
第四级(Level 4)：创新者，能辅助发明的 AI
第五级(Level 5)：组织者，可以完成组织工作的 AI

3、Llama 3-405B 或于本月发布

据 The Information 报道，Meta 将于当地时间 7 月 23 日发布其最新的开源 AI 模型——Llama 3-405B。这是一款具有 4050 亿参数的多模态 AI 模型，被认为是目前最强大的开源大语言模型之一。Meta CEO 扎克伯格此前在接受采访时提到，Llama 3 模型经过了大量的训练，使用了超过 15 万亿的 token，这使得它在多个基准测试中的表现都非常突出。与前一代 Llama 2 相比，Llama 3 在推理、代码生成和指令跟随等方面都有了显著的改进。

4、Kimi 浏览器插件上线：支持框选搜索、全文总结

Kimi 本周官宣上新了一款浏览器插件，据介绍，Kimi 插件主打一个「轻量的小搜索」，能够在你的阅读/创作现场帮你解释、翻译、探索。Kimi 插件，目前只有两个按钮：

一个是点问笔，划选文字后就会出现；
另一个是总结器，出现在网页右下角，帮你快速总结全文、答疑解惑。

5、微软与苹果均放弃 OpenAI 董事会观察员席位

金融时报 7 月 10 日报道，微软已经放弃了在 OpenAI 董事会的观察员席位。从去年 11 月 OpenAI CEO Sam Altman 被开除后，微软就一直在积极争取该席位。并且，微软在 Sam Altman 回归 OpenAI 的过程中也发挥了非常关键的幕后作用，并促成了 OpenAI 公司治理的改变。另外，金融时报也指出，苹果也不会担任 OpenAI 董事会的观察员一职。此前，彭博社记者 Mark Gurman 曾报道，苹果公司将与 OpenAI 进一步深化合作，将会在 OpenAI 董事会中获得一个观察员席位。

6、三星发布「魔戒」Galaxy Ring

本周，三星智能指环 Galaxy Ring 正式发布。Galaxy Ring 的重量根据尺寸而有所不同，但都控制在了 3 克以内，最小尺寸的重量甚至来到了 2.3 克，和一枚普通的银戒指相当。指环内部安装有加速度计、光学心率传感器和皮肤温度传感器等，预计为 Galaxy Ring 带来三种功能：睡眠监测、健身监测和心率预警。

赛博·洞见

1、OpenAI Lilian Weng万字长文解读LLM幻觉：从理解到克服

本文深入探讨了大型语言模型（LLM）在生成文本时出现的幻觉问题，并提出了理解、检测和克服这些幻觉的多种方法和研究成果。文章首先定义了LLM幻觉的两种类型：上下文幻觉和外源性幻觉，本文重点讨论后者。接着，文章分析了幻觉产生的原因，包括预训练数据问题和微调新知识的影响。然后，介绍了多种幻觉检测方法，如检索增强式评估、基于采样的检测、对未知知识进行校准、间接查询等。最后，文章还探讨了反幻觉方法，包括RAG、动作链、针对归因和事实性进行微调和采样方法。

2、通用机器人是 AI 时代的新 “iPhone” 吗？

本文探讨了通用机器人作为AI时代可能的新"iPhone"，分析了具身智能（Embodied AI）和机器人学习（Robot Learning）的发展现状和未来趋势。文章详细梳理了机器人领域的技术挑战、行业背景、重要问题和投资思考，并介绍了几家在该领域具有影响力的海外公司，如Tesla、The Bot Company、Figure、1X、Physical Intelligence和Skild AI。与追求泛化能力的通用机器人不同，特定场景下的非通用机器人在确定性和商业价值上可能更具优势。文章最后指出，尽管通用机器人领域充满潜力，但其发展可能需要更长时间，且面临技术、场景和数据等多方面的挑战。

3、4000万人的失业：背后的“七层博弈”

作者量子学派，本文深入探讨了无人驾驶技术对4000万从业者可能造成的失业问题，并分析了背后的七层博弈，包括与出租车司机的直接竞争、技术路线的博弈、城市管理模式的变革、中美AI科技的竞争、第四次工业革命的全球竞争、AI大时代的来临以及人类与AI的哲学思考。文章强调技术进步的不可逆性，并呼吁社会通过政策和措施来适应这一变革。

第一层博弈: 无人驾驶与传统出租车的竞争，涉及服务效率和成本。
第二层博弈: 国产激光雷达技术与FSD技术的市场争夺。
第三层博弈: 新技术对城市管理模式的挑战，赛博城市与传统城市的较量。
第四层博弈: 中美在无人驾驶领域的科技竞争，影响全球科技格局。
第五层博弈: 无人驾驶技术在全球第四次工业革命中的战略地位。
第六层博弈: AI大时代的到来，无人驾驶作为智能AI的代表。
第七层博弈: 人类与AI的哲学思考，技术与伦理的平衡。

4、我在AI教育前沿的旅程 | 盖茨笔记

本文是比尔·盖茨关于他在AI教育前沿的旅程的笔记。文章主要讲述了他参观新泽西州纽瓦克市第一大道小学的经历，这所学校正在试点使用Khanmigo——一款由AI驱动的辅导员和教师支持工具。盖茨对Khanmigo的潜力和教师们如何创造性地使用这项技术感到印象深刻。他提到了教师们如何利用AI创建与学生兴趣相关的教学内容，以及如何通过AI工具来提高教学效率和个性化教学。尽管Khanmigo在某些方面还有待改进，但盖茨认为这次访问加深了他对AI技术在教育中应用潜力的认识。他强调，随着技术的发展，AI将极大地改变教育体验，帮助教师更有效地与学生沟通，激发学生的好奇心，并确保每个孩子都得到关注和支持。

5、做 AI 产品的反共识（二）

本文深入探讨了AI产品设计中的非共识思维，强调了从AI原生玩法出发、追求新奇性、利用AI模拟形象而非智能、以模型为中心设计产品以及在设计中滥用多模态和算力的重要性。文章认为，这些非传统方法能为AI产品带来更高的胜率和创新潜力。这是作者关于“非共识”第一篇文章：做 AI 产品的 12 条反共识。

更深度需求洞察 -> 更原生AI玩法：对于初创公司来说，仅仅理解用户需求并不足以在竞争中胜出。公司需要从AI原生玩法出发，创造极端的设计，然后测试市场契合度。
颠覆性的思维：建议不要从用户需求出发，而是从AI原生的创新玩法出发，用这些玩法去撞击市场，寻找新机会。
应该为了 AI 这盘醋去包饺子：专注于AI原生玩法的重要性，而不是仅仅加强用户调研。在不具优势的领域，补充洞察力是不够的，应该探索AI创造的新可能性。
最大化效用 -> 最大化新奇：新奇本身就是吸引力，AI产品不需要证明自己的效率，而是应该利用其新奇性吸引用户。
用 AI 装脑子 -> 用 AI 装样子：AI的价值可能不在于其智能或创造力，而在于其能够模仿的外在特征，如名字、脸和声音。
以用户为中心 -> 以模型为中心：产品设计应该将AI模型放在中心，让AI通过用户交互获取数据，推动模型的进化。
按需取材 -> 尽量滥用：在设计AI产品时，应该尽可能地利用新技术，包括多模态和算力，而不是仅仅满足用户当前的需求。
摆脱现有思考框架：鼓励“滥用”新技术，以摆脱现有框架的约束，从而看到新技术的潜力和终局。

6、Will’s GenAI网页产品数据 2024年6月

本文为Wil's GenAl 网页产品数据 2024年6月发布的 36个重要榜单之一，包括全球总榜、出海总榜、国内总榜、全球增速榜、国内增速榜等。

7、对话赵纯想：一个文科生如何做出榜三的AI应用

赵纯想，一位文科生出身的个人开发者，通过自学编程和对AI技术的深刻理解，成功开发了“胃之书”这款美食记录app。他以独特的视角和方法论，对AI应用的商业模式和技术创新提出了独到见解，并在AI demo day上获得了认可。赵纯想凭借其对技术与人文的结合，以及对产品美学和用户体验的重视，展现了文科生在AI领域的潜力和创造力。他认为，由于大模型价格战和“蒸馏”现象，AI应用难以形成商业壁垒，建议创业者通过建立社区壁垒和品牌心智来规避问题。他提出“三不做”原则：不依赖大模型的生成能力，专注垂直功能，避免与AI强绑定的公众印象。

8、估值5亿美元了，抓住日韩，AI语言学习产品跻身赛道Top3（上）

AI语言学习产品Speak完成2000万美金B-3轮融资，总融资额达8400万美金，估值5亿美元。Speak在全球语言学习产品中排名第三，尤其在日韩市场表现突出，其成功归功于深耕韩国市场和本土化运营策略，以及进入日本市场后的快速增长。产品通过AI技术提供个性化课程，满足用户学习需求，同时游戏化设计增强了用户粘性。这是下篇：估值5亿美元了，抓住日韩，AI语言学习产品跻身赛道Top3（下）。

9、微软中国 CTO 韦青：亲身经历大模型落地的体会与思考

本文是微软中国 CTO 韦青在 QCon 北京上的主题演讲内容，着重强调了企业内部那些被忽视的关键问题，称之为“看不见的大猩猩”，提醒人们不要只关注技术浪潮，而应关注人才、数据、流程等〝硬核” 问题。他强调了思想的力量，指出人的思维方式和思考局限是实现成功的重要关键，同时呼吁要不断学习、纠偏、保持独立思考，避免盲从潮流。

10、GraphRAG：微软开源新型RAG架构

GraphRAG 是一种基于图的 RAG 工具，通过 LLM 从文档集合中自动提取丰富的知识图谱，助力处理私有或未知数据集的问答。在社区摘要应用中，GraphRAG 在全面性和多样性上以 70-80% 的胜率大幅领先于传统 RAG。GraphRAG 能通过检测图中的“社区”（即密集连接的节点群组），从高层主题到低层话题，层次化地划分数据的语义结构。它利用 LLM 为这些社区生成摘要，提供对数据集的全面概览，无需事先设定问题。这种方法尤其适合回答全局性问题。

11、人机交互( HCI ) 是强人工智能的瓶颈。

本文探讨了人机交互（HCI）在强人工智能发展中的重要性和瓶颈问题。作者指出，尽管人工智能模型能力显著提升，但人机交互的不足仍是实际有效系统与模型能力之间差距的主要原因。文章强调了思维模型的转变对于人工智能发展的重要性，并提出改进输入输出接口是缩小这一差距的关键。

赛博·工具

1、Color4Bg.com｜最好用的酷炫抽象动态背景生成器

生成动态、抽象的背景图的工具。

2、Photo2Poem 通过AI为照片匹配诗句，生成分享卡片

根据上传的照片匹配诗句，生成分享卡片。

3、floralweb

很多无缝图案照片，可用作布料图案或壁纸手机壳等。

4、image-to-prompt

免费图像提示生成器，上传图片自动生成提示词。

赛博·资源

1、《理解深度学习》

麻省理工出版，免费开源，深入讲解了深度学习的大部分概念，而且每个章节都有搭配的PPT可以下载，还有对应练习的Python代码。内容包括监督学习、神经网络、损失函数、正则化、卷积网络、Transformers、扩散模型、强化学习等，页面上还有更多分支的学习路径和资源。

2、《动手学深度学习》

李沐团队出版，中文版的深度学习资料，在线版免费，有配套的B站教学视频。

3、【甲子光年】2024年中国AI医疗产业研究报告（关注公众号【产品老A】回复【2024年中国AI医疗产业研究报告】下载）

甲子光年智库出品，全面审视了AI技术在医疗产业中的应用与影响。报告指出AI正重塑医疗服务全流程，推动自主医疗时代的到来。通过分析AI医疗的综合能力进化、行业赋能、智慧医疗服务、AI医疗企业角色、监管与创新平衡、医疗器械产业链、AI医疗产品形态、市场规模及挑战等方面，报告展望了AI医疗产业的未来，并提出了相应的发展策略。报告强调了数据合规性、安全性、医疗数据标准和流通机制的重要性，并讨论了AI医疗在提高医疗服务质量、效率和普及性方面的潜力。

4、打造超人笔记

《打造超人笔记》是一本关于如何有效记录和整理笔记的书籍。作者认为，笔记是一个看起来复杂但实际上比学习和阅读更简单的问题。通过拆解笔记的流程，作者发现主要问题的结构变得非常简单。此外，随着科技的发展，许多快速记录工具和笔记整理软件已经被发明出来，使笔记搜寻变得更加容易。在本书中，作者探讨了如何通过做笔记和整理笔记来挖掘和整理自己对一个领域的各种答案。通过阅读本书，读者可以学习到如何使用各种工具和方法来提高自己的笔记能力，成为一个笔记超人。