Cyber Weekly #12

赛博·新闻

1、Anthropic发布Claude 3.5 Sonnet

本周五（6月21日）凌晨，Anthropic宣布推出其最新的语言模型Claude 3.5 Sonnet，距离上次发布Claude3才过去3个月。Claude3.5拥有20万token的长上下文窗口，目前已经在Claude官网及API上对外开放。Claude 3.5 Sonnet的特点如下：

更通人性，更能理解细节和复杂指令，创作高质量内容。
基准测试结果全方位碾压Gemini 1.5 Pro和Llama-400b，大部分优于GPT-4o。
速度是Claude3 Opus的两倍，成本仅为后者的五分之一，即每输入百万token 3美元，输出每百万token 15美元。
在自主编码和视觉处理等复杂任务中表现出色。

2、OpenAI前首席科学家Ilya宣布成立新公司

本周四（6月20日）凌晨，OpenAI前首席科学家Ilya Sutskever宣布创立了一家名为「安全超级智能」（Safe Super Intelligence，简称SSI）的新公司。SSI公司的唯一重点，是开发安全、强大的通用人工智能（AGI）系统，Ilya认为「这是我们这个时代最重要的技术问题」，而且公司短期内无意销售各种AI产品或服务。

3、Meta发布多款模型、研究和数据集

本周三（6月19日）凌晨，Meta偷偷发布多款模型、研究和数据集，包括：

7B/34B的多模态模型Meta Chameleon，支持混合输入（文本+图像），输出文本
多词预测模型Multi-Token Prediction，一次可以预测多个token
文生成音乐模型JASCO，支持文本提示转化为音乐，并支持和弦、节拍等条件输入，实现对生成音乐的精细控制
音频水印技术Audio Seal，能精准识别AI生成的语音内容，防止滥用
AI反馈数据集PRISM
人文地理差异评估方法“DIGIn”

4、Runway发布视频生成模型Gen-3模型

本周二（6月18号），老牌AI视频生成巨头Runway发布最新文生视频模型Gen-3 Alpha，网页纷纷称赞比Sora还好，Gen-3 Alpha特点如下：

高保真视频生成：能够生成接近真实世界质量的视频内容，具有高度的细节和清晰度。
精细动作控制：模型能够精确控制视频中对象的动作和过渡，实现复杂场景的流畅动画。
逼真人物生成：特别擅长生成具有自然动作、表情和情感的逼真人类角色。
多模态输入：支持文字转视频、图像转视频、文字转图像等多种创作方式。
先进工具：支持运动画笔、相机控制和导演模式等专业创作工具。
增强的安全措施：引入新的内部视觉审核系统和C2PA标准，确保内容的安全性和可靠性。
高质量训练：使用高描述性的、时间密集的字幕进行训练，使模型能够理解和生成具有丰富时间动态的视频。

5、最强开源代码模型DeepSeek-Coder-V2问世

本周一（6月17日），深度求索正式开源了DeepSeek-Coder-V2模型，根据相关评测榜单，这是全球首个在代码、数学能力上超越GPT-4-Turbo、Claude3-Opus、Gemini-1.5 Pro等的开源代码大模型。DeepSeek-Coder-V2包含236B与16B两种参数规模，对编程语言的支持从86种扩展到338种。

6、华为召开开发者大会，发布鸿蒙原生智能

苹果上周刚召开WWDC24，宣布了Apple Intelligence，华为这周就立马跟进「华为开发者大会」，并提出「鸿蒙原生智能」（Harmony Intelligence），啥也不说了，唯有respect🫡

7、首个AI高考全卷评测结果发布，数学全不及格

本周，上海人工智能实验室和司南评测体系发布了AI模型参加高考「语数外」全卷能力测试的结果。该测试选取了6个开源模型以及GPT-4o进行，采用了全国新课标I卷，参与评测的所有开源模型，开源时间均早于高考，成绩由具有高考评卷经验的教师人工评判。评测结果显示，Qwen2-72B、GPT-4o及书生·浦语2.0文曲星（InternLM2-20B-WQX）三个模型成为前三甲，得分率均超过70%。大部分模型都在语文、英语两个科目上表现良好，但是数学科目全员不及格，InternLM2-20B-WQX得分75（满分150）最高，超过GPT-4o的73分。

8、快手可灵大模型新功能升级

6月21日，快手可灵大模型推出了两项全新的功能：图生视频和视频续写。图生视频功能可以将任何静态图像转化为5秒的动态视频，同时支持用户通过添加提示词来控制图像的运动。视频续写功能则允许用户对已生成的视频进行一键续写，每次续写生成约5秒的内容，通过连续多次续写，能够最长生产约3分钟的连贯视频。

赛博·洞见

1、大模型产品化第一年：战术、运营与战略

万字长文，文章深入探讨了大模型产品化的第一年，分享了在战术、运营和战略层面的实践经验和策略，干货满满。

在战术层面：使用有效的提示技巧，如n-shot学习、思维链和相关背景资源；通过RAG改进输出质量；设计和优化多步工作流程以处理复杂任务；以及建立评估和监控系统，确保输出的质量和安全性。
在运营层面：关注数据质量、开发-生产偏差、模型协作和产品设计至关重要。团队组织中，AI工程师的角色日益重要，负责将LLM集成到产品中，同时与其他团队成员（如产品经理和技术领导者）协作，确保产品的稳定性和可靠性。
在战略层面：需要平衡模型性能、成本和市场需求，避免过早使用昂贵的资源，并专注于构建系统，而不是仅仅依赖单一的LLM。长期来看，投资于AI的持续迭代和系统优化将是成功的关键。

2、对话朱啸虎：5年后没有独立的大模型公司｜AI光年

朱啸虎一直是这波GenAI浪潮的另类投资者，他不相信AGI，也不提倡烧钱搞算法（基座模型），他认为大模型的机会在于应用层面的创新，一是中国的数据多，二是AI达不到100%得取代人，因此中国在AI应用上是比美国要领先的。其次，他认为大模型核心不是算法，是高质量的数据，而高质量数据中国在很多领域是比美国有优势的。最后，朱啸虎认为5年后不会有独立的大模型公司，而是会与云服务或应用公司结合，形成基础服务。

3、解密AI搜索引擎Perplexity:一场关于AI、知识探索与人性的深度对话

文章通过与Perplexity CEO Aravind Srinivas的深度访谈，揭示了Perplexity如何结合搜索和大型语言模型来提供有来源支持的答案，从而减少信息幻觉，并改善用户体验。访谈内容涵盖了机器学习的最新进展、检索增强生成、思维链推理等多个方面，展现了Perplexity在提供直接答案和综合信息方面的独特优势。

4、AI需要开创性的用户界面和产品

本文是科技博客Stratechery和硅谷投资基金AI Grant的两位合伙人Daniel Gross和Nat Friedman的深度对谈，探讨了人工智能技术进步的速率限制、科研实验的计算能力限制、AI初创公司的现状和挑战、以及苹果公司在AI领域的潜力和策略。文章指出：人工智能的持续进步，现在需要开创性的用户界面和产品体验，但这不只是一个技术活儿，也是一个艺术活儿，才能把尖端科技用柔软轻盈的方式带入到大众的生活里。

5、法国：AI大革命

文章首先介绍了法国数学的历史和对AI领域的影响，列举了多位在AI界有影响力的法国数学家和企业家。接着详细描述了Mistral AI等法国AI公司的成就和对欧洲AI生态的贡献，同时也提到了Hugging Face等其他AI相关公司。最后，文章谈到法国AI产业面临的挑战和机遇，包括人才和半导体工业的问题，提出欧洲作为AI第三级，和中国的合作大于竞争。

6、甲小姐对话凯文·凯利：关于AI，我从未写进书里的判断｜甲子光年

甲子光年张一甲与凯文·凯利的对话，深入探讨了人工智能的多个方面。KK分享了他对于AI进展的看法，包括AI的创新、对人类的影响、以及AI的伦理问题。他提出了一些预测，例如10年后训练数据可能不再重要，以及AI的武器化问题。此外，KK还讨论了AI的创造力、开源问题和数据集的重要性。最后，他谈到了人类与AI的本质，以及AI如何帮助我们重新定义自己。

7、深度｜关于AI的十大争议

作者编写了对人工智能的十个最具争议性的观点，希望能对大家有启发：

人工智能可能比互联网、印刷术或火种的发明更具影响力，但过早地将其称之为革命是有害的，因为这不必要地提高了那些对不知道人工智能如何工作以及未来可能如何失败的人们的期望，同时也没有留出吸收艰难科学努力所带来的失败的空间——这就是人工智能寒冬的由来。
一般来说，那些已经或想要与人工智能（例如朋友、伴侣等）建立关系的人，最好在情感（包括内在和人际）技能上多下功夫，以改善他们与他人的关系。
目前的大型语言模型对世界来说是一个净成本状态：在社会层面，经济层面，以及科技层面，LLMs所提供的服务远远无法弥补它们造成的损失。
强行将人工智能融入生活是没有意义的；如果使用它对你来说不自然，那么你最好不要使用它。也许你没有任何人工智能可以帮助你的问题，这也没关系。
历史上，许多技术创新从一开始就无可争议地改善了世界；我认为生成式人工智能不是其中之一。目前，它主要用于琐碎的任务（例如作业作弊，做营销文案），这种情况可能不会很快改变，因为人类不会改变。
世界将会从人工智能完全开源中获得比完全闭源更多的利益，这其中包括了恶意行为者利用它做坏事的可能代价。集中化和私人控制在一些特定但不常见的情况下更好（例如高科技武器）。
那些只关注（或主要关注）人工智能中期（如虚假信息）和长期问题（如生存风险）的人，之所以能这样做，是因为他们不受短期问题（例如，偏见和歧视、版权侵犯、失业）的影响，而这些问题包括了大多数研究人工智能的人，导致了现在大多数人关心的问题与有权决定的人关注的问题之间的固有不平衡。
所有炒作人工智能的人——公司、研究人员、记者、影响者、像我这样的博主——都有既得利益（例如，个人、职业、财务、声誉）做为炒作本身存在的意义。这同样适用于，甚至更多地适用于反炒作的人。
即使人工智能让人类达到星辰，大多数人也只会用这项技术来满足他们最基本的驱动和需求：赚钱（例如垃圾网站）、减少努力（例如作业作弊）、和满足性欲（例如深伪色情）。
人工智能爱好者生活在一个真空室里：大多数人不关心人工智能。即使它无处不在地融入他们的日常生活，即使AGI实现并重新定义社会规则，大多数人也不会关心人工智能。

8、对话王小川：除了杀时间、省时间，「加时间」才是AI应用的好赛道

在AGI Playground 2024上，极客公园创始人张鹏对话王小川，探讨了当前AI应用落地方向和思考，王小川提出当前的AI产品：娱乐应用kill time，效率工具save time，而医疗能延长时间。他认为医疗领域作为实现AGI是“难而正确的事情”，并分享了百川智能在该领域的进展。

9、小红书悄咪咪公测AI达芬奇！附小红书AI功能大盘点

文章详细介绍了小红书的AI功能，包括“小地瓜”大模型、“达芬奇”对话AI、“宠物小伙伴”互动养成AI、“此刻”文生图和图生图功能，以及正在小范围内测的“搜搜薯”搜索助手。

10、让AI画了十万只猫后，我终于明白了人类的独特价值

作者南瓜博士，通过让AI画十万只猫的经历，探讨了人工智能的创造力、人类审美和判断力的重要性，以及人与AI协作创造的独特价值。主要观点：

AI也有创造力，AI能够在思考范畴之外找到关联点，产生创意。
AI缺乏审美和判断力，这在实验中得到了证明。
即使AI缺乏审美，也可以通过大量创造来弥补，并通过使用风格参考参数简化了绘画过程。
随着AI创造的大量增加，独特性逐渐丧失。
尽管AI可以自举式创造，但人类的参与对于赋予作品意义至关重要。
人与AI的协作能够保护文化多样性，而每个人的独特性是这个世界有意义的关键。

赛博·工具

1、Mapify：AI思维导图

Mapify是一款AI思维导图工具，能够快速从各种格式的内容（如文本、网页、视频、图像、语音等）中提取关键信息，并生成结构化的思维导图，旨在提升用户的生产力和创造力。Mapify集成了AI对话功能，允许用户在思维导图上与AI进行交互，完成查询、修改和扩展的操作。

2、免费AI文本检测器

一款免费的AI文本检测工具，用于检测文本是否由AI生成，包括来自ChatGPT、Claude、Grok、Llama等模型的内容。

3、AI生成logo

Logo Galleria，一款免费的在线AI生成logo工具。

4、Notion风格头像制作器

支持在线定制各种有意思的notion风格头像，对于notion爱好者来说的话应该挺不错的。

5、博客文章提取器

支持Markdown格式解析提取CSDN、博客园、简书平台的文章。

6、PicSeed图片收藏助手

一款图片收藏助手，支持从微博、小红书、推特、Instagram、Spotify、AppleMusic和即刻等多个平台高质量、无水印、批量快速下载图片。

赛博·资源

1、中国表情包大合集博物馆

一个专门收集中国表情包的项目，已收录5712张表情包，并且提供同类型分类，可一键直链打包下载，完全开源。

2、【甲子光年】人工智能开源大模型生态体系研究报告（关注公众号【产品老A】回复【开源大模型生态体系研究报告】下载）

报告由甲子光年智库出品，强调人工智能已进入应用落地阶段，大模型开源生态成为Al产业发展的重要模式。报告指出，数据、算力、算法是Al发展的核心要素，而开源大模型具备开放性、共享性、可扩展性，推动了技术创新和行业应用。

3、上海交大大语言模型课程

上海交大春季学期开设的《大语言模型》课程(代码CS2916)，上周刚刚完结，这门课程定位与斯坦福大学CS324「large language models」和卡耐基梅隆11-667「Large Language Models Methods and Applications」相似，聚焦于LLM领域的前沿技术发展，并且系统性地讲解LLM涉及到的基础知识体系，大家可以下载课程课件学习。课程大纲：

为什么是大语言模型(LLMs)？
神经网络和深度学习基础
语言模型与表示学习
Transformers和预训练语言模型
提示工程(Prompting Engineering)
评估(Evaluation)
大语言模型的并行训练
指令调整与对齐(Instruction Tuning and Alignment)
奖励模型与强化学习人类偏好反馈(RLHF)
代理(Agent)
多模态(Multimodal)
长上下文大语言模型(Long-context LLM)
多模态大语言模型(Multi-modal LLM)