AI Weekly『11月4-10日』: Anthropic发布Claude 3.5 Haiku，腾讯开源混元-Large模型！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

关于AI Weekly

马化腾谈及AI时说：“我们最开始以为这是互联网十年不遇的机会，但是越想越觉得这是几百年不遇的、类似发明电的工业革命一样的机遇，所以我们觉得非常重要。”

AI Weekly回来了！

“AI Weekly”是AI领域的前沿资讯周报，每周与你相约，精心筛选并总结过去一周内AI领域最重要、最具影响力的事件。这个专栏致力于打破信息壁垒，帮助你高效掌握最新动态，增强对AI技术及应用趋势的洞察力。

省流版摘要

Anthropic发布Claude 3.5 Haiku：2024年11月4日，Anthropic推出Claude 3.5 Haiku模型，其API支持多平台调用，但定价较其他AI模型更高，每百万tokens输入1美元，输出5美元。
昆仑万维升级天工AI搜索功能：天工AI提升了在金融、科研及文档分析方面的能力，支持深入的政策查询、财报对比和超长文本解析。
腾讯推出混元-Large模型：腾讯发布了拥有3890亿参数的混合专家模型混元-Large，现已在Hugging Face开源，性能与扩展能力大幅提升。
苹果Siri升级屏幕读取与内容摘要功能：苹果开发者文档显示，Siri新增屏幕内容读取和文档摘要，并将在未来支持直接与ChatGPT集成的功能。
快手“可灵AI”应用上线苹果App Store：快手推出“可灵AI”App，支持视频与图片生成，用户可通过灵感值创作作品，并享会员去水印特权。
谷歌发布Google Vids视频编辑工具：Google Vids面向Workspace用户推出，集成Gemini大模型，支持脚本生成、分镜头制作和视频拼接。
英伟达洽谈投资马斯克的xAI公司：英伟达正与xAI进行投资谈判，xAI已部署大语言模型Grok，增长迅速，吸引大量关注。
Perplexity AI进行5亿美元融资，估值达90亿美元：AI搜索公司Perplexity融资即将完成，由IVP领投，贝索斯和英伟达已参与投资。

1. Anthropic发布Claude 3.5 Haiku模型

2024年11月4日，Anthropic宣布推出Claude 3.5 Haiku模型，开发者可通过官方API、Amazon Bedrock和Google Cloud的Vertex AI进行调用。该模型在多项AI基准测试中表现出色，超越了前代模型Claude 3 Opus。

然而，Claude 3.5 Haiku的定价引发了开发者的关注：每百万个输入tokens收费1美元，输出tokens收费5美元。相比之下，OpenAI的GPT-4o mini模型每百万个输入tokens收费0.15美元，输出tokens收费0.6美元；谷歌的Gemini 1.5 Flash模型在提示词小于12.8万个tokens时，每百万个输入tokens收费0.075美元，输出tokens收费0.3美元。因此，Claude 3.5 Haiku的定价分别是GPT-4o mini的6.7倍和8.3倍。

Anthropic表示，未来将为Claude 3.5 Haiku增加图像输入功能。此外，开发者可通过提示词缓存节省最多90%的成本，或使用Message Batches API节省50%的成本。

2. 天工AI升级高级搜索功能，强化金融、科研和文档分析

昆仑万维于11月5日发布天工AI的高级搜索功能，重点提升了其在金融投资、科研学术及文档阅读分析方面的能力。新版天工AI不仅可以智能拆解复杂问题，并通过逐步推理与路径规划提供准确回答，还支持深入的金融政策查询、财报分析和公司对比，帮助用户快速获取关键数据。

在科研方面，天工AI构建了一个涵盖两亿多篇学术论文的数据库，支持用户溯源查看并分析论文内容。同时，新版天工AI在文档阅读上支持对超长文本的智能解析，提供多种形式的深度解读，帮助用户高效理解复杂资料。

3. 腾讯发布业界最大开源MoE模型“混元-Large”

腾讯近日发布了“混元-Large”大模型，这是目前基于Transformer架构的最大开源混合专家（MoE）模型，拥有3890亿总参数和520亿激活参数。混元-Large提供多个版本，包括预训练模型、指令微调模型和FP8量化的指令微调模型，现已在Hugging Face平台上开源，并附有详细的技术报告与操作手册。

混元-Large在技术上具有显著优势：采用高质量合成数据进行训练，能够更好地处理长文本输入，支持高达256K的文本序列，并具备KV缓存压缩、专家特定学习率缩放等创新功能，显著减少内存占用并提高推理吞吐量。在CommonsenseQA等多项基准测试中表现优异，展示了强大的泛化和实用能力。

4. 苹果Siri迎来重大升级：支持屏幕读取与内容摘要

苹果公司本周发布了新的开发者文档，旨在帮助开发者充分利用Siri和Apple Intelligence的功能，以查看和处理屏幕内容。这意味着，Siri将具备更深入的上下文理解能力，用户可以直接询问Siri关于当前浏览的网页或特定照片中对象的问题。

此外，Siri还将能够在用户请求时总结文档和电子邮件内容，并协助完成文本输入。这些功能的引入将显著提升Siri的实用性和交互体验。在最新的iOS 18.2开发者测试版中，Siri已开始支持与ChatGPT的集成，允许用户在获得许可的情况下，将PDF、文本文件或图像转发给ChatGPT进行处理。新的API表明，苹果希望进一步简化这一过程，使用户无需通过Siri转发文档即可直接提问。

据悉，这些新功能预计将在2025年随iOS 18.4更新正式推出。

5. 快手“可灵AI”发布iOS应用，支持生成视频与图片

快手公司近期在苹果App Store上线了独立的“可灵AI”应用，进一步拓展其在移动端的AI内容创作布局。目前，“可灵AI”已形成多平台产品矩阵，包括网页版、App、小程序以及海外版本。

“可灵AI”基于快手自主研发的“可灵大模型”和“可图大模型”，为用户提供视频与图片的生成和编辑功能。用户可通过应用内的“AI视频”和“AI图片”模块，浏览其他用户的AI创作，并进行自主创作。

生成内容需消耗灵感值，用户每天登录可免费获得一定数量的灵感值，用于视频和图片的生成。当灵感值耗尽后，用户可选择通过会员服务获取更多灵感值。成为会员后，用户还可享受高清画质、去除水印等特权，会员费为每月66元。

6. 谷歌推出AI视频编辑工具Google Vids

谷歌于11月7日宣布正式面向Google Workspace用户推出Google Vids应用。该应用集成了Gemini大模型，帮助用户创建幻灯片、编写视频脚本，并从Shutterstock获取素材，还可为视频制作分镜头脚本。

用户只需输入提示词，Gemini即可生成初步故事板。选择样式和风格后，Gemini将自动拼接视频草稿，包括推荐的场景、文本、脚本和背景音乐。此外，用户可从多种模板开始创作，添加动画、过渡和效果，使用无版权内容库，或直接从Google Drive和Google Photos导入媒体。

7. 英伟达与马斯克洽谈对xAI的潜在投资

据《纽约邮报》报道，芯片巨头英伟达正与埃隆·马斯克就其人工智能公司xAI的潜在投资进行谈判。xAI开发的大语言模型Grok已部署在社交媒体平台X上，尽管推出时间晚于OpenAI的ChatGPT，但其增长和发展速度不容小觑。

英伟达首席执行官黄仁勋对xAI表示支持。他在10月份的采访中提到，xAI团队仅用19天就建立了一个拥有10万个H200 Blackwell GPU的超级计算机集群。黄仁勋表示，这样的项目通常需要四年时间才能完成，称赞马斯克在工程、建设和资源调配方面的独特理解。

此前，《华尔街日报》报道称，xAI正与投资者商谈筹集数十亿美元，估值约为400亿美元。《The Information》也指出，xAI正讨论以约450亿美元的估值筹集50亿美元资金。

8. Perplexity AI正在进行5亿美元融资，估值即将突破90亿美元

Perplexity AI，作为一家AI搜索初创公司，近期正积极筹集5亿美元资金，预计融资完成后公司估值将达到90亿美元。本轮融资由Institutional Venture Partners（IVP）领投，IVP还计划派遣高层加入Perplexity的董事会。值得注意的是，今年1月，Perplexity的估值约为5.2亿美元，短短数月内估值增长了三倍，反映出其在市场中的快速发展和潜力。此外，Perplexity还获得了亚马逊创始人杰夫·贝索斯和芯片设计公司英伟达的投资支持。