大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
关于AI Weekly
马化腾谈及AI时说:“我们最开始以为这是互联网十年不遇的机会,但是越想越觉得这是几百年不遇的、类似发明电的工业革命一样的机遇,所以我们觉得非常重要。”
AI Weekly回来了!
“AI Weekly”是AI领域的前沿资讯周报,每周与你相约,精心筛选并总结过去一周内AI领域最重要、最具影响力的事件。这个专栏致力于打破信息壁垒,帮助你高效掌握最新动态,增强对AI技术及应用趋势的洞察力。
省流版摘要
-
Anthropic发布Claude 3.5 Haiku:2024年11月4日,Anthropic推出Claude 3.5 Haiku模型,其API支持多平台调用,但定价较其他AI模型更高,每百万tokens输入1美元,输出5美元。
-
昆仑万维升级天工AI搜索功能:天工AI提升了在金融、科研及文档分析方面的能力,支持深入的政策查询、财报对比和超长文本解析。
-
腾讯推出混元-Large模型:腾讯发布了拥有3890亿参数的混合专家模型混元-Large,现已在Hugging Face开源,性能与扩展能力大幅提升。
-
苹果Siri升级屏幕读取与内容摘要功能:苹果开发者文档显示,Siri新增屏幕内容读取和文档摘要,并将在未来支持直接与ChatGPT集成的功能。
-
快手“可灵AI”应用上线苹果App Store:快手推出“可灵AI”App,支持视频与图片生成,用户可通过灵感值创作作品,并享会员去水印特权。
-
谷歌发布Google Vids视频编辑工具:Google Vids面向Workspace用户推出,集成Gemini大模型,支持脚本生成、分镜头制作和视频拼接。
-
英伟达洽谈投资马斯克的xAI公司:英伟达正与xAI进行投资谈判,xAI已部署大语言模型Grok,增长迅速,吸引大量关注。
-
Perplexity AI进行5亿美元融资,估值达90亿美元:AI搜索公司Perplexity融资即将完成,由IVP领投,贝索斯和英伟达已参与投资。
1. Anthropic发布Claude 3.5 Haiku模型
2024年11月4日,Anthropic宣布推出Claude 3.5 Haiku
模型,开发者可通过官方API、Amazon Bedrock和Google Cloud的Vertex AI进行调用。该模型在多项AI基准测试中表现出色,超越了前代模型Claude 3 Opus
。
然而,Claude 3.5 Haiku
的定价引发了开发者的关注:每百万个输入tokens收费1美元,输出tokens收费5美元。相比之下,OpenAI的GPT-4o mini
模型每百万个输入tokens收费0.15美元,输出tokens收费0.6美元;谷歌的Gemini 1.5 Flash
模型在提示词小于12.8万个tokens时,每百万个输入tokens收费0.075美元,输出tokens收费0.3美元。因此,Claude 3.5 Haiku
的定价分别是GPT-4o mini
的6.7倍和8.3倍。
Anthropic表示,未来将为Claude 3.5 Haiku
增加图像输入功能。此外,开发者可通过提示词缓存节省最多90%的成本,或使用Message Batches API节省50%的成本。
2. 天工AI升级高级搜索功能,强化金融、科研和文档分析
昆仑万维于11月5日发布天工AI的高级搜索功能,重点提升了其在金融投资、科研学术及文档阅读分析方面的能力。新版天工AI不仅可以智能拆解复杂问题,并通过逐步推理与路径规划提供准确回答,还支持深入的金融政策查询、财报分析和公司对比,帮助用户快速获取关键数据。
在科研方面,天工AI构建了一个涵盖两亿多篇学术论文的数据库,支持用户溯源查看并分析论文内容。同时,新版天工AI在文档阅读上支持对超长文本的智能解析,提供多种形式的深度解读,帮助用户高效理解复杂资料。
3. 腾讯发布业界最大开源MoE模型“混元-Large”
腾讯近日发布了“混元-Large”大模型,这是目前基于Transformer架构的最大开源混合专家(MoE)模型,拥有3890亿总参数和520亿激活参数。混元-Large
提供多个版本,包括预训练模型、指令微调模型和FP8量化的指令微调模型,现已在Hugging Face平台上开源,并附有详细的技术报告与操作手册。
混元-Large
在技术上具有显著优势:采用高质量合成数据进行训练,能够更好地处理长文本输入,支持高达256K的文本序列,并具备KV缓存压缩、专家特定学习率缩放等创新功能,显著减少内存占用并提高推理吞吐量。在CommonsenseQA等多项基准测试中表现优异,展示了强大的泛化和实用能力。
4. 苹果Siri迎来重大升级:支持屏幕读取与内容摘要
苹果公司本周发布了新的开发者文档,旨在帮助开发者充分利用Siri和Apple Intelligence的功能,以查看和处理屏幕内容。这意味着,Siri将具备更深入的上下文理解能力,用户可以直接询问Siri关于当前浏览的网页或特定照片中对象的问题。
此外,Siri还将能够在用户请求时总结文档和电子邮件内容,并协助完成文本输入。这些功能的引入将显著提升Siri的实用性和交互体验。在最新的iOS 18.2开发者测试版中,Siri已开始支持与ChatGPT的集成,允许用户在获得许可的情况下,将PDF、文本文件或图像转发给ChatGPT进行处理。新的API表明,苹果希望进一步简化这一过程,使用户无需通过Siri转发文档即可直接提问。
据悉,这些新功能预计将在2025年随iOS 18.4更新正式推出。
5. 快手“可灵AI”发布iOS应用,支持生成视频与图片
快手公司近期在苹果App Store上线了独立的“可灵AI”应用,进一步拓展其在移动端的AI内容创作布局。目前,“可灵AI”已形成多平台产品矩阵,包括网页版、App、小程序以及海外版本。
“可灵AI”基于快手自主研发的“可灵大模型”和“可图大模型”,为用户提供视频与图片的生成和编辑功能。用户可通过应用内的“AI视频”和“AI图片”模块,浏览其他用户的AI创作,并进行自主创作。
生成内容需消耗灵感值,用户每天登录可免费获得一定数量的灵感值,用于视频和图片的生成。当灵感值耗尽后,用户可选择通过会员服务获取更多灵感值。成为会员后,用户还可享受高清画质、去除水印等特权,会员费为每月66元。
6. 谷歌推出AI视频编辑工具Google Vids
谷歌于11月7日宣布正式面向Google Workspace用户推出Google Vids应用。该应用集成了Gemini大模型,帮助用户创建幻灯片、编写视频脚本,并从Shutterstock获取素材,还可为视频制作分镜头脚本。
用户只需输入提示词,Gemini即可生成初步故事板。选择样式和风格后,Gemini将自动拼接视频草稿,包括推荐的场景、文本、脚本和背景音乐。此外,用户可从多种模板开始创作,添加动画、过渡和效果,使用无版权内容库,或直接从Google Drive和Google Photos导入媒体。
7. 英伟达与马斯克洽谈对xAI的潜在投资
据《纽约邮报》报道,芯片巨头英伟达正与埃隆·马斯克就其人工智能公司xAI的潜在投资进行谈判。xAI开发的大语言模型Grok已部署在社交媒体平台X上,尽管推出时间晚于OpenAI的ChatGPT,但其增长和发展速度不容小觑。
英伟达首席执行官黄仁勋对xAI表示支持。他在10月份的采访中提到,xAI团队仅用19天就建立了一个拥有10万个H200 Blackwell GPU的超级计算机集群。黄仁勋表示,这样的项目通常需要四年时间才能完成,称赞马斯克在工程、建设和资源调配方面的独特理解。
此前,《华尔街日报》报道称,xAI正与投资者商谈筹集数十亿美元,估值约为400亿美元。《The Information》也指出,xAI正讨论以约450亿美元的估值筹集50亿美元资金。
8. Perplexity AI正在进行5亿美元融资,估值即将突破90亿美元
Perplexity AI,作为一家AI搜索初创公司,近期正积极筹集5亿美元资金,预计融资完成后公司估值将达到90亿美元。 本轮融资由Institutional Venture Partners(IVP)领投,IVP还计划派遣高层加入Perplexity的董事会。 值得注意的是,今年1月,Perplexity的估值约为5.2亿美元,短短数月内估值增长了三倍,反映出其在市场中的快速发展和潜力。 此外,Perplexity还获得了亚马逊创始人杰夫·贝索斯和芯片设计公司英伟达的投资支持。
精选推荐
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。