- B站:啥都会一点的研究生
- 公众号:啥都会一点的研究生
AI圈又发生了啥新鲜事?
国星宇航实现全球首次卫星在轨AI大模型技术验证
国星宇航成功完成了全球首次卫星在轨运行AI大模型技术验证,验证了AI大模型在太空中的空间适应性和算力载荷的有效性。从9月25日至10月5日,卫星共执行了13次AI大模型在轨运行试验,覆盖了不同温度工况和多种推理问答类型,所有任务均成功完成。这一成就标志着国星宇航在推动“太空AI”发展方面迈出了重要一步,为未来的“星算计划”组网和“地数天算”技术积累奠定了基础
http://www.itbear.com.cn/html/2024-10/531238.html
PyTorch 发布 torchao 优化库,AI 模型效率显著提升
PyTorch 推出 torchao 架构优化库,专注于模型量化和稀疏性优化,旨在降低计算成本和内存用量,同时保持性能。torchao 支持 float8、int4 等低精度数据类型,提升模型运行效率。例如,在 LLaMA 3 70B 模型预训练中,使用 float8 训练流程可提升计算速度 1.5 倍。此外,torchao 还提供多种量化方法和稀疏性优化,如将 LLaMA 3.1 8B 模型在 128K 上下文长度下显存占用降至 18.9GB
https://www.ithome.com/0/799/879.htm
OpenAI 发布 ChatGPT Canvas:写作与编码的新工具
OpenAI 推出 集成了写作与编码功能的全新工具 ChatGPT Canvas。Canvas 利用 GPT-4o 技术,允许用户在写作和编码时获得实时反馈和建议。它支持调整文章长度、阅读级别,以及代码审查和错误修复等功能。目前,Canvas 向 ChatGPT Plus 和 Team 用户开放,并将在未来几周内对 Enterprise 和 Edu 用户开放,测试结束后计划向所有用户免费提供
https://openai.com/index/introducing-canvas/
OpenAI 发布 Whisper 语音转录 AI 模型升级版,速度提升 8 倍
OpenAI 近日推出了 Whisper large-v3-turbo 语音转录模型,该模型在几乎不牺牲质量的前提下,速度比前代 large-v3 快 8 倍。尽管只有 4 层解码器层,但参数数量达到 8.09 亿,比 medium 模型略大,且所需 VRAM 仅为 6GB。此外,该模型大小为 1.6GB,继续遵循 MIT 许可证开放代码和模型权重
https://github.com/openai/whisper/discussions/2363
Liquid AI 发布非 Transformer 架构模型,性能超越 Meta Llama 和微软 Phi
Liquid AI 公司推出了三款非 Transformer 架构的 AI 模型,包括 LFM-1.3B、LFM-3.1B 和 LFM-40.3B,它们在基准测试中表现出色,超越了同规模的 Transformer 模型。这些模型不仅 RAM 用量更少,还能处理更长的序列,适用于多种数据类型,包括视频、音频、文本等。LFM-1.3B 在多个基准测试中击败了包括苹果的 OpenELM、Meta 的 Llama 3.2、微软的 Phi 1.5 等模型,而 LFM-3.1B 甚至在特定场景超越了更大规模的模型
https://www.liquid.ai/
Meta推出AI视频生成器Movie Gen:自动生成含声音的高清视频
Meta公司宣布推出AI视频生成器Movie Gen,该工具能够根据文本输入自动生成带有声音的高清视频。Movie Gen不仅能生成新视频,还能编辑现有视频或静止图像,添加与视频匹配的AI生成音频。尽管技术尚未成熟,Meta表示目前还未准备作为产品发布
https://ai.meta.com/research/movie-gen/
德国初创公司推出Flux 1.1 Pro:AI图像生成速度提升6倍,Elo评分1153分
德国初创公司Black Forest Labs发布最新AI图像生成模型Flux 1.1 Pro,代号“blueberry”,在图像生成速度上是Flux 1 Pro的6倍,同时提供更高质量和更合规的图像输出。Flux 1.1 Pro在视觉逼真度和提示准确性方面表现优异,Elo评分达到1153分,超越了Midjourney 6.1等竞争对手。此外,公司还推出了BFL API,支持开发者将Flux模型集成到应用程序中
https://www.ithome.com/0/800/136.htm
Mozilla 发布 Lumigator 框架,助力开发者选择 AI 模型
Mozilla 推出了 Lumigator,一个旨在帮助开发者挑选合适的 AI 大语言模型的新框架。该框架强调透明和高效的模型选择过程,对开发者友好,并采用开源方法以促进社区协作。Lumigator 的目标是简化大型语言模型的选择,支持伦理和透明的人工智能开发
https://www.mozilla.ai/lumigator
谷歌 Lens 开启 AI 新篇章:支持视频搜索和语音输入
Google Lens服务新增视频搜索和语音输入功能,使得年轻用户(18-24岁)使用频率最高的图像识别技术更加便捷。用户现在可以通过录制视频提问,Lens将结合视频内容生成AI概述提供信息。此外,每月全球视觉搜索次数逼近200亿次,显示了其广泛的应用和受欢迎程度
https://lens.google/
快手可灵AI推出“对口型”功能,开放API服务
快手旗下的可灵AI新增了一项“对口型”功能,允许用户上传音频后,视频中的人物口型与音频同步。这项功能目前支持所有人物类角色,包括真实、3D和2D角色,但动物角色暂不支持。此外,可灵AI正式向所有用户开放API服务,用户可以在平台上自助购买API资源包,享受与平台效果一致的服务
https://www.ithome.com/0/800/024.htm
Grindr将推出AI助手,为1400万用户提供智能约会服务
约会平台Grindr计划于2027年推出AI助手,旨在为1400万用户提供寻找合适伴侣和约会地点建议等服务。该AI助手将能进行用户间对话,以深入了解彼此,提前发现潜在问题。目前,该功能正在小规模测试中,预计年底扩大至1000人,明年增至1万人
http://www.itbear.com.cn/html/2024-10/530645.html