导读:AI大模型日报,爬虫+LLM自动生成,一文览尽每日AI大模型要点资讯!
目前采用“文心一言”(ERNIE-4.0-8K-latest)、“智谱AI”(glm-4-0520)生成了今日要点以及每条资讯的摘要。欢迎阅读!
《AI大模型日报》今日要点:今日AI大模型领域的资讯涵盖了多个方面的重要进展。在模型优化方面,通过使用Diffusers库的Quanto量化工具,成功提高了基于transformer模型的内存效率,使得高分辨率文生图技术在减少显存需求的同时,保持了出色的生成质量。另一项研究则强调了代码知识对于增强大型语言模型性能的重要性,通过包含代码数据集的预训练,显著提升模型在自然语言推理、世界知识任务以及代码生成方面的表现。 在语音识别领域,豆包大模型展现了强大的实力,其Seed-ASR技术提供了精准的语音识别功能,并支持多种语言、方言和口音,实际应用中展现出显著的泛化效果。同时,豆包版《Her》的升级发布,进一步提升了语音交互的自然性和便捷性。 此外,智能体系统的自动化设计领域也取得了重要突破,元智能体搜索算法被证实能够发明新颖且性能强大的智能体设计,尤其在阅读理解和数学任务上表现突出。 在模型架构方面,Mamba架构借助Transformer实现了性能突破,仅需极低的计算量便达到新的SOTA性能,展示了Transformer模型知识迁移的有效性。 最后,在生物学领域,GPT-4展现了对蛋白质结构的理解能力,高精度建模氨基酸和蛋白质结构,揭示了生成模型在生物学研究中的新潜力。这些进展共同推动了AI大模型在各个领域的广泛应用和深入研究。
标题: GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被「偷家」?
摘要: DeepMind的AlphaFold成为AI4Science领域的里程碑,但GPT-4在生物学领域的潜力可能被低估。GPT-4已显示出对蛋白质结构的理解能力,尽管不是为生物学任务开发,却能高精度建模氨基酸和蛋白质结构。研究表明,GPT-4在结构建模和药物相互作用分析方面展现出潜力,但其具体机制尚需进一步研究。这揭示了生成模型在生物学领域的新潜力。
网址: GPT-4无师自通预测蛋白质结构登Nature子刊!LLM全面进军生物学,AlphaFold被「偷家」?|多肽_新浪新闻
标题: 基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型
摘要: 近期,基于transformer模型的高分辨率文生图技术成为趋势,但这些模型对GPU显存需求巨大,限制了其应用。本文展示了如何使用Diffusers库的Quanto量化工具来提高这些模型的内存效率,几乎不影响生成质量。研究集中在PixArt-Sigma、Stable Diffusion 3和Aura Flow模型,通过量化可显著降低显存使用。
网址: 基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型 - 智源社区
标题: 大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏!
摘要: 近日,2024火山引擎AI创新巡展上海站展示了豆包大模型在语音识别等方面的提升,并发布对话式AI实时交互解决方案。豆包大模型团队成果Seed-ASR提供精准语音识别,支持多种语言、方言、口音。Seed-ASR已集成至豆包APP等,综合能力提升显著,月活用户数达2752万。该技术已在多个场景落地,展现强大泛化效果,未来对ASR技术发展具有推动作用。
网址: 大模型时代的ASR就是不一样!豆包“听力”水平现场评测,方言&小朋友口音直接拿捏! | 机器之心
标题: 明确了:文本数据中加点代码,训练出的大模型更强、更通用
摘要: 研究表明,代码知识对于大型语言模型(LLM)至关重要,能显著提升非代码任务性能。通过包含代码数据集的预训练,模型在自然语言推理、世界知识任务和代码生成方面表现出显著改进。代码质量和合成代码数据的使用对提升预训练性能尤为关键。此外,预训练冷却阶段加入代码数据可进一步改善任务性能。研究结果强调了代码作为泛化关键构建块的重要性。
网址: 明确了:文本数据中加点代码,训练出的大模型更强、更通用 | 机器之心
标题: 用AI自动设计智能体,数学提分25.9%,远超手工设计
摘要: 研究提出智能体系统的自动化设计(ADAS)领域,并展示了一种ADAS算法——元智能体搜索,证明其能发明新颖强大的智能体设计。实验表明,基于ADAS的智能体性能优于手工设计基线,提升显著,尤其在阅读理解和数学任务上。此外,这些智能体展现出良好的跨领域迁移能力,证实了ADAS在自动化智能体系统设计中的潜力。
网址: 用AI自动设计智能体,数学提分25.9%,远超手工设计 | 机器之心
标题: 豆包版《Her》升级上新!随时打断,交流自然,还是开箱即用的那种
摘要: 豆包版《Her》升级版发布,实现了随时打断、交流自然的功能。豆包大模型综合能力提升20.3%,语音能力也获得升级。火山引擎还推出对话式AI实时交互解决方案,简化语音到文本和文本到语音的转换过程。此外,火山引擎与多点DMALL成立零售大模型生态联盟,打造零售AI解决方案。
网址: 豆包版《Her》升级上新!随时打断,交流自然,还是开箱即用的那种 | 量子位
标题: 多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
摘要: Mamba架构借助Transformer实现突破,新模型仅需1%计算量便达到非Transformer架构的SOTA性能。研究团队提出MOHAWK蒸馏方法,有效将Transformer知识迁移至Mamba等架构,提升模型性能。此外,该方法也适用于其他非Transformer架构。该成果由Mamba主创之一Albert Gu领衔。
网址: 多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA | 量子位