AI大模型日报#0428：AI聊天半年涨粉1000万、元象发布多模态XVERSE-V、字节发布视觉ViTamin

导读：欢迎阅读《AI大模型日报》，内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。

AI大模型日报今日要点：今日，AI大模型领域动作频频，多家科技巨头和初创公司展示了其最新研发成果。快手平台上新晋千万粉丝网红“AI小快”揭示了大模型在社交媒体应用上的巨大潜力。同时，AI+智能网联车论坛即将在上海举办，聚焦大模型在智能网联汽车产业的应用前景。元象发布的多模态大模型XVERSE-V因卓越性能受到关注。此外，苹果加紧与OpenAI等合作，力争将生成式AI技术引入iPhone。字节跳动发布的视觉基础模型ViTamin在多项任务上实现最先进技术水平。清华大学团队发布的视频大模型“Vidu”也展示了国内AI视频生成领域的新突破。在机器人技术方面，大模型的引入被视为开启智能自动化黄金时代的关键。最后，商汤科技推出的日日新·商量大模型5.0升级版在国际上引起轰动，其强大能力预示着大模型发展的无限可能。

标题: 深度｜盘点 3 种 OpenAI 等硅谷 AI 大厂在研 Agent 类型
摘要: 科技巨头争相开发AI Agent技术，以改进当前版本的软件自动化功能。谷歌推出了不同版本的Chatbot，但执行任务时存在不准确和循环问题。微软则成立了新团队，为其Dynamics应用程序开发Agent功能，以主动建议多步骤行动。此外，微软研究人员正在探索构建更复杂的Agent，并努力防止其失控。初创公司如Magic和Cognition AI也因其Coding Agent获得关注。同时，AI模型的Grounding能力也在提升，可以自动验证另一个模型的输出是否有效。第一梯队的AI玩家，包括微软、OpenAI、谷歌和Meta，正在开发自己的Agent版本，覆盖计算机使用代理、多步骤应用代理和基于网络的任务代理等不同类型。AI技术的真正机会在于提升Agent的推理和计算能力，以完成更复杂的任务。
网址: 深度｜盘点 3 种 OpenAI 等硅谷 AI 大厂在研 Agent 类型|agent|openai|初创公司|微软|插件功能|谷歌_手机网易网

标题: 半年涨粉1000万，这个AI聊天搭子是怎么火的

摘要: 科技记者提炼：快手平台上新晋千万粉丝网红「AI小快」实际上是由快手自主研发的大语言模型「快意」和文生图大模型「可图」所驱动的AI互动小助手。该账号在视频评论区活跃，不仅能回答用户问题、提供情绪价值，还具备文生图、扩图等多模态理解能力，成为用户在社交媒体上的聊天搭子。其成功的背后展示了快手在大模型应用探索上的成果，尤其是在社交媒体这一天然场景中，推动了大模型向更高阶智能进化。此外，快手还在商业化、电商等B端场景发挥大模型的更多商业价值，并致力于研发视频生成技术，以降低创作者门槛，提升短视频制作质量和效率。
网址: 半年涨粉1000万，这个AI聊天搭子是怎么火的 | 机器之心

标题: 全日程发布｜AI 大模型如何赋能智能网联车技术创新与产业应用？

摘要: 科技记者报道要点： AI+智能网联车论坛将于5月11日在上海金桥举办，聚焦大模型在智能网联汽车产业的应用。大模型被视为推动汽车行业新质生产力形成的重要驱动力，论坛将探讨其对自动驾驶、智能座舱、车路城协同的作用及未来发展方向。行业顶尖专家和明星企业代表将出席，分享大模型赋能汽车产业的创新应用案例和前瞻性洞见。此外，该论坛是浦东新区大模型赋能产业系列活动之一，将陆续推出其他垂直领域专场论坛。报名参会渠道已开放，也可预约观看直播。机器之心将持续关注并报道相关信息。
网址: 全日程发布｜AI 大模型如何赋能智能网联车技术创新与产业应用？ | 机器之心

标题: 让大模型不再「巨无霸」，这是一份最新的大模型参数高效微调综述

摘要: 科技记者报道，机器之心AIxiv专栏近年来接收了2000多篇学术、技术内容，有效推动了学术交流。近期，大模型面临如何快速适配各类下游任务的挑战，参数高效微调（PEFT）技术因此受到关注。PEFT通过固定大部分预训练参数并微调少数参数，使大模型能迅速适配各种任务。一篇新的综述全面总结了PEFT技术的发展历程和最新研究进展，内容涵盖算法分类、高效设计、跨领域应用和系统设计挑战等方面。该综述对于相关行业从业者和初学者来说都是一个全面的学习指南。未来研究方向包括建立统一评测基准、增强训练效率、探索扩展定律、服务更多模型和任务、增强数据隐私以及研究PEFT与模型压缩的结合等。
网址: 让大模型不再「巨无霸」，这是一份最新的大模型参数高效微调综述 | 机器之心

标题: 元象首个多模态大模型XVERSE-V开源，刷新权威大模型榜单，支持任意宽高比输入

摘要: 元象发布了多模态大模型XVERSE-V，该模型在图像表示上采用融合整体和局部的策略，支持任意宽高比图像输入，并在多项权威评测中表现优异。该模型全开源且免费商用，可推动中小企业和开发者的创新。XVERSE-V适用于广泛领域，如全景图识别、卫星图像等，并在实际应用场景中如图表理解、视障场景、看图创作、教育解题等方面表现出色。此外，元象在开源和商业应用方面均有显著贡献，其大模型已与多个腾讯产品合作，为不同领域提供创新用户体验。
网址: 元象首个多模态大模型XVERSE-V开源，刷新权威大模型榜单，支持任意宽高比输入 | 机器之心

标题: 苹果OpenAI合作，力争今年生成式AI登陆iPhone

摘要: 科技巨头苹果在全球开发者大会前夕加紧布局AI领域，与OpenAI、谷歌等讨论合作，以加速将生成式AI技术应用于iPhone等操作系统。苹果同时发布自家AI模型OpenELM，并在中国市场与百度达成战略合作，提升AI功能体验。然而，苹果尚未最终决定合作伙伴，可能同时与多家公司达成协议。此举旨在加速进入聊天机器人领域，规避风险，并为新一代iPhone等设备带来更强大的AI功能。业内关注苹果如何平衡自家技术与外部合作，以及如何在竞争激烈的AI市场中保持领先地位。
网址: 苹果OpenAI合作，力争今年生成式AI登陆iPhone | 机器之心

标题: 字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024

摘要: 字节跳动发布了名为ViTamin的视觉基础模型，该模型专为视觉语言时代设计，并在多项任务上实现了最先进的技术水平（SOTA）。相比传统的ViT模型，ViTamin在ImageNet零样本准确率上提高了2.0%，同时在分类、检索、开放词汇检测和分割以及多模态大语言模型等60个不同基准上都表现优秀。其设计基于对数据可扩展性、模型可扩展性、特征分辨率和混合架构的深入研究。此外，当进一步扩展参数规模时，ViTamin-XL以仅436M的参数达到了82.9%的ImageNet零样本准确率，超过了拥有十倍参数的EVA-E。这项成果已入选计算机视觉顶会CVPR2024。该模型由字节跳动的智能创作团队开发，该团队覆盖了计算机视觉、音视频编辑、特效处理等技术领域，并通过火山引擎向企业开放技术能力和服务。
网址: 字节发布视觉基础模型ViTamin，多项任务实现SOTA，入选CVPR2024 | 量子位

标题: 清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律

摘要: 科技新闻快讯：国内AI视频生成领域迎来新突破，生数科技联合清华大学发布了名为「Vidu」的视频大模型。该模型支持一键生成长达16秒、分辨率达1080p的高清视频内容，效果接近国际先进水平。令人瞩目的是，「Vidu」不仅能在多镜头语言、时间和空间一致性等方面表现出色，还能虚构出真实世界不存在的超现实主义画面。团队在短短两个月内实现这一突破，得益于选对了技术路线和扎实的工程化基础。生数科技作为一家清华背景的创业公司，专注于图像、3D、视频等多模态大模型领域，已获得多家知名产业机构的认可和投资。
网址: 清华团队国产“Sora”火了！画面效果对标OpenAI，长度可达16秒，还能读懂物理规律 - 智源社区

标题: 颠覆传统：机器人与AI大模型的结合，开启智能自动化的黄金时代！

摘要: 科技记者报道，随着科技的飞速发展，机器人技术与大模型的结合已成为必然趋势，为机器人应用开辟了新的可能性。大模型能够处理海量数据，提供精准决策支持，与机器人的物理执行功能结合后，将极大地扩展机器人的应用范围，提升其自主性和适应性。在机器人领域，任务级交互是一个重要术语，指的是机器人从接收具体任务指令到完成具体动作的全过程中的自主操作。这种交互模式显著提高了机器人的操作效率和适用范围。然而，任务级交互的实现面临多种技术和实践挑战，如如何让机器人在没有人类详细指导的情况下理解并执行任务，以及如何确保机器人生成的任务动作在新环境中的安全性和适应性。大模型的引入为机器人技术带来了质的飞跃。大模型不仅提高了任务处理的效率和效果，还赋予了机器人强大的通识理解能力，使其能够在多个领域独立工作。通过在任务级交互中引入大模型，可以提升机器人处理复杂任务的能力，增强其对复杂指令和语境的理解，以及适应新环境和应对突发变化的能力。目前，该领域已取得了一定的研究进展，如SMART-LLM框架专为多机器人系统的任务规划而设计，利用大模型将人类给出的高层次任务指令转换成详细的多机器人执行计划。MLDT方法则通过多层次分解任务，简化了任务规划的复杂性，提高了开源大模型在任务规划中的性能。DELTA系统则利用大模型与环境数据结合的方式，通过场景图优化了机器人对环境的理解和任务规划的效率。然而，现有研究仍存在局限性，如大模型训练所需的高质量机器人交互数据难以获取，以及大模型在机器人领域的实际应用中可能出现的计算资源需求大、实时性差等问题。未来研究将致力于克服这些挑战，推动机器人技术在更多领域的广泛应用。
网址: 颠覆传统：机器人与AI大模型的结合，开启智能自动化的黄金时代！ - 智源社区

标题: 震撼！GPT-4 Turbo级国产大模型登场，周冠宇F1赛事数据秒分析惊呆国际大佬

摘要: 科技记者报道，近日，商汤科技推出的日日新·商量大模型5.0升级版震惊了国内外科技圈。该模型在基础能力上再次重大更新，将大模型能力升级到新的阶段。其中，办公小浣熊和文档大模型两个产品充分展现了其强大的能力。办公小浣熊可以处理复杂的表格和数据分析任务，甚至可以通过交互方式迭代逻辑，给出不一样的数据交互体验。而文档大模型在长文本处理场景下表现出色，可以准确地识别、分析和回答问题。此外，该模型还在各种测试中表现出色，包括车辆识别、弱智吧难题和地理谜语等。据商汤团队介绍，日日新5.0之所以如此强大，得益于模型架构和数据配方的持续优化。他们花费大量时间对语料质量进行优化，并搭建了完善的数据清洗链条。此外，商汤还合成了数千亿的思维链数据，成为该模型性能提升的关键。与GPT-4 Turbo相比，日日新5.0在大部分核心测试集指标上已经达到甚至超越了其水平。随着大模型发展的空间潜力不断释放，人们对于日日新6.0的诞生充满期待。
网址: 震撼！GPT-4 Turbo级国产大模型登场，周冠宇F1赛事数据秒分析惊呆国际大佬 - 智源社区