RAG 工业落地方案框架(Qanything、RAGFlow、FastGPT、智谱RAG)细节比对!CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了

news2025/1/11 23:44:25

RAG 工业落地方案框架(Qanything、RAGFlow、FastGPT、智谱RAG)细节比对!CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了。

在这里插入图片描述

本文详细比较了四种 RAG 工业落地方案 ——Qanything、RAGFlow、FastGPT 和智谱 RAG,重点分析了它们在知识处理、召回模块、重排模块、大模型处理、Web 服务和切词处理等方面的具体实现。Qanything 在 rerank 模块设计上表现出色;RAGFlow 在文档处理方面优势明显;FastGPT 提供了高度动态配置的模块;智谱 RAG 则在领域数据上的模型微调上有着特殊的优势。每个方案都有其独特的技术细节和适用场景,强调了在实际应用中,选择合适的技术实现以及对细节的精细化处理对于项目的成功至关重要。

用强化学习解决现实问题:Stochasticity、Scale、GAE与Curriculum Learning
文章探讨了强化学习在现实问题解决中的应用,特别是如何处理随机性(Stochasticity)和规模(Scale)问题。作者通过实例说明了在手机操作系统中完成查资料和购物任务的 RL 模型,强调了显式建模随机性的重要性。为了应对数据需求,开发了多机分布式并行脚本以大规模收集数据。此外,文章提出了使用任务完成情况作为整体轨迹的奖励,而非单步奖励,以简化评估过程。
在模型选择上,作者使用了参数量为 1.5B 的小模型,并通过与 GPT-4 的比较展示了其性能优势。文章还提供了 base 模型选择的建议,即选择性能不差且大小适中的模型,以便于训练。算法方面,提出了 Filtered AWR 和 GAE 的简化版本,以及 Automatic Curriculum Learning 策略,这些都是为了更好地适应现实问题的复杂性。实验结果显示,所提出的方法在性能上超越了现有的 agent,如 GPT-4 和 Gemini,并在相同数据集上也表现出色。作者最终开源了代码和模型,邀请社区参与和验证这些研究成果。

在这里插入图片描述

Chameleon和Florence-2
Chameleon 模型采用前融合技术,通过单一 tokenizer 同时处理视觉和语言信息,实现端到端的多模态学习。它使用 VQGAN 进行图像编码,将图像转换为离散的 tokens,并与文本 tokens 一起输入到 Transformer 模型中。这种方法使得不同模态的特征能够在同一表征空间内被有效地关联,提高了模型学习的效率。
Florence-2 模型虽然采用后融合方式,但在多 CV 任务上展现了卓越的性能,能够处理包括 VQA、视觉地面化、OCR 等多种任务。它的模型规模较小,但通过多任务学习,取得了与大型模型相当的效果。Florence-2 的成功表明,多模态模型在处理复杂的计算机视觉任务时,不仅要关注前融合技术,还要优化模型结构和训练方法,以适应实际应用的需求。

在这里插入图片描述

Agent Attention:集成 Softmax 和 Linear 注意力机制
注意力机制 (Attention module) 是 Transformers 中的关键组成部分。虽然全局的注意力机制具有很高的表征能力,但其计算成本较大,限制了其在各种场景下的适用性。本文提出一种新的注意力范式 Agent Attention,目的在计算效率和表征能力之间取得良好的平衡。具体而言,Agent Attention 表示为四元组 (𝑄,𝐴,𝐾,𝑉) ,在传统的注意力模块中引入了一组额外的 Agent token 𝐴 。Agent token 首先充当 Query token 𝑄 的代理来聚合来自 𝐾 和 𝑉 的信息,然后将信息广播回 𝑄。鉴于 Agent token 的数量可以设计为远小于 Query token 的数量,代理注意力明显比 Softmax 注意力更有效,同时保留了全局上下文建模能力。
有趣的是,本文展示了 Agent attention 等效于 Linear attention 的广义形式。因此,代理注意力无缝集成了强大的 Softmax attention 和高效的 Linear attention。
作者通过大量实验表明,Agent attention 在各种视觉任务中证明了有效性,包括图像分类、目标检测、语义分割和图像生成。而且,代理注意力在高分辨率场景中表现出显着的性能,这得益于其线性注意力性质。例如,当应用于 Stable Diffusion 时,Agent attention 会加速生成并显着提高图像生成质量,且无需任何额外的训练。

在这里插入图片描述

昇腾AI原生创新算子挑战赛S1——算子优化详解
昇腾 AI 原生创新算子挑战赛 S1是一个旨在优化 AI 算子性能的竞赛。竞赛分为初赛和决赛两个阶段,通过对算子进行原生优化,提高其在昇腾处理器上的执行效率。初赛要求参赛者对指定算子进行优化,并通过评测系统评估性能。评测标准包括性能提升比例和最终性能排名。决赛则是邀请初赛中表现最佳的选手进行线下深度优化比赛。竞赛提供了算子优化的学习资源,包括基础知识、实践技巧和高级优化方法。重点强调技术细节,如算子内存访问优化、计算密集型操作简化、并行化处理等,以实现更高效的 AI 计算。此外,竞赛鼓励参赛者探索创新的优化策略,以期在未来的 AI 领域中实现更大的性能突破。

华泰 | 电子:AI大模型需要什么样的硬件?
AI 大模型技术的快速发展对硬件产品提出了新的要求。在技术细节上,AI 大模型需要更高的算力支持,这导致了 SoC 中 NPU 算力的提升和存储容量的扩展。例如,AI PC 的推出需要具备 NPU 提供的边缘算力能力,以及内置大模型的能力。在软件层面,AI 大模型的应用推动了系统架构和应用方面的匹配,如 AI 智能手机的智能体开发平台和专属智能体的提供。此外,AI 大模型在具身智能、自动驾驶和人形机器人等领域的应用,涉及到感知、决策和控制等多个环节的技术细节,这些细节包括但不限于大模型的多模态能力、运动控制算法的优化以及硬件级的安全芯片的使用。在云计算方面,AI 大模型的部署和服务化,如 MaaS 模式,也依赖于高效的算力和数据处理技术。

在这里插入图片描述

HuggingFace&Github

01
Maestro
Maestro是一个Python框架,可以利用Anthropic的AI模型(如Opus和Haiku)来协调和执行复杂的任务。它可以将目标任务分解为更小的可管理子任务,利用子模型独立执行这些子任务,然后将结果汇总优化为最终输出。这种AI辅助的任务分解和执行方法可以提高复杂目标的完成效率和质量。
https://github.com/Doriandarko/maestro

02
DiffSynth-Studio
DiffSynth-Studio是一个基于扩散模型的视频合成框架,提供了多种创新性功能,包括视频合成、去闪烁、卡通风格渲染等。它重构了文本编码器、UNet、VAE等核心架构,在保持与开源社区模型兼容的同时,也大幅提高了计算性能。
DiffSynth-Studio支持多种先进的扩散模型,如Stable Diffusion、ControlNet、Stable Video Diffusion等,并且还提出了ExVideo等新技术来增强视频生成的能力。

https://github.com/modelscope/DiffSynth-Studio


CVPR自动驾驶最in挑战赛赛道,全球冠军被算力选手夺走了

浪潮信息AI团队,在自动驾驶领域再夺一冠!

不久前,计算机视觉领域的顶级学术会议CVPR在全球目光注视中顺利落幕,并正式公布了最佳论文等奖项。除诞生了绝佳的10 篇论文之外,另一场备受关注的自动驾驶国际挑战赛也在同期结束了“巅峰厮杀”。

就在CVPR 2024自动驾驶国际挑战赛“Occupancy & Flow”赛道中,浪潮信息AI团队以48.9%的出色成绩,从全球90余支顶尖AI团队中脱颖而出,摘下桂冠。

这也是该团队在2022年、2023年登顶nuScenes 3D目标检测榜单后,面向Occupancy技术的又一次实力展示。

CVPR 2024自动驾驶国际挑战赛是国际计算机视觉与模式识别会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition)的一个重要组成部分,专注于自动驾驶领域的技术创新和应用研究。今年的CVPR自动驾驶国际挑战赛赛道设置也非常之有意思了,完整地包含了感知、预测、规划三大方向七个赛道。

此次浪潮信息AI团队所登顶的占据栅格和运动估计(Occupancy & Flow)赛道,也正是本届CVPR自动驾驶国际挑战赛最受关注的赛道,聚焦感知任务,吸引了全球17个国家和地区,90余支顶尖AI团队参与挑战。

比赛提供了基于nuScenes数据集的大规模占用栅格数据与评测标准, 要求参赛队伍利用相机图像信息对栅格化三维空间的占据情况(Occupancy)和运动(Flow)进行预测,以此来评估感知系统对高度动态及不规则驾驶场景的表示能力。

占据栅格 Occupancy:挑战更精细的环境感知与预测
道路布局的复杂性、交通工具的多样性以及行人流量的密集性,是当前城市道路交通的现状,也是自动驾驶领域面临的现实挑战。为了应对这一挑战,有效的障碍物识别和避障策略,以及对三维环境的感知和理解就变得至关重要。

传统的三维物体检测方法通常使用边界框来表示物体的位置和大小,但对于几何形状复杂的物体,这种方法往往无法准确描述其形状特征,同时也会忽略对背景元素的感知。因此,基于三维边界框的传统感知方法已经无法满足复杂道路环境下的精准感知和预测需求。

Occupancy Networks(占据栅格网络)作为一种全新的自动驾驶感知算法,通过获取立体的栅格占据信息,使系统能够在三维空间中确定物体的位置和形状,进而有效识别和处理那些未被明确标注或形状复杂的障碍物,如异形车、路上的石头、散落的纸箱等。

这种占据栅格网络使得自动驾驶系统能够更准确地理解周围的环境,不仅能识别物体,还能区分静态和动态物体。并以较高的分辨率和精度表示三维环境,对提升自动驾驶系统在复杂场景下的安全性、精度和可靠性至关重要。

浪潮信息AI团队创赛道最高成绩
在占据栅格和运动估计(Occupancy & Flow)赛道中,浪潮信息AI团队以48.9%的绝佳性能表现,创下本赛道最高成绩。

具体而言,团队所提交的“F-OCC”算法模型,凭借先进的模型结构设计、数据处理能力和算子优化能力,实现了该赛道最强模型性能,在RayIoU(基于投射光线的方式评估栅格的占用情况)及mAVE(平均速度误差)两个评测指标中均获得最高成绩。

更简洁高效的模型架构,实现运算效率与检测性能双突破
首先,模型整体选择基于前向投影的感知架构,并采用高效且性能良好的FlashInternImage模型。

同时,通过对整体流程进行超参调优、算子加速等优化,在占据栅格和运动估计均获得最高分的同时,提升了模型的运算效率,加快了模型迭代与推理速度。

在实际应用场景中,这种改进使得模型能够更快速、高效地处理大规模3D体素数据,使得自动驾驶车辆能更好地理解环境,进而提升决策的准确度和实时性。

更强大完善的数据处理,全面提升模型检测能力
在数据处理方面,比赛提供的体素(Voxel)标签包含了大量在图像中无法观测到的点,例如被物体遮挡的体素和物体内部不可见的体素,这些标签在训练过程中会对基于图像数据的预测网络训练产生干扰。

在训练数据中,浪潮信息AI团队通过模拟LiDAR光束的方法,生成可视化掩码,提升了模型的预测精度;另一方面,通过引入感知范围边缘的体素点参与训练,有效解决出现在感知边缘区域的误检问题,将模型的整体检测性能提升11%。

更精细的3D体素编码,模型占据预测能力提升超5%
在3D体素特征编码模块中,该算法团队将具有较大感知范围和编码能力的可形变卷积操作应用于3D体素数据,以提升3D特征的表示能力。

通过使用CUDA对可形变3D卷积(DCN3D)进行实现与优化,大幅提升了模型的运算速度,并有效降低了显存消耗。

通过DCN3D替代传统3D卷积,模型整体占据预测能力提升超5%。

此外,基于开源大模型,浪潮信息AI团队也通过优化图像encoder模型和特征融合对齐方式,并从CoT(Chain of Thought)、GoT(Graph of Thought)、Prompt工程等方面优化,提升了多模态模型对自动驾驶BEV图像的感知理解能力。最终以74.2%的成绩,摘得本届CVPR自动驾驶国际挑战赛 “大语言模型在自动驾驶中的应用”(LLM4AD)赛道的第五名。

2022年,浪潮信息AI团队摘得nuScenes竞赛的纯视觉3D目标检测任务(nuScenes Detection task)第一名,并一举将关键性指标NDS提高至62.4%。

2023年,这支团队再度夺冠,以77.6%的高分成绩再创3D目标检测全赛道最高成绩。

从BEV纯视觉到BEV多模态,再至如今凭借“F-OCC”算法模型再度登顶CVPR 2024自动驾驶国际挑战赛, 占据栅格和运动估计任务(Occupancy & Flow)榜首。浪潮信息AI团队逐步探索,一路绝杀,为探索更高级别的自动驾驶技术提供了有力的支撑和经验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1896196.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

2. 创建kvm虚拟机

创建kvm虚拟机 一、创建kvm虚拟机1、virt-manager 图形化工具2、virt-install 命令行工具3、查看虚拟机 一、创建kvm虚拟机 1、virt-manager 图形化工具 2、virt-install 命令行工具 [rootlocalhost ~]# virt-install --namevm02_centos79 \ > --graphics vnc,listen0.0.0…

AI产品经理能力模型的重点素质:人文素养和灵魂境界

在AI产品经理的能力模型中,我最想提的差异化关键点,就是“人文素养和灵魂境界”。 1 为什么“人文素养和灵魂境界”非常重要? 一、“人文素养和灵魂境界”如何影响AI产品设计? 例1:面对一个具体的AI场景&#xff0…

android deep links即scheme uri跳转以及googlePlay跳转配置

对于googlePlay的Custom URL就是googlePlay上APP网址: https://play.google.com/store/apps/details?idcom.yourapp如果是国内一些应用,则考虑market://包名等方式,自行百度。 对于Android URI Scheme: 首先需要在Manifest xm…

AR视频技术与EasyDSS流媒体视频管理平台:打造沉浸式视频体验

随着增强现实(AR)技术的飞速发展,其在各个领域的应用日益广泛。这项技术通过实时计算摄影机影像的位置及角度,将虚拟信息叠加到真实世界中,为用户带来超越现实的感官体验。AR视频技术不仅极大地丰富了我们的视觉体验&a…

Cortex-A510——内核及汇编

Cortex-A510——内核及汇编 小狼http://blog.csdn.net/xiaolangyangyang 1、异常等级 2、异常等级切换 同步异常: 1、SVC/HVC/SMC; 2、MMU引发的异常(内核态EL1发生,发生后不会进行异常等级切换…

边界无限陈佩文:红蓝对抗安全演练常态化的各方分析

虽然常态化演练尚未正式开始,但我们仍然希望对各方的表现进行一些分析和预测,以辅助我们对市场的判断和决策。同时,也希望通过这些初步的见解,抛砖引玉,引发更多有价值的讨论和观点。 “船停在码头是最安全的&#xf…

深度学习1

1.支持向量机Support Vector Machine(SVM)是一种对数据二分类的线性分类器,目的是寻找一个超平面对样本进行分割,广泛应用人像识别,手写数字识别,生物信息识别。 二维空间分割界是一条直线,在三…

骨传导耳机哪个牌子好?总结五款好用骨传导耳机推荐!

在健康意识日益增强的今天,运动健身已成为连接身心健康的桥梁,而音乐则是这座桥上最动人的风景。然而,对于热衷于运动的人们而言,传统耳机往往难以胜任,其稳定性与卫生性问题成为一大痛点。 正当此时,骨传…

【机器学习】连续字段的特征变换

介绍 除了离散变量的重编码外,有的时候我们也需要对连续变量进行转化,以提升模型表现或模型训练效率。在之前的内容中我们曾介绍了关于连续变量标准化和归一化的相关内容,对连续变量而言,标准化可以消除量纲影响并且加快梯度下降…

vue 中 使用腾讯地图 (动态引用腾讯地图及使用签名验证)

在设置定位的时候使用 腾讯地图 选择地址 在 mounted中引入腾讯地图: this.website.mapKey 为地图的 key // 异步加载腾讯地图APIconst script document.createElement(script);script.type text/javascript;script.src https://map.qq.com/api/js?v2.exp&…

Android的课程学习助手APP-计算机毕业设计源码19307

基于Android的课程学习助手APP 摘 要 在数字化、信息化的时代背景下,移动学习已成为现代教育发展的重要趋势。为了满足广大学生对高效、便捷学习方式的迫切需求,一款基于Android平台的课程学习助手APP应运而生。这款APP巧妙地将先进的信息技术与学习体验…

养老院生活管理系统

摘要 随着全球范围内人口老龄化趋势的日益加剧,养老院作为老年人生活的重要场所,其生活管理问题也显得愈发突出和重要。为了满足养老院在日常生活管理、老人健康监护、服务人员管理等多方面的需求,提高管理效率和服务质量。决定设计并实现了…

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞

模拟5亿年自然进化史,全新蛋白质大模型ESM3诞生!前Meta老将力作LeCun转赞。 能抗衡AlphaFold 3的生命科学大模型终于出现了。初创公司Evolutionary Scale AI发布了他们最新的98B参数蛋白质语言模型ESM3。不仅支持序列、结构、功能的all-to-all推理&#…

搞了个 WEB 串口终端,简单分享下

每次换电脑总要找各种串口终端软件,很烦。 有的软件要付费,有的软件要注册,很烦。 找到免费的,还得先下载下来,很烦。 开源的软件下载速度不稳定,很烦。 公司电脑有监控还得让 IT 同事来安装&#xff0…

基于FreeRTOS+STM32CubeMX+LCD1602+AD5621(SPI接口)的DAC控制输出Proteus仿真

一、仿真原理图: 二、运行效果: 三、STM32CubeMX配置: 1)、GPIO配置: 2)、freertos配置: 四、软件部分: 1)、main主函数: /* USER CODE BEGIN Header */ /** ****************************************************************************** * @file …

华为ENSP防火墙+路由器+交换机的常规配置

(防火墙区域DHCP基于接口DHCP中继服务器区域有线区域无线区域)配置 一、适用场景: 1、普通企业级网络无冗余网络环境,防火墙作为边界安全设备,分trust(内部网络信任区域)、untrust(外部网络非信…

算法思想总结:优先级队列

一、最后一块石头的重量 . - 力扣(LeetCode) 我们每次都要快速找到前两个最大的石头进行抵消,这个时候用优先级队列(建大堆),不断取堆顶元素是最好的!每次删除堆顶元素后,可以自动调整&#xf…

前端面试题10(js多位数组变一维数组)

1. 使用concat()和递归 function flatten(arr) {return arr.reduce((acc, val) > Array.isArray(val) ? acc.concat(flatten(val)) : acc.concat(val), []); }let multiDimArray [[1, 2, [3]], 4]; let flatArray flatten(multiDimArray); console.log(flatArray); // 输…

GTest和Catch2单元测试学习(附Cmake测试代码库)

kevin_CTest CTest 单元测试学习 Gitee库: https://gitee.com/bigearrabbit/kevin_ctest.git 示例多是从网页文章上摘取的,大部分记录在下面,或者源码内。供学习参考。 CTest 学习Catch2 框架 单个文档的测试架构,使用方便&am…