GPT-4搞不定的图推理,港科大7B模型搞定

news2024/11/19 10:17:00

大模型执行图推理任务,我们是希望大模型仅仅给出结果,还是在给出准确答案的同时,输出详细的推理过程?

先来看GPT-4的表现:

给出了一个非常简短且错误的答案(判断该图中没有环),这可能是由于模型在处理长输入时的局限性,或者是对图的复杂结构理解错误所致。这显示了大型模型在适应图论问题时面临的挑战。

相比之下,港科大团队开发的GraphWiz不仅给出了正确的答案,还提供了一条清晰且详细的推理路径。

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

GraphWiz 的设计目的是提升目前开源的大型模型在解决各种图推理任务时的能力:

通过对大型模型进行针对性的微调,处理不同复杂度的图推理任务,并同时输出明确而连贯的推理路径。

对于人类来说,要在这样规模的图中检测环是极具挑战性的。通常,人类需要借助外部工具或花费大量时间来完成这一任务,因为仅仅依靠脑力计算是不切实际的。

这突显了GraphWiz在空间推理和记忆保持方面的能力。它表明,该模型已经有效地吸收了图论的基本原理,并能够自主地在大规模且复杂的图结构中进行导航和推理。GraphWiz在处理复杂图问题方面的能力,证明了其在实际应用中的巨大潜力。

总的来说,本篇文章的主要贡献如下:

  • 创建了GraphInstruct,一个大规模的数据集,用于训练语言模型处理图任务,并提供清晰推理路径,提高可解释性。
  • 推出了GraphWiz,一个开源的大型语言模型,擅长通过明确推理解决各种图问题,性能优于GPT-4。
  • 研究了训练数据量和DPO框架下采样策略等对模型性能的影响,并探索了GraphWiz跨任务迁移的能力,为后续模型优化和性能提升提供指导。

图推理任务介绍

在本研究中,团队精心挑选了九种不同计算复杂度层次的图问题,涵盖了研究的广度和深度,包括:

  • 四个线性复杂度任务:连通性和环检测、二分图检验、拓扑排序
  • 三个多项式复杂度任务:最短路径、最大三角形和、最大流;
  • 以及两个NP完全任务:哈密尔顿路径和子图匹配。

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

通过选择这九个图问题,团队的工作从简单到复杂、可解到难解的问题上进行了全面的图论探索。这种多样化的选择不仅有助于团队理论上理解图算法,而且还能解决广泛的实际应用问题。

GraphInstruct数据集构建

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

GraphInstruct的构建包括以下几个关键步骤:

图问题生成。 为了打造一个多样而具挑战性的图问题库以供模型训练与测试之用,团队通过编程辅助的方法,为每一种预设的任务生成随机图问题。团队为每一个任务设计了独特的模板,以捕捉图的特有属性,例如图是有向还是无向,边是否有权重等。随机图的生成团队采用了Erdős-Rényi(ER)模型。

显式推理路径生成。 GraphInstruct为每一个图问题对都配备了一条显式推理路径。考虑到手动标注这些图任务的推理路径既复杂又耗时,团队选择利用GPT-4来生成初步的推理路径。

数据增强与拒绝采样。 由于观察到GPT-4在许多图任务上的表现欠佳,比如在初始数据集中的最大流任务上自由不足100个样本是正确的,团队采用了拒绝采样策略来增广数据集,以包含更多样的推理路径。

挑选多样化的推理路径。 这个步骤需要在准确度和多样性之间找到平衡。为此,团队采用了一系列精细化策略,这些策略分为基于字符串和基于语义的方法,用以筛选出不同的生成推理路径。

GraphWiz训练

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

基于GraphInstruct,团队训练了GraphWiz,旨在优化当前大模型解决图问题并给出显式推理路径的能力。GraphWiz的训练方法是一个创新的两阶段过程:

混合任务指令调优(Mixed-Task Instruction Tuning):在第一阶段,团队专注于提升模型解释和解决各种图问题的能力。通过这种方法,GraphWiz学习处理包括理解问题、识别图的属性、应用图算法等在内的多个子任务。

直接偏好优化对齐(Direct Preference Optimization Alignment ):第二阶段,团队通过训练模型区分更有效与不太有效的问题解决路径来进一步锐化模型的推理能力。DPO对齐使模型能够识别和生成更理想的推理路径,从而提高解决问题的效率和准确性。

GraphWiz性能评测

团队对GraphWiz进行评估,旨在回答以下关键问题:

  • Q1: GraphWiz在不同复杂度的图问题上的表现如何,特别是与目前最强大的闭源模型GPT-4相比如何?
  • Q2: 训练数据量的变化对GraphWiz的性能有什么影响?
  • Q3: GraphWiz 对不同图问题的迁移能力如何?
  • Q4: 图中节点数量的变化会如何影响GraphWiz的性能?此外,它能有效处理的最复杂的图是多大的?
  • Q5: 超参数ß如何影响模型性能?

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

从上表中可以看出,团队的模型在各种开源模型上展示出了卓越的结果,显著超过了GPT-4的性能。这一点在从简单到困难类别的各种任务中都保持一致。DPO进一步提高了模型平均性能。然而,DPO可能对特定任务有不利影响。这表明,虽然DPO通常有助于改善模型推理,但可能需要进一步调整,以避免对某些问题类型产生负面影响。

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

根据上表,团队观察到随着训练语料库的增加,两个模型都有效果的提升,比如GraphWiz (Mistral-7B)的平均准确率从1:1比率的46.56%上升到1:5比率的53.75%。这表明更多的多样化推理路径通常有利于模型解决图推理问题的整体性能。

团队可以注意到在某些任务上,如三角形和汉密尔顿路径问题,准确性并没有显著提高,甚至随着数据量的增加而略有下降。例如,GraphWiz (Mistral-7B) 在三角和问题上在1:1比率下的准确性为47.00%,然后在1:5比率下降至38.75%。这可能表明了过拟合现象,即模型开始记住训练数据中的模式,这些模式并不适用于未见过的数据。

总之,虽然增加数据量和推理路径的多样性通常可以导致更好的模型性能,但在某些复杂任务中存在潜在的过拟合迹象,这强调了需要仔细设计模型训练,并对不同的图问题任务进行验证,以确保广泛的泛化能力。

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

为了探索GraphWiz在不同图任务中的迁移能力,团队建立了一个额外的模型变体:GraphWiz-High。这个模型仅在两个高复杂度(NP-完全)图任务上进行训练:汉密尔顿路径和子图匹配。为了研究其迁移能力,团队进行了两个比较实验:

高复杂度任务比较。 团队首先将GraphWiz-High与常规的GraphWiz在高复杂度任务上进行比较。上图(a)表明GraphWiz的表现更好,验证了混合任务训练的有效性。这个结果也表明模型能够将从其他任务学到的知识转移到特定的高复杂度任务上。

零样本迁移能力。 团队进一步测试GraphWiz-High在从未训练过的低和中复杂度任务上的零样本迁移能力。如上图 (b) 所示,GraphWiz-High与Mistral-Base相比有显著的性能提升。即使与ChatGPT相比,团队的模型也能保持相当的性能。考虑到ChatGPT和GraphWiz-High之间在参数数量上的巨大差异,这表明团队的模型具有值得称赞的跨任务泛化能力,展示了实际应用的重大潜力。

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

为了解答关于模型性能如何随着不同图大小变化的问题,以及确定模型能够有效解决的最大图大小,团队在上图展示了GraphWiz在表现最佳任务(a)环检测和最差任务(b)最短路径上的性能。

从图中,团队得出以下结论:

GraphWiz和GPT-4在图的大小增加时都表现出性能的下降。然而,团队的模型在大多数时候当图大小上一致时优于GPT-4,这表明了对图结构更强大的理解和处理能力。

团队观察到在最短路径上,随着节点数的增加,性能显著下降。这种下降很可能可以归因于两个主要因素:该任务要求高推理和记忆能力,因为更高时间复杂性,以及强大的计算技巧,这可能对模型的容量构成额外挑战。实际上,团队发现两种模型主要依赖枚举来得出解决方案。因此,随着图大小的增加,所需的枚举推理呈指数级增长,导致当节点数超过60后,准确率显著下降,之后几乎不再有准确性。

这些观察表明,尽管GraphWiz在处理与图相关的任务方面明显优于GPT-4,但存在一个复杂度的阈值——特别是在需要超出简单推理的计算的任务中——即使是最先进的模型的性能也开始显著下降。

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

最后,团队还探究了参数ß对模型效果的影响。团队观察到,较高的 ß似乎在一定程度上有利于困难任务的性能,但这并非严格的线性关系,并且在不同的模型大小之间也不一致。这表明,仔细调整 ß 对于在不同难度任务之间取得最佳平衡,提高模型的整体准确性是必要的。

更多样例

团队还展示了更多不同任务上GraphWiz的推理样例。

连通性任务:

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

汉密尔顿路径任务:

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

最短路径任务:

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

子图匹配任务:

GPT-4搞不定的图推理,港科大7B模型搞定|KDD2024

如何系统的去学习大模型LLM ?

作为一名热心肠的互联网老兵,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来

😝有需要的小伙伴,可以V扫描下方二维码免费领取🆓

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

在这里插入图片描述

四、AI大模型商业化落地方案

img

阶段1:AI大模型时代的基础理解

  • 目标:了解AI大模型的基本概念、发展历程和核心原理。
  • 内容
    • L1.1 人工智能简述与大模型起源
    • L1.2 大模型与通用人工智能
    • L1.3 GPT模型的发展历程
    • L1.4 模型工程
    • L1.4.1 知识大模型
    • L1.4.2 生产大模型
    • L1.4.3 模型工程方法论
    • L1.4.4 模型工程实践
    • L1.5 GPT应用案例

阶段2:AI大模型API应用开发工程

  • 目标:掌握AI大模型API的使用和开发,以及相关的编程技能。
  • 内容
    • L2.1 API接口
    • L2.1.1 OpenAI API接口
    • L2.1.2 Python接口接入
    • L2.1.3 BOT工具类框架
    • L2.1.4 代码示例
    • L2.2 Prompt框架
    • L2.2.1 什么是Prompt
    • L2.2.2 Prompt框架应用现状
    • L2.2.3 基于GPTAS的Prompt框架
    • L2.2.4 Prompt框架与Thought
    • L2.2.5 Prompt框架与提示词
    • L2.3 流水线工程
    • L2.3.1 流水线工程的概念
    • L2.3.2 流水线工程的优点
    • L2.3.3 流水线工程的应用
    • L2.4 总结与展望

阶段3:AI大模型应用架构实践

  • 目标:深入理解AI大模型的应用架构,并能够进行私有化部署。
  • 内容
    • L3.1 Agent模型框架
    • L3.1.1 Agent模型框架的设计理念
    • L3.1.2 Agent模型框架的核心组件
    • L3.1.3 Agent模型框架的实现细节
    • L3.2 MetaGPT
    • L3.2.1 MetaGPT的基本概念
    • L3.2.2 MetaGPT的工作原理
    • L3.2.3 MetaGPT的应用场景
    • L3.3 ChatGLM
    • L3.3.1 ChatGLM的特点
    • L3.3.2 ChatGLM的开发环境
    • L3.3.3 ChatGLM的使用示例
    • L3.4 LLAMA
    • L3.4.1 LLAMA的特点
    • L3.4.2 LLAMA的开发环境
    • L3.4.3 LLAMA的使用示例
    • L3.5 其他大模型介绍

阶段4:AI大模型私有化部署

  • 目标:掌握多种AI大模型的私有化部署,包括多模态和特定领域模型。
  • 内容
    • L4.1 模型私有化部署概述
    • L4.2 模型私有化部署的关键技术
    • L4.3 模型私有化部署的实施步骤
    • L4.4 模型私有化部署的应用场景

学习计划:

  • 阶段1:1-2个月,建立AI大模型的基础知识体系。
  • 阶段2:2-3个月,专注于API应用开发能力的提升。
  • 阶段3:3-4个月,深入实践AI大模型的应用架构和私有化部署。
  • 阶段4:4-5个月,专注于高级模型的应用和部署。
这份完整版的大模型 LLM 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

😝有需要的小伙伴,可以Vx扫描下方二维码免费领取🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1863667.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【扩散模型(二)】IP-Adapter 从条件分支的视角,快速理解相关的可控生成研究

系列文章目录 【扩散模型(一)】中介绍了 Stable Diffusion 可以被理解为重建分支(reconstruction branch)和条件分支(condition branch)本文将从该视角快速理解 IP-Adapter 以及相关可控生成研究。 文章目…

linux下OpenSSL升级到1.1以上版本

要将CentOS 7上的OpenSSL升级到1.1以上版本,您需要遵循以下步骤。请注意,这些步骤可能需要一些系统管理经验,因为您将从源代码编译和安装OpenSSL。 1. 更新系统软件包 首先,确保您的系统软件包是最新的。使用以下命令更新所有软…

智慧校园-毕业管理系统总体概述

在当今教育信息化的浪潮中,智慧校园毕业管理系统脱颖而出,它作为一项综合性的数字平台,全面覆盖了从毕业资格审查到学位授予的每一个关键步骤,旨在通过智能化手段,为高校的毕业管理工作带来革命性的变革。毕业管理系统…

下一代广域网技术2:SRv6

2.SRv6 SR架构设计之初,就为SR数据平面设计了两种实现方式:一种是SR-MPLS,其重用了MPLS数据平面,可以在现有IP/MPLS网络上增量部署;另一种是SRv6,使用IPv6数据平面,基于IPv6路由扩展头进行扩展…

第七届IAIC(成都)国际医美产业大会在蓉召开

四川省人民医院新丽美获“中国整形美容协会医疗救助与修复基金-成都市整形修复定点医院”“‘放心美 医无忧’全过程保障示范医院”两块授牌 2024年6月24日,第七届IAIC(成都)国际医美产业大会暨“医美之都”高峰会议省医院新丽美整形修复基地…

CesiumJS加载天地图数据后,可以实现什么效果?

说起地图,大家耳熟能详的百度地图、高德地图、腾讯地图等,由于授权的原因,使用起来心惊胆战的,而天地图就没有这方面的困扰,本文介绍下如何在cesium中时候用天地图数据,已经能够实现哪些交互效果。 一、关…

无限制数字(仅仅int类型)的大小的自然排序算法

直接上代码&#xff1a; #include <iostream> #include <vector> #include <string> #include <algorithm> #include <cctype>// Function to compare two strings in a natural way bool naturalCompare(const std::string& a, const std:…

录制视频怎么操作?手把手教会你!

在这个互联网科技高速发展的时代&#xff0c;录制视频已经成为了人们生活中一个不可或缺的技能。无论是记录游戏精彩瞬间、制作教程、分享生活趣事&#xff0c;还是进行在线教学&#xff0c;录制视频都是一种非常直观有效的方式。可是录制视频怎么操作呢&#xff1f;本文将介绍…

Vue组件生命周期深度剖析:从创建到销毁的八大钩子实战指南

系列文章目录 Vue核心指令解析&#xff1a;探索MVVM与数据操作之美 文章目录 系列文章目录前言一、Vue生命周期是什么&#xff1f;二、钩子函数讲解1. beforeCreate( 创建前 )2. created ( 创建后 &#xff09;3. beforeMount&#xff08;挂载前&#xff09;4. mounted&#xf…

第11章 规划过程组(制订项目管理计划)

第11章 规划过程组&#xff08;一&#xff09;11.1制订项目管理计划&#xff0c;在第三本版教材第368~372页&#xff1b; 文字图片音频方式 视频16 第一个知识点&#xff1a;主要输入 1、事业环境因素 政府或行业标准(如产品标准、质量标准、安全标准和工艺标准) 法律法规要求…

乐乐趣《牛津话科学 侃侃闪闪的科学大冒险》新书分享会圆满落幕

2024年6月21日&#xff0c;乐乐趣《牛津话科学 侃侃闪闪的科学大冒险》新书分享会在BIBF绘本展活动区举行。牛津大学出版社中国区首席内容官孙赫男、北京师范大学教育学部副教授张进宝、中国美协漫画艺术委员会秘书长王立军、荣信文化副总经理兼乐乐趣总编辑孙肇志围绕孩子的科…

【Python机器学习】聚类算法的对比与评估——在人脸数据集上比较算法

数据探查&#xff1a; 我们将k均值、DBSCAN和凝聚聚类算法应用于Wild数据集中的Labeled Faces&#xff0c;并查看它们是否找到了有趣的结构。我们将使用数据的特征脸表示&#xff0c;它由包含100个成分的PCA(whitenTrue)生成&#xff1a; peoplefetch_lfw_people(data_home &…

ChatGPT API技术教程OpenAI APIKey在线对接-Chat Completion对象

表示模型根据提供的输入返回的聊天完成响应。 {"id": "chatcmpl-123","object": "chat.completion","created": 1677652288,"model": "gpt-3.5-turbo-0125","system_fingerprint": "fp…

锂价跌至近3年最低,大型能源公司已出手抄底,巴菲特也在参与

长远来看&#xff0c;随着电动化进程的深入推进&#xff0c;锂的战略地位依然不可替代。但短期内&#xff0c;供需失衡和价格波动可能会持续&#xff0c;行业参与者需要调整策略以应对当前的挑战。 锂业&#xff0c;正经历自2021年以来最为严峻的调整期。作为电动汽车电池的关…

SpringBoot学习03-[Spring Boot与Web开发]

Spring Boot与Web开发 RestTemplateMockMvc在SPringBoot中使用 SpringBoot整合swagger2SpringBoot的springmvc自动配置底层原理包含ContentNegotiatingViewResolver和BeanNameViewResolverContentNegotiatingViewResolverBeanNameViewResolver 支持提供静态资源&#xff0c;包括…

Inner Transitions

Inner Transitions 内部转换是指不退出源状态的转换。当为具有异或分解的超状态定义时&#xff0c;内部转换是强大的。 使用内部转换可以极大地简化Stateflow图表&#xff0c;如以下示例所示&#xff1a; 使用内部转换之前 使用内部转换到连接结点之后 使用内部转换到历史节点…

【线上】如何解决积压消费?

我是小米,一个喜欢分享技术的29岁程序员。如果你喜欢我的文章,欢迎关注我的微信公众号“软件求生”,获取更多技术干货!​​​​​​​ Hello, 各位亲爱的读者朋友们!我是你们的小米,一个积极活泼的技术分享达人,今天我们要聊聊一个大家在分布式系统中经常遇到的棘手问题…

Maven私服批量上传pom和jar实操

Maven私服上传pom和jar实操-CSDN博客 Maven私服上传jar实操_maven fakepath-CSDN博客 之前写过两篇向maven私服上传jar的操作&#xff0c;看到阅读量还可以&#xff0c;觉得应该有很多人有这个需求&#xff0c;所以这次再放一个大招&#xff0c;通过批量的方式向私服传jar和p…

STM32F4 STD标准库串口接收例程

STM32F4 STD标准库串口接收中断空闲中断例程 &#x1f516;工程基于STM32F446 ✨用惯了STM32CubeMX傻瓜式配置&#xff0c;突然改用标准库写代码&#xff0c;初始化外设内容&#xff0c;总是丢三落四的。 本文将提供3种串口接收和发送模式&#xff1a;串口接收中断空闲中断、串…

PostgreSQL 用户及授权管理 06:启用 SSL 及验证

PostgreSQL 用户及授权管理 06&#xff1a;启用 SSL 及验证 安全在外企中是非常受重视的&#xff0c;一般外企都会要求所有可以使用加密的地方都使用加密。本小节我们启用 PostgreSQL 的 SSL 加密连接并进行抓包验证。 SSL 连接加密 安全套接字层 (SSL) 允许 PostgreSQL 接受…