Talk｜OSU汪博石：Transformer模型能否进行隐式的推理？关于Grokking和泛化的深入探索

news2025/4/9 13:58:39

本期为TechBeat人工智能社区第609期线上Talk。

北京时间7月17日(周三)20:00，俄亥俄州立大学博士生—汪博石的Talk已经准时在TechBeat人工智能社区开播！

他与大家分享的主题是: “Transformer模型能否进行隐式的推理？关于Grokking和泛化的深入探索”，在本次Talk中，他系统性地研究Transformer是否可以获得隐式推理的能力。并通过一系列实验和对于模型内部的分析揭示了Grokking对于获得隐式推理能力的重要性，其背后的过程和原因，以及Transformer模型对于不同任务的系统性泛化能力的差异。

Talk·信息

▼

主题： Transformer模型能否进行隐式的推理？关于Grokking和泛化的深入探索

嘉宾：俄亥俄州立大学博士生汪博石

时间：北京时间 7月17日(周三)20:00

地点：TechBeat人工智能社区

点击下方链接，即可观看视频！

TechBeatTechBeat是荟聚全球华人AI精英的成长社区，每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。https://www.techbeat.net/talk-info?id=888

Talk·介绍

▼

现今的大语言模型虽然能力广而出众，但许多工作发现它们依旧很难基于参数知识做隐式推理。这项缺陷会导致他们内部的知识和规则的表示冗余而难以更新，同时限制它们的泛化能力。在这篇工作中，我们系统性地研究Transformer是否可以获得隐式推理的能力。我们的一系列实验和对于模型内部的分析揭示了Grokking对于获得隐式推理能力的重要性，其背后的过程和原因，以及Transformer模型对于不同任务的系统性泛化能力的差异。

Talk大纲

1. 背景 - Transformer语言模型的隐式推理能力的欠缺

2. 我们为什么要关注隐式推理和参数化知识？

3. 我们的研究方法与评估设计

4. Grokking现象与其背后原理的深入分析

5. 模型的内部电路（circuits）与系统性泛化

6. 参数知识对于复杂推理的重要性

7. 总结与展望

Talk·预习资料

▼

论文链接：

https://arxiv.org/abs/2405.15071

论文链接：

https://arxiv.org/abs/2309.02390

论文链接：

https://arxiv.org/abs/2201.02177

Talk·提问交流

▼

在Talk界面下的【交流区】参与互动！留下你的打call🤟和问题🙋，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

▼

汪博石

俄亥俄州立大学 · 博士生

汪博石是俄亥俄州立大学的三年级博士生，在Huan Sun教授的指导下进行研究。他的主要研究方向为评估、理解和提升语言模型的知识和推理能力。他曾经在自然语言处理和人工智能领域的顶级会议上发表多篇论文，其中在ACL-23发表的理解大模型的思维链能力（Chain-of-Thought）的工作曾获得最佳论文荣誉提名奖。他的近期研究兴趣主要集中在Transformer模型的隐式推理能力和其相关的影响。

个人主页:

https://www.techbeat.net/grzytrkj?id=40608

关于TechBeat人工智能社区

▼

TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>TechBeat，一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1933218.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！