计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-10-02

1. APM: Large Language Model Agent-based Asset Pricing Models

Authors: Junyan Cheng, Peter Chin
https://arxiv.org/abs/2409.17266
APM: 基于大型语言模型的代理资产定价模型（LLM Agent-based Asset Pricing Models, AAPM）

摘要：

在本研究中，我们提出了一种新颖的资产定价方法，即基于大型语言模型（LLM）代理的资产定价模型（AAPM），它融合了LLM代理的定性自由裁量投资分析和定量手工金融经济因素，以预测资产的超额回报。实验结果显示，我们的方法在投资组合优化和资产定价误差方面，超过了基于机器学习的资产定价基线。具体来说，异常投资组合的夏普比率和平均绝对α系数分别显著提高了9.6%和10.8%。此外，我们对模型进行了广泛的消融研究，并深入分析了数据，以揭示所提方法的进一步洞见。

研究背景：

金融资产定价一直是实证金融经济学研究的焦点。当前的资产定价方法依赖于精心设计的宏观经济指标或公司特定因素作为未来超额回报的预测因子。然而，这些方法受到了有效市场假说（EMH）的挑战，该假说认为在有效市场中，当预测因子被市场参与者完全发现和使用时，这些手工因素最终将失去其预测能力。

问题与挑战：

尽管定量模型在现实市场中取得了巨大成功，但它们在解释资产回报异常方面仍存在挑战。此外，即使结合了当前的自然语言处理（NLP）和语义分析方法，定量因子模型也未能完全捕捉到定性分析中的洞察力。

如何解决：

本研究引入了一种新颖的资产定价方法，即LLM代理的资产定价模型（AAPM），它融合了由LLM代理模拟的自由裁量投资分析和基于定量因子的方法。AAPM利用LLM代理迭代分析最新新闻，并结合先前分析报告的记忆和包含书籍、百科全书和期刊的知识库。

创新点：

提出了一种新颖的LLM代理架构，用于分析商业新闻，以获取自由裁量投资洞察作为定价信号。
提出了一种混合资产定价框架，结合了定性自由裁量分析和定量手工因素。
进行了全面的实验，以评估所提出方法的有效性，并深入分析了各个组成部分。

算法模型：

AAPM模型使用LLM代理来迭代分析输入的新闻，并生成分析报告。这些定性分析报告与定量手工因素结合，输入到混合资产定价网络中。该网络使用平均平方误差（MSE）准则进行训练，以最小化预测回报和实际回报之间的平均平方差。
在这里插入图片描述

实验效果：

实验结果显示，AAPM在投资组合优化方面取得了最高夏普比率，并在资产定价误差方面实现了最低的平均绝对α系数。此外，该方法在统计显著性测试中也表现良好。

在这里插入图片描述

重要数据与结论：

夏普比率提高了9.6%。
资产定价误差的平均绝对α系数提高了10.8%。
在投资组合优化和资产定价误差方面超过了现有的基于机器学习的资产定价方法。

2. Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning

Authors: Debargha Ganguly, Srinivasan Iyengar, Vipin Chaudhary and Shivkumar Kalyanaraman
https://arxiv.org/abs/2409.17270
在这里插入图片描述
思维的证明：神经符号程序合成实现鲁棒和可解释的推理

摘要：

本研究介绍了“思维的证明”（PROOF OF THOUGHT，PoT），这是一个增强大型语言模型（LLMs）输出的可靠性和透明度的框架。PoT通过将LLM生成的想法与形式逻辑验证相结合，使用定制的解释器将LLM输出转换为一阶逻辑构造，供定理证明器检查。该方法的核心是一种基于JSON的领域特定语言（DSL），它通过设计在精确的逻辑结构和直观的人类概念之间取得了平衡。这种混合表示不仅使LLM的推理过程可以接受严格的验证，而且易于人类理解。主要贡献包括增强逻辑完整性的鲁棒类型系统、用于清晰区分事实和推理知识的显式规则表示，以及允许轻松扩展到各种特定领域应用的灵活架构。通过在StrategyQA和一个新的多模态推理任务上的基准测试，展示了PoT在开放式场景中的有效性。通过提供可验证和可解释的结果，该技术解决了AI系统责任性的关键需求，并为高风险领域的人工监督奠定了基础。

研究背景：

大型语言模型（LLMs）已经在人工智能领域引起革命，但它们在处理新颖领域和复杂逻辑序列时的推理能力仍然不一致。这种不一致性表现在跨域推理、否定理解和扩展逻辑链的变量性能上，表明它们依赖于表面的启发式方法。在高风险领域，这种错误或偏见可能带来严重后果，强调了对更可靠和可解释AI系统的迫切需求。

问题与挑战：

尽管LLMs在性能上取得了进展，但它们的推理机制仍然不透明，导致在现实世界使用中存在盲点，因为失败模式尚不清楚。根本问题在于LLM推理过程缺乏可解释性和保证的可验证性。

如何解决：

PoT框架通过将自然语言处理与形式逻辑推理相结合来解决这些挑战，提供了一个用于人工监督和验证的框架。

创新点：

提出了一种新颖的方法，利用LLM的上下文学习和代码生成能力，同时结合它们固有的知识。
引入了一个基于JSON的DSL和相关的解释器，它使用直观的、接近英语语言结构的抽象概念进行操作。
通过在StrategyQA和一个新的多模态长尾推理问题上的基准测试，展示了PoT在复杂和多样化任务上的有效性。

算法模型：

PoT框架包括三个主要组件：逻辑表示生成器、解释器和定理证明器。逻辑表示生成器将输入映射到逻辑表示，解释器解析这些表示并构造一阶逻辑表达式，最后定理证明器验证这些表达式的有效性。

实验效果：

在StrategyQA数据集上，PoT在1000个问题样本上进行了评估，成功编译和执行了82.4%的问题，显示出反馈机制在解决生成逻辑表示中的问题方面的有效性。
在多模态Reddit-OSHA基准测试中，PoT显著减少了编译错误，并提高了编译程序的胜率。

重要数据与结论：

PoT通过提供可验证和可解释的结果，解决了AI系统责任性的关键需求，并为高风险领域的人工监督奠定了基础。

3. Search for Efficient Large Language Models

Authors: Xuan Shen, Pu Zhao, Yifan Gong, Zhenglun Kong, Zheng Zhan, Yushu Wu,
Ming Lin, Chao Wu, Xue Lin, Yanzhi Wang
https://arxiv.org/abs/2409.17372

寻找高效的大型语言模型

摘要：

大型语言模型（LLMs）在人工智能研究领域长期占据主导地位。为了减少内存和加速推理，人们采用了多种高效技术，如权重剪枝、量化和蒸馏，来压缩LLMs，这些技术凸显了LLMs中的冗余性。然而，大多数模型压缩技术集中在权重优化上，忽视了最佳架构的探索。此外，传统的架构搜索方法由于复杂性高和参数众多，在LLMs上的应用受到限制。在本文中，我们提出了一个无需训练的架构搜索框架，以识别最优子网，这些子网在保持原始LLMs基本优势的同时实现推理加速。此外，生成继承原始LLMs特定权重的子网后，我们引入了一种利用少量校准数据修正继承权重的重构算法。与现有的无需训练的结构化剪枝工作相比，我们的方法在标准基准测试中显示出更优越的性能。此外，我们生成的子网可以直接减少GPU内存的使用，并实现推理加速。

研究背景：

LLMs因其在各个领域的卓越性能而闻名，但计算和存储成本限制了它们在多种设备上的部署。例如，GPT-3模型需要超过326GB的内存，超出了大多数GPU的内存能力。为了解决这些挑战，已经开发了各种压缩技术，包括权重剪枝、量化和知识蒸馏，表明LLMs中存在大量冗余。
在这里插入图片描述

问题与挑战：

除了优化模型权重外，提高模型架构是实现高效能和优越性能的另一个关键方向。尽管神经架构搜索（NAS）是为CNN和基于Transformer的模型识别高效架构的关键技术，但LLMs的架构搜索领域尚未被探索。

如何解决：

我们提出了一个无需训练的架构搜索框架，通过计算权重的重要性来发现LLMs内部的高效LLM架构。我们首先确定一个合适的初始架构，然后应用基于进化的算法全局搜索高效子网。
在这里插入图片描述

创新点：

提出了一个无需训练的搜索框架，通过重要性感知初始化显著减少搜索时间成本，并使用特殊的掩码突变和高效的候选评估进行进化架构搜索。
提出了一种重构算法，通过仅使用128个训练样本进行校准，从而提高子网的有效性。

算法模型：

我们的方法包括三个关键组件：搜索初始化、搜索流程和权重重构。首先，基于权重重要性构建初始有效架构，然后使用基于进化的搜索方法进行全面搜索，最后引入重构方法在不重新训练的情况下通过前向传递改进子网性能。
在这里插入图片描述

实验效果：

在多个数据集和不同LLM家族及模型大小的标准基准测试中，我们的方法在困惑度和零样本准确度方面均优于现有结构化剪枝基线。
例如，在WikiText2数据集上，与LLM-Pruner和SliceGPT相比，我们的方法在80%继承比率下分别将困惑度提高了4.15和1.65。
在不同继承比率下，我们的方法在减少GPU内存使用和加速推理方面表现出色。

重要数据与结论：

实验表明，我们提出的方法在多个数据集和不同LLM家族中均优于现有的结构化剪枝方法。此外，我们在GPU上实现了显著的内存减少和推理加速，证明了我们方法的效率。

4. Post-hoc Reward Calibration: A Case Study on Length Bias

Authors: Zeyu Huang, Zihan Qiu, Zili Wang, Edoardo M. Ponti, Ivan Titov
https://arxiv.org/abs/2409.17407

事后奖励校准：以长度偏差为例的研究

摘要：

本文介绍了一种新的框架——事后奖励校准（Post-hoc Reward Calibration, PoT），旨在增强大型语言模型（LLMs）的鲁棒性和可解释性。通过将人类反馈转化为训练信号来优化LLM行为的奖励模型（RM）可能会因为训练数据中的虚假相关性而产生偏差，例如基于长度或风格而非真实质量来偏好输出。这些偏差可能导致错误的输出排名、次优模型评估，并在LLMs的对齐过程中放大不良行为。本文提出了一种无需额外数据和训练即可校正这些偏差的方法。

研究背景：

人类反馈强化学习（RLHF）通过将人类偏好整合到训练循环中，使模型与期望的行为和价值观对齐。在这个过程中，奖励模型（RM）是关键组成部分，它将人类反馈转化为优化LLMs的信号。然而，RM可能会利用训练数据中的虚假相关性，导致偏差。

问题与挑战：

RM可能会因为训练数据中的虚假相关性而产生偏差，例如偏好更长的输出或特定风格，而不是基于输出的真实质量。这些偏差可能导致错误的输出排名和次优模型评估。

如何解决：

本文提出了事后奖励校准（PoT），这是一种无需额外数据和训练即可校正RM偏差的方法。通过估计偏差项并将其移除，从而近似真实的奖励。

创新点：

提出了一种直观的方法来估计偏差项，并据此校准奖励信号。
引入局部加权回归（Locally Weighted Regression, LWR）来更一般和鲁棒地估计偏差。
针对普遍存在的长度偏差进行了验证，并通过三个实验设置展示了一致的改进。

算法模型：

PoT框架首先使用LLM生成分析报告，然后通过自定义解释器将其转换为一阶逻辑构造，供定理证明器检查。核心是一种基于JSON的领域特定语言（DSL），平衡了精确的逻辑结构和直观的人类概念。

实验效果：

在RewardBench数据集上，33个奖励模型的平均性能提升了3.11。
在AlpacaEval基准测试中，与GPT-4评估和人类偏好的一致性得到了增强。
在多个LLM-RM组合中，RLHF过程的长度控制胜率得到了提高。

重要数据与结论：

实验结果表明，PoT方法在多个基准测试中取得了显著的性能提升，并且在不同的实验设置中显示出一致的改进。

推荐阅读指数：★★★★☆

5. MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

Authors: Gongfan Fang, Hongxu Yin, Saurav Muralidharan, Greg Heinrich, Jeff
Pool, Jan Kautz, Pavlo Molchanov, Xinchao Wang
https://arxiv.org/abs/2409.17481

MaskLLM: 面向大型语言模型的可学习半结构化稀疏性

摘要：

大型语言模型（LLMs）因其庞大的参数数量而著称，这通常导致显著的冗余。本文介绍了MaskLLM，这是一种可学习的剪枝方法，它在LLMs中建立了半结构化（或称为“N:M”）稀疏性，旨在减少推理过程中的计算开销。MaskLLM不是开发新的重要性标准，而是通过Gumbel Softmax采样，将N:M模式显式地建模为可学习分布。这种方法便于在大规模数据集上进行端到端训练，并提供两个显著优势：1）高质量的掩码 - 方法有效地扩展到大型数据集并学习准确的掩码；2）可转移性 - 掩码分布的概率建模使得稀疏性能够跨域或任务进行迁移学习。我们在各种LLMs上评估了MaskLLM，包括LLaMA-2、Nemotron-4和GPT-3，参数量从843M到15B不等，实验结果表明，与现有技术相比，我们的方法在标准基准测试中有显著改进。

研究背景：

大型语言模型（LLMs）在各个领域的人工智能研究中表现出色。然而，它们的计算和存储成本限制了LLMs在多种设备上的部署。为了解决这些挑战，已经开发了各种压缩技术，包括权重剪枝、量化和知识蒸馏。

问题与挑战：

尽管通过优化权重来压缩LLMs的方法取得了进展，但这些方法通常集中于权重优化，忽视了对最优架构的探索。此外，传统的架构搜索方法由于复杂性高和参数众多，在LLMs上的应用受到限制。

如何解决：

提出了一种无需训练的架构搜索框架，通过计算权重的重要性来发现LLMs内部的高效LLM架构。首先确定一个合适的初始架构，然后应用基于进化的算法全局搜索高效子网。

创新点：

提出了一种可学习方法，通过在大规模数据集上进行端到端训练来学习准确的掩码。
提出了一种掩码重构算法，通过仅使用少量的校准数据来修正继承的权重，从而提高子网的有效性。
引入了先验掩码的概念，允许通过迁移学习快速跨域或任务转移稀疏性。

算法模型：

MaskLLM框架包括三个关键组件：搜索初始化、搜索流程和权重重构。首先，基于权重重要性构建初始有效架构，然后使用基于进化的搜索方法进行全面搜索，最后引入重构方法在不重新训练的情况下通过前向传递改进子网性能。
在这里插入图片描述

算法伪代码:

实验效果：

在WikiText2数据集上，与现有技术相比，我们的方法在保持参数冻结的情况下，实现了显著更低的困惑度（PPL）。
在多个LLM家族和大小的模型上，我们的方法在多个基准测试中显示出优于现有技术的稀疏性压缩性能。

重要数据与结论：

实验结果表明，MaskLLM方法在多个基准测试中取得了显著的性能提升，并且在不同的实验设置中显示出一致的改进。

6. Human Mobility Modeling with Limited Information via Large Language Models

Authors: Yifan Liu, Xishun Liao, Haoxuan Ma, Brian Yueshuai He, Chris Stanford, and Jiaqi Ma
https://arxiv.org/abs/2409.17495

在这里插入图片描述
通过大型语言模型在有限信息的情况下对人类移动性进行建模

摘要：

理解人类移动模式在交通建模领域一直是一个复杂的挑战。传统的基于活动的模型和基于学习的人类移动建模算法受到数据集的可用性和质量的限制。此外，当前的研究主要集中在空间-时间旅行模式上，而缺乏对活动之间语义信息的理解，这对于模拟活动之间的相互依赖性至关重要。在本文中，我们提出了一个创新的大型语言模型（LLM）支持的人类移动建模框架。我们的方法显著减少了对详细人类移动统计数据的依赖，利用个体的基本社会人口统计信息来生成他们的日常移动模式。我们使用NHTS和SCAGABM数据集验证了我们的结果，证明了我们的框架在不同地理位置的有效建模和强大的适应性。