计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27

news2024/9/30 18:41:31

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27

在这里插入图片描述


目录

文章目录

  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27
    • 目录
    • 1. VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning
  • VisScience: 评估 K12 教育多模态科学推理能力的一个广泛的基准
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 2. CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 3. Drift to Remember
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 4. OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 5. The use of GPT-4o and Other Large Language Models for the Improvement and Design of Self-Assessment Scales for Measurement of Interpersonal Communication Skills
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 6. Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 7. Will Large Language Models be a Panacea to Autonomous Driving?
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 8. Loop-Residual Neural Networks for Iterative Refinement
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:★★★★☆
    • 推荐理由
    • 9. LLMs are One-Shot URL Classifiers and Explainers
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 推荐阅读指数:
    • 推荐理由
    • 10. Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort
    • 摘要
    • 研究背景
    • 问题与挑战
    • 创新点
    • 算法模型
    • 实验效果
    • 重要数据与结论
    • 推荐阅读指数:
    • 推荐理由


1. VisScience: An Extensive Benchmark for Evaluating K12 Educational Multi-modal Scientific Reasoning

Authors: Zhihuan Jiang, Zhen Yang, Jinhao Chen, Zhengxiao Du, Weihan Wang, Bin Xu, Yuxiao Dong, Jie Tang
https://arxiv.org/abs/2409.13730

VisScience: 评估 K12 教育多模态科学推理能力的一个广泛的基准

在这里插入图片描述

摘要

多模态大型语言模型(MLLMs)通过整合文本和视觉信息,在多种任务中展现了有前景的能力,以实现复杂场景下的视觉理解。尽管已有多个基准旨在评估MLLMs在从视觉问题回答到复杂问题解决等任务的表现,但大多数主要集中在数学或一般视觉理解任务上。这揭示了当前基准的一个关键缺口,即常常忽略了物理和化学等其他关键科学学科的包含。为了解决这一差距,我们精心构建了一个全面的基准,名为VisScience,用于评估数学、物理和化学三个学科的多模态科学推理。此基准包括来自K12教育的3000个问题——从小学到高中——每个学科1000个问题,涵盖21个不同主题,并分为五个难度级别,为每个学科提供广泛的主题范围。利用VisScience,我们详细评估了25个代表性MLLMs在科学推理方面的表现。实验结果表明,封闭源MLLMs通常优于开源模型。最佳表现包括Claude3.5-Sonnet在数学上的53.4%准确率,GPT-4o在物理上的38.2%准确率,以及Gemini-1.5-Pro在化学上的47.0%准确率。这些结果强调了MLLMs的优势和局限性,为未来的改进提供了方向,并突出了开发能够有效处理多模态科学推理多样化需求的模型的重要性。

研究背景

近年来,大型语言模型(LLMs)在包括自然语言理解、文本生成和复杂问题解决在内的广泛任务中展现了卓越的能力。LLMs的成功促进了多模态大型语言模型(MLLMs)的发展,这些模型通过整合处理和分析文本和视觉信息的能力,扩展了这些能力。评估是评估这些MLLMs在各种任务中能力的一个重要组成部分,近年来得到了广泛的关注和快速发展。

问题与挑战

尽管在多模态推理任务中评估MLLMs的能力变得越来越重要,但现有的基准通常集中在数学上,忽略了物理和化学等其他关键科学学科。此外,现有的基准通常从有限的来源收集,导致缺乏自然难度级别,从而无法完整评估模型的能力。此外,当前的基准主要以单一语言提供,限制了对MLLMs多语言能力的评估。

创新点

  • 提出了一个全面的基准VisScience,用于评估数学、物理和化学三个学科的多模态科学推理。
  • 该基准包括来自K12教育的3000个问题,涵盖21个不同主题,并分为五个难度级别。
  • 对25个代表性MLLMs进行了详细评估,包括封闭源和开源模型。
    在这里插入图片描述

算法模型

  • 封闭源模型:Claude3.5-Sonnet, GPT-4o, Gemini-1.5-Pro等。
  • 开源模型:InternVL-1.2-Plus, InternVL-Chat-V1.5等。

实验效果

  • 数学:Claude3.5-Sonnet达到53.4%的准确率。
  • 物理:GPT-4o达到38.2%的准确率。
  • 化学:Gemini-1.5-Pro达到47.0%的准确率。
  • 开源模型通常低于封闭源模型,但InternVL-1.2-Plus表现出竞争力。
    在这里插入图片描述
    在这里插入图片描述

推荐阅读指数:

★★★★☆

推荐理由

  • 对于研究人员和开发人员来说,VisScience提供了一个全面的基准,用于评估和改进MLLMs在科学推理任务中的表现。
  • 该基准的多语言和多学科特性使其成为希望在这些领域工作的研究人员的宝贵资源。

2. CI-Bench: Benchmarking Contextual Integrity of AI Assistants on Synthetic Data

Authors: Zhao Cheng, Diane Wan, Matthew Abueg, Sahra Ghalebikesabi, Ren Yi, Eugene Bagdasarian, Borja Balle, Stefan Mellem, Shawn O’Banion
https://arxiv.org/abs/2409.13903

CI-Bench: 在合成数据上对AI助手的情境完整性进行基准测试
在这里插入图片描述

摘要

生成式AI的进步预示着一个新的个性化应用时代,这些应用代表用户执行多样化任务。尽管通用AI助手尚未完全出现,但它们潜在地共享个人数据的能力引发了重大的隐私挑战。本文介绍了CI-Bench,这是一个全面的合成基准,用于评估AI助手在模型推理期间保护个人信息的能力。利用情境完整性框架,我们的基准测试能够系统地评估跨重要情境维度的信息流,包括角色、信息类型和传输原则。我们提出了一个新的、可扩展的多步合成数据管道,用于生成自然通信,包括对话和电子邮件。与之前规模较小、范围较窄的评估工作不同,我们提出了一个新颖的、可扩展的多步数据管道,该管道合成地生成自然通信,包括对话和电子邮件,我们用它来生成涵盖八个领域的44,000个测试样本。此外,我们制定了并评估了一个简单的AI助手,以证明进一步研究和精心培训对个人助理任务的必要性。我们设想CI-Bench作为一个有价值的工具,用于指导未来的语言模型开发、部署、系统设计和数据集构建,最终有助于开发与用户隐私期望一致的AI助手。

研究背景

基于语言的模型的自主AI助手,由于最近在外部记忆、更大的上下文窗口、调用外部记忆或API等方面的进展,越来越能够利用用户数据。AI助手访问用户数据(无论是通过模型参数、上下文窗口内的输入,还是工具调用)使得各种个性化应用成为可能,如电子邮件撰写、表格填写、日历管理和会话参与。然而,这些应用也可能引入隐私风险,并无意中暴露用户信息。
在这里插入图片描述

问题与挑战

评估AI助手访问用户信息时的隐私风险,我们采用了情境完整性(CI)框架,该框架将隐私定义为根据特定相关情境的规范进行适当的信息流。现有的评估通常缺乏对AI助手在保护用户信息方面能力的系统性评估,特别是在多样化的领域和情境参数中。

创新点

  • 提出了一个全面的基准CI-Bench,用于细粒度地理解AI助手评估信息流适当性的能力。
  • 包括一个新的数据集,涵盖结构化信息流场景和非结构化任务场景,以及相应的上下文理解、规范识别和适当性判断任务。
  • 展示了一个可扩展的数据生成管道,利用真实世界的结构化数据来生成合成的、非结构化的对话数据。
    在这里插入图片描述

算法模型

  • AI助手原型:使用大型语言模型(如Gemini模型)进行原型设计。
  • 合成数据管道:多步骤合成数据生成过程,包括从公共领域的真实对话中提取关键特征,使用LLM合成生成现实任务场景。

实验效果

  • 上下文理解:模型在理解信息属性和用户意图方面表现良好,但在识别接收者方面表现不佳。
  • 规范识别:模型在识别相关规范方面存在挑战,尤其是在较小的模型中。
  • 适当性判断:模型在判断信息共享适当性方面存在困难,尤其是在没有明确规范的情况下。
  • 响应生成:模型在生成响应方面的能力有限,尤其是在需要综合多种技能的情况下。

推荐阅读指数:

★★★★☆

推荐理由

  • 对于对AI助手隐私保护能力感兴趣的研究人员,CI-Bench提供了一个全面的基准和评估框架。
  • 对于希望了解AI助手在处理敏感信息时的挑战和限制的开发者,本文提供了深入的分析和实验结果。
  • 对于关注AI伦理和隐私的学者,CI-Bench可以作为未来研究和讨论的基础。

3. Drift to Remember

Authors: Jin Du, Xinhe Zhang, Hao Shen, Xun Xian, Ganghua Wang, Jiawei Zhang, Yuhong Yang, Na Li, Jia Liu, Jie Ding
https://arxiv.org/abs/2409.13997
在这里插入图片描述
铭记漂移:在持续学习中通过表示漂移减轻灾难性遗忘

摘要

在人工智能(AI)中,持续学习的目标是模仿生物大脑持续学习和保留知识的能力,但面临灾难性遗忘等挑战。最近的神经科学研究表明,在生物系统中,即使输入和任务保持一致,神经活动也会随时间发生表示漂移。我们假设表示漂移可以减轻AI在获取新任务时的灾难性遗忘。为了验证这一点,我们介绍了DriftNet,这是一个设计用来在损失景观中不断探索各种局部最小值,同时动态检索相关任务的网络。这种方法确保了新信息的有效整合,并保留了现有知识。在图像分类和自然语言处理的实验研究表明,DriftNet在持续学习方面的表现超过了现有模型。重要的是,DriftNet可以扩展到处理如情感分析和问答等序列任务,并且能够在单个Nvidia A100 GPU上处理数十亿参数的大型语言模型(LLMs)。DriftNet使用新数据高效更新LLMs,避免了重新训练整个数据集的需要。在GPT-2和RoBERTa上测试表明,DriftNet是LLMs持续学习中的一个鲁棒且具有成本效益的解决方案。本研究不仅推进了AI系统模仿生物学习的能力,还为生物神经系统的适应性机制提供了见解,加深了我们对自然中持续学习的理解。

研究背景

生物大脑展现出了显著的持续学习能力,能够在一生中获取新能力的同时保留先前学习的信息。相比之下,在AI中,这种被称为持续学习的能力,即一个系统能够顺序地学习新任务而不遗忘以前的任务,仍然是一个巨大的挑战。主要问题是灾难性遗忘,即在学习新任务时,先前学习任务的性能显著下降。

问题与挑战

现有的持续学习方法主要包括正则化、重放和架构方法,但这些方法在学习新任务时面临着保持对先前任务性能的挑战。

创新点

  • 提出DriftNet,一个受生物系统表示漂移启发的持续学习框架。
  • 引入外部噪声,使网络在损失景观中不断探索新的局部最小值。
  • 利用知识库组织这些局部最小值,形成特定于任务的群体,即使在训练期间不需要明确知道任务身份。
  • 使用输出不确定性来检索学习任务的相关知识。
    在这里插入图片描述
    在这里插入图片描述

算法模型

DriftNet由两部分组成:一个用于探索的进化网络和一个用于编码和检索分组任务特定信息的知识库。DriftNet通过探索、编码和检索三个主要步骤进行操作。

实验效果

  • 在模拟数据上,DriftNet的平均测试损失为(1.01±0.07)×10^-2,显著低于稳定基线4.22±0.15。
  • 在图像分类任务中,DriftNet在CIFAR-10和CIFAR-100上的平均测试准确率分别为80.19±0.67%和41.83±0.75%,而稳定基线分别为19.18±0.02%和12.84±0.07%。
  • 在NLP任务中,DriftNet的平均测试准确率达到70.37±1.22%,显著优于稳定基线18.29±0.06%。

推荐阅读指数:

★★★★☆

推荐理由

  • 对于希望了解如何通过模仿生物学习机制来改善AI系统性能的工程师和研究者,DriftNet提供了一种有效的方法。
  • 对于关注AI在处理灾难性遗忘问题上最新进展的学者,本文的实验结果和分析具有重要价值。

4. OAEI-LLM: A Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching

Authors: Zhangcheng Qiang, Kerry Taylor, Weiqing Wang, Jing Jiang
https://arxiv.org/abs/2409.14038
在这里插入图片描述
OAEI-LLM:一个用于理解大型语言模型在本体匹配中幻觉现象的基准数据集

摘要

大型语言模型(LLMs)在特定领域的任务中常常出现幻觉现象,本体匹配(OM)也不例外。LLMs在OM任务中的应用日益广泛,这就需要基准数据集来更好地理解LLMs的幻觉现象。OAEI-LLM数据集是本体对齐评估倡议(OAEI)数据集的扩展版本,用于评估LLMs在OM任务中的特定幻觉。本文概述了数据集构建和模式扩展中使用的方法,并提供了潜在用例的示例。

研究背景

LLMs在自然语言生成(NLG)和问答(QA)方面展现出了令人难以置信的能力。在语义网社区,LLMs最近被用于本体匹配(OM)。尽管LLMs为OM提供了强大的背景知识库,但它们可能会生成一些错误的映射,并错过一些真正的映射,导致精确度或召回率降低。这种现象在最近的几篇论文中有所观察。

问题与挑战

LLMs在处理本体匹配任务时可能会产生幻觉现象,导致生成错误的映射或遗漏正确的映射。这种现象主要是由于LLMs在没有足够的背景知识或拥有有偏见的领域知识时倾向于生成合成答案。

创新点

  • 提出了OAEI-LLM数据集,用于测量LLMs在OM任务中的幻觉程度。
  • 将原始人类标记的结果与LLM生成的结果进行比较,分类不同LLMs产生的幻觉类型,并记录新的模式扩展信息。

算法模型

本文实现的基于LLM的OM系统生成了LLM-Alignment文件,该系统将源本体和目标本体作为输入,并生成一组预测映射。通过比较OAEI参考与LLM-Alignment来识别差异。

实验效果

本文没有提供具体的实验效果数据,而是侧重于介绍数据集的构建和潜在用途。
在这里插入图片描述

推荐阅读指数:

★★★☆☆

推荐理由

  • 对于研究LLMs在特定领域任务(如本体匹配)中的表现和挑战的研究人员和开发者,本文提供了有价值的见解。
  • 对于希望了解如何评估和改进LLMs在本体匹配任务中性能的专业人士,OAEI-LLM数据集可能非常有用。
  • 本文为LLMs在本体匹配任务中的幻觉现象提供了一个评估框架,有助于未来在这一领域的研究。

5. The use of GPT-4o and Other Large Language Models for the Improvement and Design of Self-Assessment Scales for Measurement of Interpersonal Communication Skills

Authors: Goran Buba\v{s}
https://arxiv.org/abs/2409.14050
在这里插入图片描述
GPT-4o和其他大型语言模型在提高和设计人际交流技能自我评估量表中的应用

摘要

本文探讨了如何使用GPT-4o和其他大型语言模型(LLMs)来改进和设计用于测量人际交流技能的自我评估量表。研究表明,这些模型在处理人类心理学和交流信息方面的能力为个性心理学和人际交流技能的科学应用提供了机会。

研究背景

随着大型语言模型(LLMs)在各种语言任务中的表现越来越接近甚至超过人类平均水平,它们在科学研究的多个阶段展现出了巨大的潜力。

问题与挑战

如何有效地利用LLMs处理关于人类心理学和交流的信息,以及如何将这些模型应用于个性心理学和人际交流技能的测量。

创新点

  • 提出使用LLMs来改进和设计自我评估量表。
  • 展示了LLMs在自动生成项目和评估内容有效性方面的潜力。

算法模型

  • GPT-4o
  • 其他大型语言模型,如Microsoft’s Copilot, Google’s Gemini 1.5 Pro, Antrophic’s Claude 3.5 Sonnet

实验效果

文中没有提供具体的实验数据和统计结果,但提到了LLMs在设计自我评估量表方面的潜在好处,并给出了使用LLMs进行评估、设计和改进人际交流技能自我评估量表的总结。
在这里插入图片描述

推荐阅读指数:

★★★☆☆

推荐理由

跨学科应用

6. Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction

Authors: Amrit Diggavi Seshadri
https://arxiv.org/abs/2409.14091

在这里插入图片描述
归一化窄跳跃至结论:针对参数高效提前退出的Transformer预测的归一化窄捷径

摘要

随着大型基于Transformer的语言模型尺寸和成本的增长,近期对早期Transformer隐藏表示直接映射到最终表示的捷径投射法,以实现更便宜的模型推理,引起了人们的兴趣。文章提出了Narrow Jump to Conclusions (NJTC) 和 Normalized Narrow Jump to Conclusions (N-NJTC),这是标准线性捷径的参数高效替代方案,将捷径参数数量减少了97%以上。研究表明,N-NJTC在早期阶段的准确性可靠地超过了Identity捷径,并为GPT-2-XL、Phi3-Mini和Llama2-7B等Transformer模型提供了从所有Transformer块级别稳定的精度。

研究背景

大型语言模型通过顺序堆叠由多头自注意力和前馈层组成的块来构建。这种堆叠提高了模型性能,但也增加了推理的计算成本。

问题与挑战

现有的Transformer模型在进行早期退出推理时,需要大量的参数,这导致了计算成本高昂。

创新点

  • 提出了NJTC和N-NJTC作为标准线性捷径的参数高效替代方案。
  • 展示了早期阶段的线性捷径可以通过低秩表示来近似,从而比JTC捷径减少超过97%的参数。

算法模型

  • Narrow Jump To Conclusions (NJTC): 使用两层简单的线性神经网络,通过矩阵A和B来近似高阶段的Transformer块输出。
  • Normalized Narrow Jump To Conclusions (N-NJTC): 在NJTC的基础上增加了批量归一化层,以避免对自然高方差Transformer维度的偏见。

实验效果

  • GPT-2-XL: 48个Transformer块,隐藏维度1600,总参数1.5亿。
  • Phi3-Mini: 32个Transformer块,隐藏维度3072,总参数3.8亿。
  • Llama2-7B: 32个Transformer块,隐藏维度4096,总参数7亿。

实验结果显示,N-NJTC在所有模型的早期阶段都能可靠地超过Identity捷径,并在所有Transformer块级别提供稳定的精度和惊讶度。
在这里插入图片描述

推荐阅读指数:

★★★★☆

推荐理由

  • 创新性:文章提出的NJTC和N-NJTC方法在大幅减少参数数量的同时,保持了模型预测的质量,对资源有限的环境具有重要意义。
  • 实用性:对于需要在参数效率和模型性能之间取得平衡的应用场景,该研究提供了有价值的参考。
  • 实验充分:在多个大型Transformer模型上进行了实验验证,结果具有说服力。

7. Will Large Language Models be a Panacea to Autonomous Driving?

Authors: Yuxuan Zhua, Shiyi Wang, Wenqing Zhong, Nianchen Shen, Yunqi Li, Siqi Wang, Zhiheng Li, Cathy Wu, Zhengbing He, Li Li
https://arxiv.org/abs/2409.14165
在这里插入图片描述

大型语言模型会是自动驾驶的灵丹妙药吗?

摘要

本文探讨了大型语言模型(LLMs)在自动驾驶(AD)中的应用,并分析了它们是否能够解决自动驾驶领域面临的挑战。目前自动驾驶技术主要有两种技术路径:模块化和端到端。模块化方法将驾驶任务分解为感知、预测、规划和控制等模块,而端到端方法则尝试通过单一模型直接从传感器数据映射到控制信号。文章分析了LLMs在优化这两种方法中的潜力,并讨论了LLMs在AD系统中可能遇到的局限性和挑战。

在这里插入图片描述

研究背景

自动驾驶是现代交通工具研究的关键领域,其发展深度依赖于人工智能(AI)的进步。随着AI技术的发展,自动驾驶的实现方式主要形成了模块化和端到端两种设计方法。

问题与挑战

自动驾驶系统在实际应用中面临诸多挑战,包括确保鲁棒性、可验证性、可解释性以及高效的人车交互。此外,无论是模块化还是端到端方法,都存在训练目标不一致、难以处理不可预测的长尾事件和复杂城市交通场景等问题。

创新点

文章提出了利用具有强大推理能力和广泛知识理解的LLMs来提升自动驾驶系统的可能性,并探讨了LLMs在解决现有自动驾驶解决方案中的问题和挑战方面的潜力。

算法模型

文章没有提出新的算法模型,而是对现有的自动驾驶技术和大型语言模型进行了全面的分析和讨论。

实验效果

文章通过案例研究和分析,展示了LLMs在自动驾驶任务中的潜在应用,包括在模块化和端到端方法中的应用。文章指出,尽管LLMs在参数数量大幅减少的情况下,仍能提供比传统方法更好的性能。

推荐阅读指数:

★★★★☆

推荐理由

  • 全面性:文章全面分析了LLMs在自动驾驶领域的潜在应用,涵盖了从感知、预测、规划到控制的各个模块。
  • 前瞻性:探讨了LLMs在自动驾驶领域的最新进展,对于理解未来自动驾驶技术的发展方向具有指导意义。
  • 实用性:讨论了LLMs在实际自动驾驶系统中的应用潜力,对于相关领域的研究者和工程师具有参考价值。

8. Loop-Residual Neural Networks for Iterative Refinement

Authors: Kei-Sing Ng, Qingchen Wang
https://arxiv.org/abs/2409.14199

用于迭代细化的循环残差神经网络

摘要

本文介绍了一种新型的循环残差神经网络(Loop-Residual Neural Network),该网络通过利用更长的计算时间来提高性能,而不增加模型大小。该方法通过循环遍历模型的子集并使用残差连接,多次回顾输入,从而细化预测。通过将GPT-2的版本与我们的循环残差模型进行比较的实验,展示了在保持类似参数数量的同时,在语言建模任务中提高了性能。重要的是,这些改进是在不需要额外训练数据的情况下实现的。

研究背景

大规模语言模型(如GPT)的成功归功于它们能够有效地预测序列中的下一个token。然而,这些模型在预测时不论所预测token的复杂性或歧义性如何,都依赖于恒定的计算量,缺乏迭代细化的能力。

问题与挑战

现有模型执行单次前向传播以预测下一个token,这限制了它们进行迭代细化的能力。特别是,它们依赖于恒定的计算量,而不考虑正在预测的token的复杂性或歧义性。

创新点

  • 新颖架构:引入了循环残差机制,在不增加参数数量的情况下增强了模型性能。
  • 效率:通过利用更长的推理时间,模型在不需要额外训练数据的情况下实现了更好的性能。
  • 可扩展性:该方法适用于大规模神经网络,并且在与GPT-2相当的模型上展示了有效性。

算法模型

循环残差模型引入了一种迭代机制,通过多次循环遍历transformer块,并使用残差连接来细化隐藏状态。该过程定义为:[x(n) = x(n-1) + f_\theta(x(n-1))],其中(x(n))是第n次迭代的隐藏状态,(x(0))是前一层或嵌入层的初始隐藏状态,(f_\theta)是由参数θ参数化的函数,包括循环遍历的transformer块预测残差。
在这里插入图片描述

实验效果

  • 实验一:Loop-Residual GPT2-81M模型在OpenWebText数据集上达到了3.11的验证损失,与GPT-2-124M模型的3.12损失相当。
  • 实验二:Loop-Residual GPT2-45M模型与Lite GPT-2-45M模型相比,验证损失从3.98降低到3.67,训练损失从3.96降低到3.65。

推荐阅读指数:★★★★☆

推荐理由

  • 创新性:提出了一种新颖的循环残差机制,通过迭代细化来提高模型性能,而无需增加参数数量。
  • 实用性:实验表明,该方法可以在不增加模型大小或额外数据的情况下,通过延长推理时间来提高性能。

9. LLMs are One-Shot URL Classifiers and Explainers

Authors: Fariza Rashid, Nishavi Ranaweera, Ben Doyle, Suranga Seneviratne
https://arxiv.org/abs/2409.14306
在这里插入图片描述

LLMs作为一次性URL分类器和解释器

摘要

本文探讨了如何使用大型语言模型(LLMs)来解决网络安全中恶意URL分类的问题。现有的基于机器学习和深度学习的方法通常因为缺乏代表性的训练数据集而面临泛化和领域适应问题。此外,这些模型无法用自然人类语言提供给定URL分类的解释。文章提出了一种基于LLM的一次性学习框架,使用链式推理(Chain-of-Thought, CoT)预测给定URL是良性还是网络钓鱼。实验表明,该框架与监督模型性能相近,且无需额外训练数据。

研究背景

网络安全领域中,电子邮件和短信等渠道的网络钓鱼攻击仍然是一个重大问题。现有的黑名单和白名单方法在大规模和动态环境中检测网络钓鱼攻击效果不佳。因此,提出了基于机器学习的方法来检测钓鱼URL。

问题与挑战

现有的URL分类模型在不同数据源上的测试性能显著下降,主要是由于高误报率,表明对良性URL指标的理解不足。此外,现有模型通常缺乏可解释性,这对于用户意识和培训至关重要。

创新点

  • 提出了一种基于LLM的框架,利用CoT推理进行URL分类和解释。
  • 评估了五种最先进的LLM在三个URL数据集上的性能,并与现有的监督URL分类器进行了比较。
  • 展示了一次性方法在预测性能方面与监督设置的相似性,并提供了自然语言解释,增强了用户对良性和网络钓鱼URL特征的认识。

算法模型

文章提出了一种基于LLM的一次性学习框架,该框架通过CoT推理来预测URL是良性还是网络钓鱼。模型通过迭代循环和残差连接来细化预测。

实验效果

在这里插入图片描述

实验结果显示,GPT-4 Turbo在所有评估的LLMs中表现最佳,平均F1分数为0.92,仅比完全监督设置低0.07。这表明该方法在不需要额外训练数据的情况下,能够与监督学习方法相媲美。

推荐阅读指数:

★★★★☆

推荐理由

  • 创新性:文章提出了一种结合了LLM和CoT推理的新方法,用于URL分类和解释,这是对现有技术的有益补充。
  • 实用性:实验结果表明,该方法在预测性能上与监督学习模型相当,同时提供了有助于用户理解的解释,这对于实际应用是非常有价值的。

10. Can Large Language Models Logically Predict Myocardial Infarction? Evaluation based on UK Biobank Cohort

Authors: Yuxing Zhi, Yuan Guo, Kai Yuan, Hesong Wang, Heng Xu, Haina Yao, Albert C Yang, Guangrui Huang, Yuping Duan
https://arxiv.org/abs/2409.14478
在这里插入图片描述

大型语言模型能否逻辑预测心肌梗塞?基于英国生物银行队列的评估

摘要

本研究旨在定量评估最先进的通用大型语言模型(如ChatGPT和GPT-4)是否能够通过逻辑推理预测心肌梗塞(MI)的风险,并将它们的表现与其他模型进行比较,以全面评估LLMs的性能。

研究背景

大型语言模型(LLMs)在临床决策支持中的应用取得了显著进展,但目前对于LLMs在提供基于现实世界医疗数据的准确临床决策方面的潜力和局限性,尚需高质量的证据。

问题与挑战

如何验证LLMs是否能够逻辑地提供准确的临床诊断,尤其是在处理心脏病发作风险预测这类临床决策支持任务时。

创新点

  • 使用来自英国生物银行数据库的数据,将风险因素的表格数据转换为标准化文本描述,用于ChatGPT识别。
  • 利用“思维链”(Chain of Thought, CoT)提问方法,评估LLMs是否进行逻辑推理预测。
  • 将ChatGPT和GPT-4的预测性能与传统机器学习模型和其他大型语言模型进行比较。

算法模型

  • ChatGPT:基于GPT-3.5的模型,以对话形式提供医疗健康问题的回答。
  • GPT-4:比ChatGPT更先进的模型,提供更精确、更具上下文相关性的回答。

实验效果

  • ChatGPT和GPT-4在预测心肌梗塞方面的性能表现不佳,AUC值分别为0.62和0.69。
  • 使用CoT方法并没有显著提高ChatGPT和GPT-4的性能。
  • 与传统机器学习模型相比,ChatGPT和GPT-4的性能较差,但与其他LLMs表现相似。

重要数据与结论

  • ChatGPT和GPT-4在预测心肌梗塞风险的任务中,性能未能满足临床应用的预期。
  • 尽管GPT-4在灵敏度上表现更好,但ChatGPT和GPT-4均未能展现出对医疗知识的深入理解和逻辑推理能力。

推荐阅读指数:

★★☆☆☆

推荐理由

  • 研究意义:探讨了LLMs在临床决策支持中的应用潜力,这是当前人工智能领域的一个热点问题。
  • 方法创新:采用了CoT方法来评估模型的逻辑推理能力,这是一种新颖的尝试。
  • 局限性:研究结果表明,目前的LLMs在处理复杂的临床决策任务时仍存在局限性,未能达到临床应用的标准。

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2180388.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android开发国家手机号归属地列表

Android开发国家手机号归属地列表 国家手机号归属地列表需求不多,但是还是有一些 一、思路: 本地的国家归属号json 二、效果图: 三、关键代码: // 联系:893151960 public class ChooseCountryActivity extends Ap…

golang 获取证书的生效及过期时间

测试样例 func TestGetCertVaildTime(t *testing.T) {certPEM, err : ioutil.ReadFile("aa.bbb.com.crt")if err ! nil {fmt.Println("读取证书文件出错:", err)return}// 解码PEM格式的证书block, _ : pem.Decode(certPEM)if block nil {fmt.Println(&q…

Deep Tone Mapping Operator for High DynamicRange Images

Abstract 计算快速的色调映射算子 (TMO) 可以快速适应各种高动态范围 (HDR) 内容,对于在电影屏幕或标准显示器等各种低动态范围 (LDR) 输出设备上进行可视化至关重要。 现有的 TMO 只能成功地对有限数量的 HDR 内容进行色调映射,并且需要进行广泛的参数…

Mac通过ssh连接工具远程登录服务器( Royal TSX安装及使用)

一、Royal TSX软件下载地址 Royal Apps 二、Royal TSX 汉化 汉化包地址:GitCode - 全球开发者的开源社区,开源代码托管平台 三、基础配置 Royal TSX 是一款基于插件的应用,刚安装时还不具备使用条件,需要进行一些基础配置 1 安装基础插件…

银行CRM系统的核心功能解析与应用价值

在当今竞争激烈的金融市场中,银行业务的成功与否,越来越依赖于高效而精准的客户关系管理系统(CRM)。Zoho CRM系统不仅帮助银行提升服务质量、增强客户满意度,还能有效地促进业务发展和风险控制。为了帮助读者更好地理解…

蓝鹏螺纹钢测径仪的三大测量要点 纵肋 横肋 基圆

关键字:螺纹钢测径仪,螺纹钢纵肋测量,螺纹钢横肋测量,纵肋间隙测量,横肋间隙测量,螺纹钢基圆测量, 螺纹钢测径仪在测量螺纹钢时,主要关注纵肋、横肋和基圆这三大要点。以下是针对这三个方面的详细测量要点: 一、纵肋的测量要点 纵肋是螺纹钢表面上的凹陷…

Ktor快速上手1 - 第一个服务端项目

Ktor 快速上手 第一个APP 工程创建 首先你需要创建一个Ktor工程,这里有两种办法创建: 网页创建后下载包到本地,作为工程打开:Ktor: Project Generator直接在IDEA里面创建Ktor工程 为了方便操作,这里直接在IDEA里面…

SpringAOP学习

面向切面编程&#xff0c;指导开发者如何组织程序结构 增强原始设计的功能 oop:面向对象编程 1.导入aop相关坐标&#xff0c;创建 <!--spring依赖--><dependencies><dependency><groupId>org.springframework</groupId><artifactId>spri…

数学建模研赛总结

目录 前言进度问题四分析问题五分析数模论文经验分享总结 前言 本文为博主数学建模比赛第五天的内容记录&#xff0c;希望所写的一些内容能够对大家有所帮助&#xff0c;不足之处欢迎大家批评指正&#x1f91d;&#x1f91d;&#x1f91d; 进度 今天已经是最后一天了&#xf…

MySQL 慢查询日志:洞察性能瓶颈的利器

在 MySQL 数据库的管理和优化中&#xff0c;慢查询日志是一个非常有用的工具。它可以帮助我们找出执行时间较长的查询语句&#xff0c;从而针对性地进行优化&#xff0c;提高数据库的性能。那么&#xff0c;什么是 MySQL 的慢查询日志呢&#xff1f;又该如何配置和使用它呢&…

广西容县霞烟鸡,品牌兴农,助力乡村振兴!

在两广与港澳地区,流传着一句深入人心的饮食谚语——“无鸡不成宴”,它不仅是一种习俗的体现,更是对餐桌礼仪与待客之道的深刻诠释。每逢家宴欢聚、祭祖庆典或盛宴宾客,一只精心烹制的鸡总是不可或缺的主角,其缺席往往被视为对宾客的不敬。在这片美食文化的沃土上,广西容县的霞…

spark-sql建表数据同步到hive

1、基础环境 组件版本备注hadoop3.4.0官方下载hive3.1.3自编译sparkspark-3.5.3-bin-hadoop3官方下载&#xff0c;需要内置hive的jar相关内容paimon0.9.0Maven官方下载jdk1.8.0_41maven3.9.6固定版本 2、停止服务、清理日志 先停止&#xff0c;清理数据 sudo kill -9 $(ps -ef…

kafka 换盘重平衡副本 操作流程

一、起因 kakfa某块数据盘损坏&#xff0c;且数据无法恢复&#xff0c;需清空换新盘 二、梳理操作流程 查看topic信息 sh ./kafka-topics --bootstrap-server ***:9092 --list --exclude-internal 查看某个topic数据分布情况 sh ./kafka-topics --bootstrap-server ***:…

vscode+stfp插件,实现远程自动同步文件代码

概述 远程同步代码&#xff0c;将本地代码实时保存到同一局域网内的另一台电脑&#xff08;linux系统&#xff09;&#xff0c;这里的本地代码也可以是远程服务上的代码&#xff0c;即从一个远程ip同步到另一台远程ip服务器。 工具 vscode&#xff0c;SFTP插件 安装 vscod…

优可测白光干涉仪:激光陀螺仪提升良率与精度的关键

在当今科技日新月异的时代&#xff0c;高精度导航与定位技术已成为航空航天、军事防御、海洋勘探、自动驾驶乃至日常生活中不可或缺的一部分。而在这背后&#xff0c;激光陀螺仪作为核心元件之一&#xff0c;以其卓越的稳定性和极高的精度&#xff0c;正引领着导航技术的新一轮…

Java设计模式概述

设计模式&#xff08;Design pattern&#xff09;代表了最佳的实践&#xff0c;通常被有经验的面向对象的软件开发人员所采用。设计模式是软件开发人员在软件开发过程中面临的一般问题的解决方案。这些解决方案是众多软件开发人员经过相当长的一段时间的试验和错误总结出来的。…

python 自定义多线程的传参方式是什么

在 Python 中&#xff0c;threading 模块提供了多线程编程的支持&#xff0c;允许我们通过创建线程类的方式来实现并发操作。当我们自定义线程类时&#xff0c;可以通过修改类的构造方法和运行逻辑来传递和处理参数。 以下面这个实际的代码片段为例来说明&#xff1a; import…

BootROM清除密码

目录 一、组网需求 二、操作步骤 1. console连接设备 2.重启设备 3. 进入BootROM菜单 a. 选择第4项&#xff0c;进入Startup Select菜单 查看系统使用的配置信息 重命名系统使用的配置文件 启动设备 停止Auto-Config 将重命名的配置文件改为可执行文件 恢复配置 重…

迈巴赫 S480 的奢华升级之旅头等舱行政独立 4 座

《迈巴赫 S480 的奢华升级之旅&#xff1a;头等舱行政独立 4 座》 迈巴赫 S480&#xff0c;作为豪华轿车的典范&#xff0c;一直以来都以其卓越的品质和尊贵的体验而备受推崇。而对于那些追求极致奢华与舒适的车主来说&#xff0c;将其升级为头等舱行政独立 4 座的配置&#x…

使用WebClient 快速发起请求(不使用WebClientUtils工具类)

使用WebClient发起网络请求_webclient工具类-CSDN博客文章浏览阅读717次&#xff0c;点赞9次&#xff0c;收藏8次。使用WebClient发起网络请求_webclient工具类https://blog.csdn.net/qq_43544074/article/details/137044825这个是使用工具类发起的&#xff0c;下面就不使用工具…