计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-24

news2024/9/25 6:11:59

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-24

1. Enriching Datasets with Demographics through Large Language Models: What’s in a Name?

K AlNuaimi, G Marti, M Ravaut, A AlKetbi, A Henschel… - arXiv preprint arXiv …, 2024

通过大型语言模型丰富数据集的人口统计学信息:名字里有什么?

摘要
本文探讨了如何利用大型语言模型(LLMs)从名字中预测性别、种族、年龄等人口统计信息,这对于医疗保健、公共政策和社会科学等领域至关重要。尽管以往的研究采用了隐马尔可夫模型和循环神经网络来预测名字中的人口统计信息,但存在显著的局限性,包括缺乏大规模、良好策划、无偏见、公开可用的数据集,以及缺乏跨数据集稳健的方法。本文展示了大型语言模型的零样本能力,其表现与专门训练的模型一样好,甚至更好。作者将这些LLMs应用于多个数据集,包括香港金融专业人士的真实未标记数据集,并批判性地评估了这些模型中固有的人口统计偏见。

创新点

  1. 零样本学习能力: 展示了现代零样本LLMs在从名字生成人口统计数据方面,性能优于或至少与以前的监督学习方法相当。
  2. 人口统计偏见的揭示: 特别是它们倾向于低估个体年龄,通常超过十年,这对于年龄敏感的应用(如医疗保健和市场营销)具有重要意义。
  3. 新数据集的分析和丰富: 分析、丰富并发布了一个专注于香港金融专业人士姓名的新数据集,填补了非西方人口统计数据集的空白。

算法模型

  • 大型语言模型(LLMs): 包括GPT-3、ChatGPT等,这些模型在零样本学习方面表现出色,无需监督调整即可生成类似人类的文本。
  • 传统监督学习方法: 包括隐马尔可夫模型和循环神经网络。

实验效果

  • 性别预测: 在佛罗里达选民注册数据集上,所有12个LLMs的准确率在0.96到0.99之间。
  • 出生日期预测: LLMs表现不佳,无法一致地提高简单基线。
  • 种族预测: 大多数LLMs的零样本准确率在0.75到0.85之间,与之前报道的随机森林或LSTM等机器学习模型相当。
  • 国籍预测: 在维基百科数据集上,准确率低于种族预测,但封闭源LLMs(特别是Claude和GPT系列)表现更好。
    在这里插入图片描述

结论
LLMs能够仅基于人名准确预测性别、种族甚至国籍。尽管预测年龄或出生日期更具挑战性,但LLMs在人口统计学注释生成方面开创了新纪元,这可能会显著简化医学等领域的许多人口层面的干预措施。

推荐阅读指数

★★☆☆☆

推荐理由:

  • 文章不仅展示了LLMs在人口统计学丰富化方面的潜力,还为未来研究提供了重要的资源,特别是在解决偏见和改进人口统计预测方面。

2. The Factuality of Large Language Models in the Legal Domain

RE Hamdani, T Bonald, F Malliaros, N Holzenberger…
来源: https://arxiv.org/pdf/2409.11798
在这里插入图片描述
大型语言模型在法律领域的事实性

摘要
本文研究了大型语言模型(LLMs)在法律领域作为知识库的事实性,允许模型在不确定时选择不回答,并接受答案的可接受变体。研究者设计了一个包含不同法律事实问题的数据集,并使用该数据集评估了几个LLMs。结果显示,使用别名匹配和模糊匹配方法时性能显著提高。此外,研究表明,额外的法律文件预训练,如SaulLM模型,可以将事实精确度从63%提高到81%。

创新点

  1. 允许模型不回答: 在不确定性情况下,模型可以决定不回答,减少了错误回答的可能性。
  2. 别名和模糊匹配: 引入了别名匹配和模糊匹配来评估LLMs的答案,以更准确地反映模型的性能。
  3. 法律文件预训练: 展示了通过对法律文件的额外预训练可以显著提高LLMs在法律领域的事实准确性。

算法模型

  • LLMs: 论文在多个开源模型上进行测试,包括如Gemma-2B、Gemma-7B、Llama-2-7B等,以及SaulLM(在法律语料上进一步训练的Mistral-7B)。
  • 评估方法: 包括精确匹配(Exact matching)、别名匹配(Alias matching)和模糊匹配(Fuzzy matching)。

实验效果

  • 性能提升: 使用别名匹配和模糊匹配方法相比于精确匹配显著提高了性能。
  • 法律文件预训练: SaulLM在法律文件上的预训练使其在事实准确性上显著优于其他模型,精确度达到81%。
  • 实验数据: 在不同的评估方法下,模型的排名和性能有显著变化。

核心结论
LLMs在法律领域作为知识库时,通过使用别名匹配和模糊匹配以及允许模型不回答可以显著提高其事实准确性。此外,对法律文件的额外预训练可以进一步提高LLMs的事实准确性。

推荐阅读指数
★★★☆☆

推荐理由:

  • 对于法律技术领域的研究人员和实践者,本文提供了LLMs在法律领域应用的实践。

3. Large Language Models for Cross-lingual Emotion Detection

RMR Kadiyala - Proceedings of the 14th Workshop of on Computational …, 2024, ACL

大型语言模型用于跨语言情感检测

摘要
本文详细介绍了参加WASSA 2024任务2的冠军系统,该任务专注于跨语言情感检测。作者利用大型语言模型(LLMs)及其集成,有效地理解和分类不同语言中的情感。该方法不仅大幅超越其他参赛作品,还展示了通过集成多个模型来提升性能的优势。此外,作者还对每个使用的模型的优缺点进行了彻底的比较,并包含了错误分析和未来改进的建议领域。
在这里插入图片描述

创新点

  1. 多模型集成: 通过集成多个LLMs来提升情感检测的性能。
  2. 跨语言情感检测: 在多种语言(荷兰语、英语、法语、俄语和西班牙语)上进行情感分类。
  3. 不同精度的测试: 在4位和16位精度上测试模型的鲁棒性和效率,以理解计算效率和模型性能之间的权衡。

算法模型

  • LLMs: 包括GPT-4、Claude-Opus等开源和专有的大型语言模型。
  • 模型微调: 对非专有的LLMs进行了微调,使用了5个epoch、学习率为0.0002、权重衰减为0.01。
  • 集成方法: 包括多数投票、基于宏观/微观/加权F1得分的模型选择。
    在这里插入图片描述

实验效果

  • 性能比较: 在开发集上,通过微调3个epoch的模型与以前年度最佳参赛作品进行了比较。
  • 错误分析: 展示了每种模型在每种语言上的性能,并发现某些模型在某些语言上表现更好。
  • 实验数据: 集成模型在测试集上达到了0.6295的F1得分,比其他方法平均高出3%。

数据
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

结论
集成模型在跨语言情感检测任务上取得了显著的性能提升。通过选择合适的模型和集成策略,可以进一步提高性能。此外,增加训练数据和使用更高版本的模型可能会进一步提升结果。

推荐阅读指数
★★★★☆

推荐理由:

  • 文章详细介绍了多种LLMs的集成策略,对提升模型性能有帮助。同时是跨语言情感检测的应用,属于LLM应用创新。

4. Using Large Language Models to Generate Clinical Trial Tables and Figures

Y Yang, P Krusche, K Pantoja, C Shi, E Ludmir… , 2024
https://arxiv.org/pdf/2409.12046

使用大型语言模型生成临床试验表格和图形
在这里插入图片描述

摘要
本文探讨了如何利用大型语言模型(LLMs)通过提示工程和少量样本迁移学习自动化生成临床试验数据的表格、图形和列表(TFLs)。研究结果表明,LLMs能够根据提示指令高效生成TFLs,展示了其在该领域的潜力。此外,研究者还开发了一个名为“Clinical Trial TFL Generation Agent”的对话代理应用程序,该程序将用户查询与预定义的提示相匹配,以生成定制化的程序来生成特定的预定义TFLs。

创新点

  1. 自动化TFLs生成: 使用LLMs自动化生成临床试验报告中的TFLs,以提高效率。
  2. 对话代理应用程序: 开发了“Clinical Trial TFL Generation Agent”,通过预定义的提示简化用户与模型的交互。
  3. 标准化的提示库: 通过标准化的提示库,确保生成的TFLs的一致性和准确性。

算法模型

  • LLMs: 使用了大型语言模型(如GPT-4)来理解表格结构和分析表格数据。
  • 提示工程: 设计了系统提示、用户提示和少量样本编码示例,以引导模型执行特定的数据分析任务。
  • 两阶段架构: 应用程序采用两阶段架构,先理解用户请求,再激活详细的提示生成表格。

实验效果

  • 100%的准确性: 在生成的代码和手动编码结果的比较中,预设计的提示在重现结果方面达到了100%的准确性。
  • 跨疾病领域的泛化能力: 在不同的疾病领域的临床试验数据集上测试预定义的提示,也显示出良好的泛化能力。
  • 用户界面友好: 开发的应用程序允许用户通过自然语言交互来生成特定的临床试验表格。
    在这里插入图片描述

结论
LLMs在自动化生成临床试验TFLs方面具有潜力,并且可以通过标准化的提示库和对话代理应用程序与现有的药物开发流程无缝集成。LLMs能够保留程序代码和自然语言/纯文本规范之间的联系,从而自然地融入并增强设计和制作TFLs的现有流程。

推荐阅读指数
★★★☆☆

推荐理由:

  • 对于医疗数据分析、临床试验报告自动化生成以及LLMs应用领域的研究人员和实践者有一定参考意义。

5. Generated Data with Fake Privacy: Hidden Dangers of Fine-tuning Large Language Models on Generated Data

A Akkus, M Li, J Chu, M Backes, Y Zhang, S Sav - arXiv preprint arXiv:2409.11423, 2024

在这里插入图片描述
在生成数据上微调大型语言模型:假隐私的隐藏风险

摘要
本文探讨了使用大型语言模型(LLMs)在生成的数据上进行微调可能带来的隐私风险。尽管LLMs在特定领域任务上表现出色,但使用真实世界数据进行微调通常会导致隐私风险。为了避免使用真实数据的缺点,开发者经常使用自动生成的合成数据进行微调。然而,鉴于LLMs的高级能力,真实数据和LLM生成的数据之间的区别变得微不足道,这也可能带来像真实数据一样的隐私风险。

创新点

  1. 隐私风险分析: 对LLMs在生成数据上微调的隐私风险进行了实证分析。
  2. 两种微调方法: 研究了无结构生成数据的监督微调和自指导微调两种方法。
  3. 实际应用场景: 将研究应用于电子邮件和法律聊天机器人等实际场景,评估了微调后模型的隐私风险。

算法模型

  • LLMs: 使用了Pythia和Llama-3等模型进行实验。
  • 微调方法: 包括无结构数据的监督微调和自指导微调。
  • 攻击技术: 使用了个人身份信息(PII)提取和基于分数的成员推断攻击(MIA)技术来评估隐私风险。

实验效果

  • PII提取成功率提高: 在微调生成的数据后,Pythia模型在PII提取任务上的成功率提高了20%以上。
  • MIA攻击ROC-AUC得分提高: 自指导微调后的Pythia-6.9b模型在MIA攻击上的ROC-AUC得分比基模型提高了40%以上。
  • 数据和模型质量: 分析了生成数据的模板和质量对PII提取成功率的影响。

结论
研究表明,使用LLMs生成的数据进行微调可能会增加与预训练数据集相关的隐私风险。通过精心设计的提示和测试,可以可靠地产生正确的输出。

推荐阅读指数
★★★★☆

推荐理由:

  • 对于关注LLMs隐私保护和数据安全的研究人员有参考价值。

6. Jailbreaking Large Language Models with Symbolic Mathematics

E Bethany, M Bethany, JAN Flores, SK Jha, P Najafirad - arXiv preprint arXiv …, 2024
在这里插入图片描述
利用符号数学破解大型语言模型

摘要
本文介绍了一种名为MathPrompt的新型破解技术,该技术利用大型语言模型(LLMs)在符号数学方面的高级能力来绕过它们的安全机制。通过将有害的自然语言提示编码成数学问题,研究表明当前AI安全措施的关键漏洞。在13个最先进的LLMs上的实验显示,平均攻击成功率为73.6%,突出了现有安全训练机制无法泛化到数学编码输入的问题。

创新点

  1. MathPrompt技术: 提出一种新的破解方法,将有害的自然语言提示转换为符号数学问题。
  2. 跨模型攻击: 在多个不同的最新LLMs上测试了这种攻击方法,显示了跨不同模型的普遍脆弱性。
  3. 语义转换分析: 通过嵌入向量分析,揭示了原始提示和编码提示之间的语义转变。
    在这里插入图片描述
    算法模型
  • MathPrompt: 一种将自然语言提示转换为数学问题的攻击方法。
  • 嵌入向量分析: 使用all-MiniLM-L6-v2模型生成嵌入向量,分析原始和编码提示之间的语义差异。

实验效果

  • 攻击成功率: 在13个不同的LLMs上,MathPrompt的平均攻击成功率为73.6%。
  • 嵌入向量分析: 原始提示和数学编码提示之间的平均余弦相似度为0.2705,表明有明显的语义转变。

结论
研究揭示了当前LLM安全机制的一个关键漏洞,通过MathPrompt技术实现了高平均攻击成功率。嵌入分析进一步阐明了这种方法的有效性,显示出足够的语义转变以绕过安全过滤器。

推荐阅读指数
★★★★★

推荐理由:

  • 对于AI安全、LLMs和自然语言处理领域的研究人员和开发人员,本文提供了重要的见解和潜在的安全风险。
  • 文章详细介绍了MathPrompt技术,对于理解LLMs的安全漏洞和如何绕过现有安全机制具有重要意义。

如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2162734.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Centos下安装Maven(无坑版)

Linux 安装 Maven Maven 压缩包下载与解压 华为云下载源,自行选择版本 下面的示例使用的是 3.8.1 版本 wget https://repo.huaweicloud.com/apache/maven/maven-3/3.8.1/binaries/apache-maven-3.8.1-bin.tar.gz解压 tar -zxvf apache-maven-3.8.1-bin.tar.gz移…

腾讯云点播及声音上传

文章目录 1、开通腾讯云点播2、获取腾讯云API密钥3、完成声音上传3.1、引入依赖3.2、参考:接入点地域3.3、参考:任务流设置3.4、首先修改配置:3.4.1、 3.5、TrackInfoApiController --》 uploadTrack()3.6、VodServiceImpl --》 uploadTrack(…

长列表加载性能优化

一、长列表优化概述 列表是应用开发中最常见的一类开发场景,它可以将杂乱的信息整理成有规律、易于理解和操作的形式,便于用户查找和获取所需要的信息。应用程序中常见的列表场景有新闻列表、购物车列表、各类排行榜等。随着信息数据的累积,特…

MobaXterm基本使用 -- 服务器状态、批量操作、显示/切换中文字体、修复zsh按键失灵

监控服务器资源 参考网址:https://www.cnblogs.com/144823836yj/p/12126314.html 显示效果 MobaXterm提供有这项功能,在会话窗口底部,显示服务器资源使用情况 如内存、CPU、网速、磁盘使用等: (完整窗口&#xff0…

kafka集群架构与原理

前言 这次我们从消息队列开始讨论。生产者-消费者模型中间需要一个消息队列,以存储生产者的产品。对传统的消息队列来说,它支持点对点(P2P)和发布/订阅(Pub/Sub)两种消息模型。在点对点模型中,消…

【楚怡杯】职业院校技能大赛 “云计算应用” 赛项样题九

某企业根据自身业务需求,实施数字化转型,规划和建设数字化平台,平台聚焦“DevOps开发运维一体化”和“数据驱动产品开发”,拟采用开源OpenStack搭建企业内部私有云平台,开源Kubernetes搭建云原生服务平台,选…

基于姿态估计算法的健身辅助应用

作为一名健身爱好者,我一直对探索改善锻炼习惯的方法很感兴趣。一个一直让我着迷的领域是使用计算机视觉和机器学习来分析和纠正锻炼过程中的姿势。在本文中,我将分享我使用姿势估计算法构建一个简单的健身房训练辅助应用程序的历程。 NSDT工具推荐&…

Qt实现自定义的文件对话框CustomFileDialog

背景: 最近客户有需求说Qt自带的文件对话框在windows上打开网络共享文件的时候比较卡,需要解决这个问题,于是参考Qt源码,自定义了一个文件对话框。已经实现流畅加载网络共享文件夹了。效果如下,所有的代码都可以直接修…

ComfyUI中缺失节点安装一点小小注意事项

加载工作流,遇到了红当当的缺失节点警告窗口: 在ComfyUI-Manager点击安装缺失节点,发现竟然弹出4个,而上面告警窗口中只是缺失3个,究竟是怎么回事呢,刚开始接触ComfyUI时,我也是不管3721&#x…

echarts 导出pdf空白原因

问题阐述 页面样式: 导出pdf: 导出pdf,统计图部分为空白。 问题原因 由于代码中进行了dom字符串的复制,而echarts用canvas绘制,canvas内部内容不会进行复制,只会复制canvas节点,因此导出pdf空白。 解决…

卷轴模式开发的技术架构分析与源代码展示

在软件开发中,"卷轴模式"(虽然不是一个广泛认知的术语,在此我们可以理解为一种类似于游戏或应用中内容逐步加载与展示的模式,类似于古代卷轴展开的方式)通常用于处理大量数据或内容,特别是当这些…

人工智能与自然语言处理发展史

前言 在科技的浪潮中,人工智能 (AI) 作为一股不可阻挡的力量,持续推动着社会与科技的进步。本博客旨在深入剖析人工智能及其核心领域——神经网络、自然语言处理、统计语言模型、以及大规模语言模型——的演进历程,以专业的视角展现这一领域…

网站建设中常见的网站后台开发语言有哪几种,各自优缺点都是什么?

市场上常见的网站后台开发语言有PHP、Python、JavaScript、Ruby、Java和.NET等。这些语言各有其独特的优缺点,适用于不同的开发场景和需求。以下是对这些语言的具体介绍: PHP 优点:PHP是一种广泛用于Web开发的动态脚本语言,特别适…

828华为云征文|华为云Flexus云服务器X实例Windows系统部署一键短视频生成AI工具moneyprinter

在追求创新与效率并重的今天,我们公司迎难而上,决定自主搭建一款短视频生成AI工具——MoneyPrinter,旨在为市场带来前所未有的创意风暴。面对服务器选择的难题,我们经过深思熟虑与多方比较,最终将信任票投给了华为云Fl…

使用vite+react+ts+Ant Design开发后台管理项目(四)

前言 本文将引导开发者从零基础开始,运用vite、react、react-router、react-redux、Ant Design、less、tailwindcss、axios等前沿技术栈,构建一个高效、响应式的后台管理系统。通过详细的步骤和实践指导,文章旨在为开发者揭示如何利用这些技术…

将Pytorch环境打包,快速部署到另一台机器上(在没有网络,或者网络环境不好的情况下推荐使用)

打包PyTorch环境 当您需要在不同的机器上快速部署包含PyTorch的Python环境时,使用conda-pack是一个很好的选择。conda-pack可以打包一个完整的Conda环境,包括所有已安装的包和依赖项,使其能够轻松地在其他机器上还原。 步骤一:…

Django 对数据库的增删改查

新增 使用方法:类模型.objects.create 类模型 from django.db import models# Create your models here. class Car(models.Model):user models.CharField(max_length200)plate_number models.CharField(max_length20)def __str__(self):return f{self.user} -…

Linux之我不会

一、常用命令 1.系统管理 1.1 systemctl start | stop | restart | status 服务名 案例实操 1 查看防火墙状态 systemctl status firewalld2 停止防火墙服务 systemctl stop firewalld3 启动防火墙服务 systemctl start firewalld4 重启防火墙服务 systemctl restart f…

构建高可用和高防御力的云服务架构第一部分:深入解析DDoS高防(1/5)

引言 在数字化时代,网络安全已成为全球关注的焦点。随着互联网技术的快速发展和应用的广泛深入,网络安全形势日益严峻。特别是分布式拒绝服务(DDoS)攻击,以其破坏性强、难以防范的特点,对个人、企业乃至国…

Django操作ES实现搜索功能

Django操作ES实现题目的高亮搜索功能 一、基础配置二、使用ES完成题目的高亮搜索1. ES的初始化接口2. 使用ES实现题目的增删改查1. 题目的高亮搜索2. 题目的高亮搜索优化3. 将数据存储到MYSQL中持久化存储并同步到ES中一、基础配置 下载依赖,与之前配置的ES版本一致。 ES的配置…