ChatGPT、Llama-2等大模型,能推算出你的隐私数据!

news2024/11/26 0:27:40

ChatGPT等大语言模型的推理能力有多强大?通过你发过的帖子或部分隐私数据,就能推算出你的住址、年龄、性别、职业、收入等隐私数据。

瑞士联邦理工学院通过搜集并手工标注了包含520个Reddit(知名论坛)用户的个人资料真实数据集PersonalReddit,包含年龄、教育程度、性别、职业、婚姻状况、居住地、出生地和收入等隐私数据。

然后,研究人员使用了GPT-4、Claude-2、Llama-2等9种主流大语言模型,对PersonalReddit数据集进行特定的提问和隐私数据推理。

结果显示,这些模型可以达到85%的top-1和95.8%的top-3正确率, 仅通过分析用户的文字内容,就能自动推断出隐藏在文本中的多种真实隐私数据。

论文地址:https://arxiv.org/abs/2310.07298
在这里插入图片描述

研究人员还指出,在美国,仅需要地点、性别和出生日期等少量属性,就可以确定一半人口的确切身份。

这意味着,如果非法人员获取了某人在网络上发过的帖子或部分个人信息,利用大语言模型对其进行推理,可以轻松获取其日常爱好、作息习惯、工作职业、家庭住址范围等敏感隐私数据。

构建PersonalReddit数据集

研究人员构建了一个真实的Reddit用户个人属性数据集PersonalReddit。该数据集包含520个Reddit用户的个人简介,总计5814条评论。评论内容涵盖2012年到2016年期间。

个人属性包括用户的年龄、教育程度、性别、职业、婚姻状况、居住地、出生地和收入等8类。研究人员通过手工标注每一个用户简介,来获得准确的属性标签作为检验模型推理效果的真实数据。

数据集构建遵循以下两个关键原则:

1)评论内容须真实反映网上使用语言的特点。由于用户主要是通过在线平台与语言模型交互,网上语料具有代表性和普适性。

2)个人属性种类需不同种类,以反映不同隐私保护法规的要求。现有数据集通常只包含1-2类属性,而研究需要评估模型推断更广泛的个人信息的能力。

此外,研究人员还邀请标注人员为每个属性打分,表示标注难易程度及标注人员的确信程度。难易程度从1(非常简单)到5(非常困难)。如果属性信息无法直接从文本中获取,允许标注人员使用传统搜索引擎进行查验。

对抗交互

考虑到越来越多的语言聊天机器人应用,研究人员还构建了一个对抗对话的场景来模拟实际交互。

开发了一个恶意的大语言模型驱动的聊天机器人,表面作用是作为一个乐于助人的旅行助手,而隐藏任务则是试图套取用户的个人信息如居住地、年龄和性别。
在这里插入图片描述

在模拟对话中,聊天机器人能够通过似乎无害的问题来引导用户透露相关线索,在多轮交互后准确推断出其个人隐私数据,验证了这种对抗方式的可行性。

在这里插入图片描述

测试数据

研究人员选了9种主流大语言模型进行测试,包括GPT-4、Claude-2、Llama-2等。对每一个用户的所有评论内容,以特定的提示格式进行封装,输入到不同的语言模型中,要求模型输出对该用户的各项属性的推测。

然后,将模型的推测结果与人工标注的真实数据进行比较,得到各个模型的属性推断准确率。

在这里插入图片描述

实验结果显示,GPT-4的整体top-1准确率达到84.6%,top-3准确率达到95.1%,几乎匹敌专业人工标注的效果,但成本只有人工标注的1%左右。

在这里插入图片描述

不同模型之间也存在明显的规模效应,参数数量越多的模型效果越好。这证明了当前领先的语言模型已经获得了极强的从文本中推断个人信息的能力。

保护措施评估

研究人员还从客户端和服务端两方面,评估了当前的隐私数据的保护措施。在客户端,他们测试了业内领先的文本匿名化工具进行的文本处理。

结果显示,即使删除了大多数个人信息,GPT-4依然可以利用剩余的语言特征准确推断出包括地点和年龄在内的隐私数据。

从服务端来看,现有商用模型并没有针对隐私泄露进行对齐优化,目前的对策仍无法有效防范语言模型的推理。

在这里插入图片描述

该研究一方面展示了GPT-4等大语言模型超强的推理能力,另一方面,呼吁对大语言模型隐私影响的关注不要仅限于训练数据记忆方面,需要更广泛的保护措施,以减轻推理带来的隐私泄露风险。

本文素材来源瑞士联邦理工学院论文,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1167396.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL导入数据库报错Error Code: 2006

Error Code: 2006 - MySQL server has gone away 因为导入的某张表数据过大导致导入中途失败 , 修改max_allowed_packet 即可解决。 SET GLOBAL max_allowed_packet 1024*1024*200;

Pytest UI自动化测试实战实例

环境准备 序号库/插件/工具安装命令1确保您已经安装了python3.x2配置python3pycharmselenium2开发环境3安装pytest库pip install pytest4安装pytest -html 报告插件pip install pytest-html5安装pypiwin32库(用来模拟按键)pip install pypiwin326安装openpyxl解析excel文件库p…

享受户外的美好时光:花园吊椅的魅力

拥有舒适的花园吊椅,就像在家中创造了一个度假天堂。这些轻松摇摆的座位为您提供了一个完美的地方,既能舒适躺卧,又能让您在家中的花园或庭院中感受到度假的氛围。度过美好时光的吊椅,将成为家庭花园的一大亮点,为您带…

Python某建筑平台数据, 实现网站JS逆向解密

嗨喽&#xff0c;大家好呀~这里是爱看美女的茜茜呐 环境使用: 首先我们先来安装一下写代码的软件&#xff08;对没安装的小白说&#xff09; Python 3.8 / 编译器 Pycharm 2021.2版本 / 编辑器 专业版是付费的 <文章下方名片可获取魔法永久用~> 社区版是免费的 模块…

学生成绩管理神器

在信息化时代&#xff0c;你是否还在为处理大量的学生成绩数据而烦恼&#xff1f;是否还在用传统的方式&#xff0c;手动输入和整理成绩信息&#xff1f;今天&#xff0c;我将向你展示如何利用各种代码和Excel&#xff0c;打造一个学生自助查询成绩的神器&#xff0c;让数据管理…

ClickHouse 学习之基础入门(一)

第 1 章 ClickHouse 入 门 ClickHouse 是俄罗斯的 Yandex 于 2016 年开源的列式存储数据库&#xff08;DBMS&#xff09;&#xff0c;使用 C 语言编写&#xff0c;主要用于在线分析处理查询&#xff08;OLAP&#xff09;&#xff0c;能够使用 SQL 查询实时生成分析数据报告。 …

词典查询工具django-mdict

什么是 django-mdict &#xff1f; django-mdict 不是词典软件&#xff0c;是词典查询的脚本工具&#xff0c;主要目的是解决词典数量多&#xff0c;手机容量不足的问题&#xff0c;是对其他词典软件局域网在线查询功能的补充&#xff0c;是用 django 实现的 mdict 词典查询工具…

递归与快速算法

借鉴&#xff1a; 4分钟彻底掌握递归算法、斐波那契数列、快速排序&#xff0c;不再怕面试&#xff01;_哔哩哔哩_bilibili 可直接观看借鉴里的视频 快速算法

vcruntime140.dll在哪下载?vcruntime140.dll文件说明及其下载方法

vcruntime140.dll在哪下载&#xff1f;为啥还有这样的问题&#xff1f;其实就是你电脑的vcruntime140.dll文件丢失了&#xff0c;你需要重新去下载一个vcruntime140.dll文件&#xff0c;这时候你就会想这个东西到底要去哪里下载&#xff0c;今天我们就来给大家详细的解析一下&a…

AI视频 | Runway的史诗级更新真的那么震撼吗?来看我的试用体验!

就在昨天&#xff0c;Runway&#xff0c;这个生成式AI的领头羊&#xff0c;正式在X上发布了他们史诗级更新 看下视频 【视频2】 这个确实看起来太棒了 注册个账号&#xff0c;看下效果咋样 地址百度哈&#xff0c;注册登录也比较方便 直接邮箱即可 不过我是直接google账号登录的…

从使用的角度看 ByConity 和 ClickHouse 的差异

自 ClickHouse Inc 宣布其重要新功能仅在 ClickHouse Cloud 上开放以来&#xff0c;一些关注 ByConity 开源的社区小伙伴也来询问 ByConity 后续开源规划。为回答社区疑问&#xff0c;我们将之前分享的关于 ByConity 与 ClickHouse 相关功能对比的 webinar 整理为文章&#xff…

MinIO多容器配置NGINX代理实践(docker-compose版本)

以下nginx配置 分别将本机的9001端口代理到minio1,minio2,minio3,minio4主机的9001端口。用于minio后台 分别将本机的9000端口代理到minio1,minio2,minio3,minio4主机的9000端口。用于minioApi events {worker_connections 1024; }http {upstream minio_console {server min…

Selenium元素定位之页面检测技巧

在进行web自动化测试的时候进行XPath或者CSS定位&#xff0c;需要检测页面元素定位是否正确&#xff0c;如果用脚本去检测&#xff0c;那么效率是极低的。 一般网上推选装额外的插件来实现页面元素定位检测 如&#xff1a;firebug。 其实F12开发者工具就能直接在页面上检测元…

广东厂家建筑木模板:桥梁工地施工的理想选择

广东地区一直以来都是中国建筑业的重要制造中心之一。在这个繁忙的地方&#xff0c;建筑行业的发展需要可靠且高质量的建筑材料。在众多的建筑材料中&#xff0c;建筑木模板作为一种重要的施工辅助工具&#xff0c;被广泛应用于桥梁工地的施工中。 广东厂家建筑木模板以其优质的…

初识RTOS

缺点&#xff1a; 如果一心多用&#xff0c;上一秒钟喂饭&#xff0c;下一秒钟回同事信息。 虽然还是一个脑子&#xff0c;一次智能处理一件事&#xff0c;但是给人的感觉就不会像上面那样了。人体就是一个嵌入式。 CPU是他的大脑。 手就是总线&#xff0c;可以操作芯片之外的…

深度学习服务器(Linux)开发环境搭建教程

当你拿到一台服务器的使用权时&#xff0c;最头疼的莫过于登陆服务区并配置开发环境。本文将从0开始&#xff0c;讲述一台刚申请的服务器远程登陆并配置开发环境的全过程。希望对你有所帮助 1.登陆服务器 打开MobaXterm软件&#xff0c;创建一个新的Session&#xff0c;选择S…

探索数据库世界的奥秘:MySQL初学者必备指南!

数据库开发-MySQL 1. 数据库操作-DQL1.1 介绍1.2 语法1.3 基本查询1.4 条件查询1.5 聚合函数1.6 分组查询1.7 排序查询1.8 分页查询1.9 案例1.9.1 案例一1.9.2 案例二 2. 多表设计2.1 一对多2.1.2 外键约束 2.2 一对一2.3 多对多 1. 数据库操作-DQL 1.1 介绍 DQL英文全称是Da…

ubuntu系统调整根目录空间

调整根目录大小&#xff1a; 一旦您释放了一部分空间&#xff0c;您可以使用 LVM 工具来调整根目录的大小。 运行 sudo lvresize -r -L <size>G /dev/mapper/ubuntu--vg-ubuntu--lv 命令&#xff0c;将根目录的逻辑卷&#xff08;logical volum…

C++算法:拼接最大数

题目 给定长度分别为 m 和 n 的两个数组&#xff0c;其元素由 0-9 构成&#xff0c;表示两个自然数各位上的数字。现在从这两个数组中选出 k (k < m n) 个数字拼接成一个新的数&#xff0c;要求从同一个数组中取出的数字保持其在原数组中的相对顺序。 求满足该条件的最大数…

记录::6d位姿数据集-meshlab简单使用-修改单位度量

制作6d数据集的时候&#xff0c;难免要对点云进行处理&#xff0c;小白记录一下操作指南 目录 1、安装 2、选中背景&#xff0c;删除 3、生成三角化 4、保存 5、修改单位度量 1、安装 Releases cnr-isti-vclab/meshlab GitHub 下载tar&#xff0c;解压&#xff0c;然后…