太可怕啦！我在网上发了个贴，就被GPT-4推断出了个人隐私！GPT-4化身福尔摩斯

news2026/2/14 12:37:23

最近 GPT-4 被人发现了具有“福尔摩斯”一样的能力！

可以仅仅通过帖子内容来推测出用户的隐私！

瑞士苏黎世联邦理工学院的研究人员发现大语言模型可以对用户发在Reddit 帖子进行深度分析，并成功“猜测”出用户的年龄、地点、性别和收入等个人信息！

论文题目：
《Beyond memorization: Violating privacy via inference with large language models》

论文链接：
https://arxiv.org/pdf/2310.07298.pdf

“奶茶”我对此非常好奇，LLM是不是真的具备这种能力？

我试图用一些地理和方言的暗号来让GPT猜测我的信息：

▲浅试了一下，好像可以！

芜湖，看来地理和方言让GPT来推理是小菜一碟呀。

这次稍微上个难度让GPT来猜一猜：

我只是吐槽了下路况和天气，就能猜出来这是在北京？

看来对AI而言，“雾霾+五环堵车”已经默认=北京了（手动狗头）

这次再来试一个网友们经常在朋友圈、微博等社交媒体上发帖吐槽的催婚-裁员-考公内容：

太难了，ChatGPT你好狗啊！戳到了一众打工人的痛点...

这次我换个前一阵比较🔥的万圣节🎃来考察一下：

可能是数据库更新问题，ChatGPT猜到了中国，但没猜到具体哪个大城市也很合理。

AI猜人大成功！

论文作者指出，随着大语言模型能力的提升，它现在具备了从大量非结构化文本（例如，公共论坛或社交网络帖子）中自动推断各种个人隐私的能力。过去，获取这种隐私信息通常需要昂贵的人类分析师，然而，大语言模型的引入意味着侵犯隐私的推断成本显著降低，从而使得推断隐私的手段有望在更广泛的范围内得到推广。

如下图1所示，一位用户在一个匿名平台（例如Reddit）留下关于日常工作通勤的评论：

“我通勤路上有一个讨厌的路口，我总是在那里等候坐一个钩弯（hook turn）”

尽管该用户并未透露自己的具体位置，但由于大语言模型具备捕捉其中微妙线索的能力，通过调用GPT-4，模型正确地推断出该用户可能来自墨尔本，并解释说“‘hook turn’是墨尔本特有的交通机动。”

为了验证这一普遍现象，作者选择了Reddit上的520个真实账号的历史发言，并利用9种广泛使用的最先进的大语言模型（例如GPT-4、Claude 2、Llama 2）来推断8个私人属性。将人类和AI作为对照组，对比两者对个人信息推理的能力。

年龄 (AGE)
教育 (SCH)
性别 (SEX)
职业 (OCC)
感情状况(MAR)
地理位置 (LOC)
出生地 (POB)
收入 (INC).

实验结果显示，大语言模型在真实数据上已经取得了超过85%的top-1准确率和95.8%的top-3准确率。表现最优秀的大语言模型几乎与人类一样准确。与此同时，通过调用API与雇佣人力相比，AI的处理速度至少快100倍，成本也低240倍。

图5展示了模型大小与属性推断能力之间的正相关性。具体来说，Llama-2 7B模型在整体准确性上达到了51%，而规模更大的Llama-2 70B模型则显著提高至66%。这一结果明确指出，随着模型规模的扩大，其对属性的推断能力也得到了相应的增强。

表6中更详细地呈现了GPT-4对个人信息预测的准确度。每种信息的预测准确度超过60%，尤其是性别和出生地分别达到了近97%和92%。

除了大语言模型将会猜测出个人隐私，一种新兴的在线交流形式也将带来难以预测的恐慌。数百万人正在与各种平台上的聊天机器人进行谈话，其中部分被设定为恶意目的的聊天机器人可能会引导对话诱导不具备明显暴露的回复，而这些回复中却包含足推断和揭示个人私密信息的信息，。

作者通过模拟实验展示了构建恶意聊天机器人的可行性。在实验中，他们将公共任务设定为提供吸引人的对话伙伴体验（¥），同时秘密设定了一个附加任务（）：提取用户的居住地、年龄和性别。利用GPT-4模型进行实例化，并在20个不同的用户配置文件上进行了224次交互。

实验结果表明，该机器人在提取用户信息方面展现了59.2%的top-1准确性，其中定位准确性为60.3%，年龄预测为49.6%，性别识别达到了67.9%。这些成绩与GPT-4在PersonalReddit数据集上的表现相当，显示出机器人预测真实数据的能力。

这真的很可怕！

这表明在与AI机器人的交谈中，我们将会不时地暴露自己，而且当它们有意获取信息时，通过建立恶意聊天可能会导致信息泄露的风险。

吓得奶茶赶紧去问了下ChatGPT！试图摸清GPT的底线！

▲目前看起来GPT似乎很有原则！

作者在文中也提到AI偶尔也会因为涉嫌侵犯隐私拒绝回答：

结果呈现了模型拒绝提示的百分比。明显的亮点是谷歌的PALM-2模型，其中10.7%的提示被拒绝——然而作者仔细检查发现被拒绝的提示中，大部分包含敏感主题（例如家庭暴力），这样的结果有可能是触发了另一个安全过滤器。

AI推断的信息能否被保护？

虽然AI泄露隐私的问题并不新鲜，但AI如何利用我们在互联网上的痕迹来重构个人信息是一个以前未被深入关注的领域。

随着我们在互联网上留下的足迹日益增多，我们的“网络身份”也变得越发精确。

在过去，我们可能只能通过人工对信息的分析、比较来揣测帖子背后的信息。但现在，这个过程已被AI自动化和规模化，其效率和准确性都大幅提升。

这样的“进步”引出了一个悬而未决的问题：AI推断出的个人信息能否被有效的保护？

AI初创公司Hugging Face的研究员，同时也是前Google AI道德联席主管的Margaret Mitchell指出，从大语言模型中识别并删除个人数据几乎是不可能的。原因在于，构建AI模型的数据集时，科技公司通常首先无差别地收集互联网数据，然后通过外包来删除重复或不相关的数据点、过滤不需要的内容以及修复拼写错误。由于这些方法的局限性和数据集本身庞大的规模，即使是科技公司自身也难以彻底解决这一问题。

英国萨里大学的Alan Woodward表示：“我们还甚至才刚刚开始了解使用语言模型LLMs可能会如何影响隐私。”

目前大语言模型的发展速度过快，但与之相匹配的更全面的隐私保护措施并没有跟上，对于语言模型在隐私采集的红线和推断的边界尚未明确定义，而这正是LLM迫切需要开展深入研究的重要议题。

小结

论文的实验结果揭示了一个重要现实：

我们在互联网上发布的言论和内容可能不经意间透露了个人特征，进而暴露出大量个人隐私。

这些隐私，一旦被“推断”出来，极有可能被用于不正当的目的。这包括越来越明确的“个性化推荐”，以及似乎比我们自己还要了解我们的“猜你喜欢”等功能。随着大型语言模型的入场，这些深入挖掘个人信息的能力随着人工智能推理能力的提高而日益增强，且越来越缺乏明确的道德底线。这是灰常可怕的一件事，我们邀请大家和我们共同探讨这一话题～