超越规模的冒险之旅：引导人工智能价值对齐

news2026/2/12 6:10:32

generativejina_retrowave_sabattier_filter_sanriocore_in_the_sty_7881ce67-ea8f-417f-a204-bd101a3f58c0.png

在茫茫技术之林中，人工智能凭借大模型占据了重要地位。人们已经不再局限于人机对弈和AI识图，开始探索那些能够模仿人类思考的机器。无论是日常聊天、文本写作，还是[在完美的提示词引导下创作出惊艳的诗歌]，我们不得不承认AI工具已经不再仅仅是工具。它们与同事、伙伴无异。

[据传闻，这些生成式AI模型每年可能能够为全球经济注入数万亿美金——这显然不是一个小数目。

问题也恰恰在此。

如果计算机越来越像人类，那人类的特质——才华、创造力和偏见、盲区都会被学习。这不仅是让AI变得更聪明，更是赋予它智慧。技术专家称之为人工智能对齐或价值对齐。

更直白地说，就是确保人工智能运行良好，不会偏离我们预期的轨道。

模型越庞大，出现错误的可能性也就越高。

大模型的学习方式是汲取互联网上的海量信息，再将这些内容用作输出。这些内容良莠不齐，所以当一个模型具备互联网上的所有知识（当然也包括神话、偏见和午夜阴谋论）时，小到拼写错误，大到严重失误，都更有可能出现。

那么风险是什么？

如果没有这种对齐，单纯的人工智能在执行稍有误导性的任务时就可能会输出有害或危险内容，被不怀好意的人利用，或者让一些脆弱的人走上不归路。因此，人工智能对齐本质上是人工智能的指导原则，或者说，是人工智能的良心。

在这个人工智能可能很快就要和智能手机一样普及的时代，这才是我们应该认真考虑、正确对待的事情。

人工智能的钢索之行：价值观、真相和权力困境

我们的数字朋友是否了解事实、是否隐含偏见、是否知道它们自身的力量为什么这么重要呢？

原因如下：

人工智能的“现实漂移” - 人工智能并不是全知全能的。有时，它会误入虚构世界。OpenAI的首席技术官Mira Murati指出，我们健谈的AI伙伴ChatGPT偶尔会一头扎进幻想，在一些明显不真实的事情上表现得过于自信。这有点像给莎士比亚一台打字机，然后期望每个结果都符合历史。要解决这一问题，就要在人工智能的幻觉和确凿的事实之间找到平衡，这将是新的前沿。
镜中的AI - 人工智能本质上反映了我们的世界，无论好坏。有时，这些折射出来的结果可能不太令人愉快。根据OpenAI的首席执行官Sam Altman所言，期望人工智能完全保持客观、没有偏见的难度堪比互联网上关于最佳的披萨配料的观点达成一致。真正的难题不在发现偏见，而是知道在不可避免的情况下如何处理。
AI意外的增长点 - 有一个有趣的想法：如果你的人工智能某天突然开窍，掌握了一个全新的意料之外的技巧呢？随着模型的演进发展，它们可能会让我们大吃一惊，但并不总是以我们欣赏的方式。有些人对这个想法感到不安，认为这些系统可能会有一天发展出自己的野心，就像一个蹒跚学步的孩子意识到自己可以爬上家具一样，更令人担忧。
双刃剑 - 如果你掌握正确的方法，任何工具都可以成为威力强大的武器。随着AI能力的扩展，通过巧妙操纵或直接劫持AI进行非法操作的风险与日俱增。

让人工智能始终符合人类价值观，不仅仅是高尚的哲学目标。这是为了保证人工智能在迈入更广阔的领域时，依旧能够优雅、负责，并且最重要的是，能够以人类的最大利益为出发点。

进入人工智能道德迷宫：新手指南

如何使机器表现得体？

事实证明，并不需要与它进行严肃的对话，而是涉及到复杂的训练技巧来保证AI能够理解且尊重人伦道德。让我们深入讨论。

通过人性化的引导学习

将基于人类反馈的强化学习（RLHF）视为对人工智能的一种培养方式。

与其让人工智能通过反复试验来摸索事物，不如让人类直接干预，引导它朝着期望的方向前进。

2017年，OpenAI的实验揭示了RLHF如何按照人类偏好塑造人工智能的行为。这种方法本质上是在人工智能表现出色时给予夸赞，在它出错时温柔提醒。

OpenAI的图解很好地解释了InstructGPT的SFT和RLHF。

人工智能自我管理：规则方法

这里有一个充满野心的想法：如果我们能够构建一个监控另一个人工智能的人工智能，会怎么样？

与其让人类追逐不断增长的模型，不如依靠人工智能自身来进行一些反思。

AI安全公司Anthropic提出了这个明智的想法，称之为“原发人工智能”。想象一下一个AI助手，检查主AI是否遵守预定义的一套规则，一种数字版大宪章。Anthropic参考了人权宪章、可能忽略的条款和其他技术指南，为他们的AI助手Claude设计了一套强大的规则。最终结果是得到一个三思而行的AI，保证它有用且表现良好。

Anthropic的原发AI方法培训模型。

最佳实践的四重奏

既要充分发挥人工智能的力量，又要使其受到道德约束，这无疑是一项多方面的挑战。如果我们将这个问题拆开来看，就会发现这是主动调整和被动措施的有机统一。

从根源干预：训练数据 - 无论是编造故事（即人工智能幻觉的出现），还是反映出来的偏见，这些怪异的行为通常可以归因于训练数据。因此，首要任务是着手深入研究数据本身。记录训练数据以确保其多样性和代表性，仔细检查以发现和纠正偏见，甚至创建专用数据集用于价值对齐，都是计划中的一部分。这有点像在向上盖高楼时要先确保地基牢固。
内容把关：过滤模型 - 训练人工智能是一回事，确保它不会说出不该说的话是另一回事。这就需要像OpenAI开发的模型这类专门的过滤人工智能模型。这些模型监督用户输入和人工智能的输出，指出可能越界的内容。
魔镜：提高模型可解释性 - 透明度和可理解性在人工智能中不仅仅是说说而已，而是我们对齐工具箱中的重要工具。例如，OpenAI训练GPT-4进行自我反思，撰写了有关前身GPT-2神经行为的自动化解释，甚至对其进行了评分。同时，其他研究人员通过深入研究机械可解释性来解决对齐问题，逐层揭示人工智能的内在机制。

这段将人工智能与人类价值观对齐的旅程，涉及干预、测试、过滤和最重要的理解。这样就确保随着发展，AI不仅知道自己的力量，还能够明智地运用。