让AI拥有人类的价值观,和让AI拥有人类智能同样重要

news2025/1/4 1:40:17

编者按:2023年是微软亚洲研究院建院25周年。25年来,微软亚洲研究院探索并实践了一种独特且有效的企业研究院的新模式,并以此为基础产出了诸多对微软公司和全球社会都有积极影响的创新成果。一直以来,微软亚洲研究院致力于创造具有突破性的技术。在人工智能时代,微软亚洲研究院将为计算新范式奠定基础,并为人工智能和人类发展创造更美好的未来。

借此机会,我们特别策划了“智启未来”系列文章,邀请到微软亚洲研究院不同研究领域的领军人物,以署名文章的形式分享他们对人工智能、计算机及其交叉学科领域的观点洞察及前沿展望。希望此举能为关注相关研究的同仁提供有价值的启发,激发新的智慧与灵感,推动行业发展。

图片

人工智能快速发展,对人类社会的影响与日俱增。为确保人工智能成为对社会负责任的技术,我们以“社会责任人工智能(Societal AI)”为研究方向,与心理学、社会学、法学等社会科学进行跨学科合作,探索如何让人工智能理解和遵从人类社会的主流价值观,做出符合人类预期的决策,并通过更合理的评估模型让人类准确掌握人工智能的真实价值观倾向和智能水平。

——谢幸,微软亚洲研究院资深首席研究员

在过去的一年里,人工智能(AI)一次又一次地呈现出“超预期”的发展。在惊喜和振奋之余,我们也需要重新审视一个重要的问题——技术本身是否价值观中立?毕竟大型语言模型(LLMs)的智能是基于人类产生的语料,而人类语料中所潜藏的立场和价值观,会不可避免地成为影响机器做出推理与判断的因素之一。

在现实中,一些已经公开的人工智能大模型曾表现出一些有悖于主流价值观,或者令人感到不满意的行为,比如对性别和种族的刻板印象、生成虚假信息、唆使自我伤害等。这对我们这些从事人工智能研发的从业者来说不啻于一个响亮的提醒,甚至是警告——在让人工智能变得更加智能的同时,我们必须确保无论是否受到人类干预,人工智能都始终坚持社会责任,并与全人类的福祉站在同一边。

人工智能的发展一日千里,让上述任务愈发紧迫。要让人工智能谨守造福人类的原则,我们不仅需要发展支持这一目标的技术,更需要建立技术之上的规则和方法论。这也正是我和我的同事们正为之付出努力的研究方向——社会责任人工智能(Societal AI)。这一研究领域不仅涉及与价值取向相关的价值观,还包括人工智能的安全性、可验证性、版权和模型评测等等诸多我们认为与社会责任密切相关的分支。虽然我们的研究还处于起步阶段,但我相信这个研究方向能为关注相同问题的研究者们提供一些参考,并唤起社会各界对这一问题的更多关注。

在更大的影响来临之前早做准备

微软在多年前就将“负责任的人工智能(Responsible AI)”作为人工智能研发的核心准则,涵盖人工智能研发与应用中的隐私保护、安全性、公平性、可解释性等方面。在那个人工智能的智能水平和普及度远不及当下的时期,这一举措无疑是极具前瞻性的。而过去一年中人工智能的爆发式成长,使得 Societal AI 成为了面向人工智能未来的,同样具有前瞻性的研究方向。

由于人工智能能力的跃升,以及它对人类社会影响力的急剧扩大,人工智能在价值观上的一个小错位或许就会成为引发风暴的蝴蝶翅膀。正如微软总裁布拉德·史密斯(Brad Smith)在《工具,还是武器?》一书中提出的观点:当一个技术或工具能力非常强大时,它所带来的帮助和危害同样巨大(The more powerful the tool, the great the benefit or damage it can cause.)。

因此,我们在追求更强大的人工智能时,应该同步关注人工智能在社会责任领域的思考,并且在人工智能对人类社会造成不良影响之前就做好准备。

Societal AI 的目标就在于此。通过对这一方向的研究,我们将努力确保人工智能成为一项对整个社会负责任的技术,而不是放任和纵容它所带来的负面后果和危害。

为人工智能设定“价值观护栏”

基于对人工智能的理解和发展趋势的预测,我们认为建设 Societal AI 应该包含五个方面:价值观对齐、数据及模型安全、正确性或可验证性、模型评测、以及跨学科合作。其中,价值观对齐是一个新兴的领域,但其重要性已经得到了工业界和学术界的广泛认可。

所谓价值观对齐,简而言之就是让人工智能在与人和社会合作时,遵循与人类相同的主流价值观,以及实现与人类所期望方向一致的目标。这样能够避免人工智能在进行自动化工作时出现不符合预期的结果,或者是违背人类福祉的对人工智能的滥用。

此前研究者们与此相关的实践主要采用“基于人类反馈的强化学习”(reinforce learning from human feedback,RLHF),本质上是由人去定义一些符合价值观的数据,然后再调整模型与之对齐。但在面对越来越智能且应用场景广泛的人工智能时,这些狭义的、指令化的标准已经显得力不从心,甚至可能被轻易规避或破解。

因此,在 Societal AI 的研究中,我们认为人工智能对齐的目标应该从指令上升至人类的内在价值观,让人工智能可以通过自我判断,来使其行为与人类价值观保持一致。为了实现这一目标,我和团队构建了价值观罗盘(Value Compass)。区别于人类指令与偏好的对齐,该范式强调直接将 AI 模型与社会学、道德学等领域中奠定的人类内在价值维度进行对齐。 

图片

价值观罗盘(Value Compass)示意图

我们面临的任务或者说挑战涉及三个方面:首先,“人类价值观”本身就是一个抽象的概念,要将其用于人工智能,我们需要将其转化为可被人工智能理解的、具体的、可衡量的、可实现的价值观定义;第二,在技术上,如何以价值观定义来规范人工智能的行为;第三,如何有效评测以证明人工智能所表现出的价值观就是其真实拥有的价值观。

通过与社会科学领域专家们的深入交流,针对上述任务我们提出了一些初步的设想和方向,并发表了相关的论文。例如,对于人类价值观的定义,除了广泛使用的 HHH 准则(Helpful, Honest and Harmless,有益、诚实、无害)和主流的特定领域风险指标,如毒性(Toxicity)和偏见(bias)之外,还应引入来自社会科学和伦理学领域的基本价值理论,以从更加普适和多元的角度实现对齐。我们在最近的一篇论文中对价值的定义与对齐的目标进行了详细的梳理与探讨[1]。

对于价值观对齐的技术方法,我们在《大模型道德价值观对齐问题剖析》[2]一文中提出,将基于罗尔斯反思平衡理论的对齐方法作为一种更为综合的价值观对齐方式,通过同时自顶向下和自底向上,可以使模型依据不同优先级的准则动态调整,从而达到最公正的道德决策。

让AI始终处于人类视野之中

人工智能的安全性也是 Societal AI 关注的领域之一。我们不仅要让人工智能主动遵循人类的价值观,而且还要确保其具有安全机制以防止原则被破坏。谈及安全问题,最典型的危机之一是越狱攻击。人工智能的自然交互界面,让“越狱”不再需要高超的计算机技术或专业的黑客工具,即使是计算机“外行”也可能轻易发现人工智能对话逻辑中的漏洞,具备发动越狱攻击的能力。

此外,Societal AI 的研究还涵盖了备受关注的人工智能生成内容的版权问题。随着人工智能创作能力日益增强,我们将不得不探讨人工智能是否能像自然人一样享有版权。而在技术层面,如何界定人与人工智能在合作作品中的各自贡献,也有待合理的判定标准及有效的界定技术。

在 Societal AI 关注的多个课题中,人工智能评测是另一个关键问题。人工智能的智能水平发展到了何种程度?人工智能是否理解并忠实遵循我们赋予它的价值观?人工智能是否能有效抵御越狱攻击?人工智能提供的信息是否真实可靠?…… 这些问题都需要通过有效的评测来回答,以确保人工智能的发展始终在人类的掌控之中。

随着人工智能的智能水平跳跃式提升,人工智能评测也面临着新的挑战。对于传统以任务导向的机器学习,我们可以比较容易地制定出可量化的评测标准,并得到清晰明确的结果。但是,现在人工智能所胜任的工作类型日益多样化,难以被归入某种单一任务模式,甚至还会涉及一些从未被定义过的新任务,那么我们又该如何评判它的结果和方法是否符合我们的预期?

对此,我和团队构建了一个以 PromptBench[3] 为基础架构的大模型评测路线。该评测路线由基础架构、多种任务、不同情形和评测协议四部分构成,可全面覆盖模型评测的各个角度。

图片

以 PromptBench 为基础架构的大模型评测路线示意图

而针对具体的评测方式,我和同事们正在探索两种思路。一种是构建动态且具发展性的评测系统。目前大多数评估协议都是基于静态的公共基准,评估数据集和协议通常是公开可获取的。但这样做存在两个弊端:一是无法准确评测大模型不断提升的智能水平,二是静态公共基准可能被大模型完全掌握,类似于记忆力好的人可以死记硬背下整个考试题库。因此,开发动态的、可不断发展的评测系统,是实现对人工智能真实、公平评测的关键。我们针对此问题开发了 DyVal[4] 这一大语言模型动态评测算法。该算法可通过有向无环图动态生成评测样本,并且具有可扩展的复杂性。

另一种思路是将人工智能视作类似于人类的“通用智能体”,并借鉴其他学科——如心理学、教育学等社会科学的方法论,来为人工智能设计专门的评测基准。我和同事们在今年首先开展了和心理测量学的跨学科合作。在我们看来,心理测量学用于评测人类这一“通用智能体”的独特功能,其方法论或许也适用于通用人工智能,提供传统基准所缺乏的能力,包括预测人工智能在未知任务中的表现和未来潜力;消除测试中的潜在误差以带来更高的准确性;与人类社会价值观更好的融合性。

我们已经在最新的论文[5]中详细阐释了心理测量学在人工智能评测中的可行性和潜力。当然,作为原本用于评测人类的理论和工具,要将其用于人工智能评测还需要大量的跨学科合作研究,但我们认为这是非常值得投入精力的探索方向。

艰难但必要的跨学科合作

如同借鉴心理学方法论进行人工智能测试,推进 Societal AI 与其他学科,特别是社会科学的交融至关重要。前面我们提到的价值观对齐、安全性、模型评测,如果没有社会科学的深度介入,仅靠计算机领域的科学家将难以实现。

在过去的许多计算机科学研究中,学科融合并不是新鲜事物,成功案例也屡见不鲜。但那些已经成熟且有效的跨学科协作形式往往无法直接应用于Societal AI的研究。在我们已经开展的 Societal AI 研究中不乏与社会科学的深入接触,而我切身感受到了一些前所未见的挑战。

图片

首先是学科跨度。以往的学科融合,或是计算机科学与其他科技领域的融合,或是计算机技术扮演为其他学科“赋能”的角色。而在 Societal AI 这个领域,我们不仅要面对“文理科”这样的学科跨度,还常常处于“被赋能者”的位置。社会科学为计算机技术提供了新的视角和工具,这对我们和其他学科的学者来说都是一个未曾涉足的领域,需要从零开始搭建理论框架与方法。

其次是“双料人才”的严重匮乏。在工程、环境、生物、物理、化学、数学等学科中,许多研究人员早已开始利用人工智能技术来辅助研究。然而,在社会学、法学等社会学科中,能同时掌握支撑跨学科研究所需知识的人才则少得多。

第三是计算机科学与社会科学迥异的研究方式。一边是快速迭代和方法优化,一边是经年的研究与观察,如何平衡并有机结合这两种不同的研究方式和节奏,仍是需要探索的问题。

对于这些尚未有明确答案,甚至大方向都尚且存疑的问题,微软亚洲研究院愿以开放的态度,与各学科的研究者进行交流和共同尝试,以期早日找到可行的解决方案。

跨行业、跨学科共同协作,让人工智能主动承担社会责任

最后,容我再次重申 Societal AI 研究的重要性和紧迫性。

从过去一年的经历来看,人工智能很可能不会沿着可预测的线性轨道发展,它的能力与影响随时都可能出现新的爆发。更重要的是,目前人工智能主要活跃于虚拟世界,但物理世界与虚拟世界的壁垒已日趋消融。由此看来,我们的任务不止于让人工智能的创造和决策符合全人类的福祉,更要在人工智能无需借人类之手即可改造物理世界之前,使其道德和价值观与人类普遍认同的原则和利益相一致。

面对计算机科学乃至人类共同面对的新问题,我们希望各行各业、各个学科、各个领域的伙伴都能共同关注 Societal AI,共同努力让人工智能沿着对社会负责的方向积极发展,构建一个更美好、更公正、更智慧的人类与人工智能共生的社会。

相关论文

[1] Yao et al. From Instructions to Intrinsic Human Values--A Survey of Alignment Goals for Big Models. 

https://arxiv.org/abs/2308.12014

[2] 《大模型道德价值观对齐问题剖析》

https://crad.ict.ac.cn/cn/article/doi/10.7544/issn1000-1239.202330553

[3.1] Zhu et al. PromptBench: Towards Evaluating the robustness of large language models on adversarial prompts.

https://arxiv.org/abs/2306.04528

[3.2] PromptBench开源代码库:

https://github.com/microsoft/promptbench  

[4] Zhu et al. DyVal: Graph-informed Dynamic Evaluation of Large Language Models. 

https://arxiv.org/abs/2309.17167 

[5] Wang et al. Evaluating General-Purpose AI with Psychometrics

https://arxiv.org/abs/2310.16379 

本文作者

谢幸博士于2001年7月加入微软亚洲研究院,现任资深首席研究员,中国科学技术大学兼职博士生导师,微软-中科大联合实验室主任。

他1996年毕业于中国科学技术大学少年班,并于2001年在中国科学技术大学获得博士学位,师从陈国良院士。目前,他的团队在数据挖掘、社会计算和负责任的人工智能等领域展开创新性的研究。

谢幸的研究在全球产生了深远的影响,截至目前,他共发表400余篇学术论文,h-index 为106,共被引用40000余次。

他是 ACM Transactions on Recommender Systems、ACM Transactions on Social Computing、ACM Transactions on Intelligent Systems and Technology、CCF Transactions on Pervasive Computing and Interaction 等杂志编委。他是中国计算机学会会士、IEEE 会士、ACM 杰出会员。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1205342.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

python中的切片操作

切片操作: 1.切片操作是访问元素序列的另一种方法,它可以访问一定范围内的元素。通过切片操作形成一个新序列 语法结构: 序列【start:end:step】 参数说明: start:表示切片的开始位置&#x…

027 - STM32学习笔记 - ADC初识(一)

026- STM32学习笔记 - ADC初识(一) 前几天不小心把板子掉地上了,液晶屏摔坏了,暂时先停一下液晶屏的学习,等新的板子来了再继续学习。 一、ADC介绍 ADC指的是Analog to Digital Converter(模数转换器&…

​2005/2008-2022逐年道路网分布数据

道路网(road network)指的是在一定区域内,由各种道路组成的相互联络、交织成网状分布的道路系统。全部由各级公路组成的称公路网。在城市范围内由各种道路组成的称城市道路网。 城市道路网由城镇管辖范围内的各种不同功能的干道和区域…

Collectors.groupingBy方法的使用

Collectors.groupingBy方法的使用 简单使用 业务场景:现在有5个人,这些人都年龄分部在18-30岁之间。现要求把他们按照年龄进行分组 key:年龄 value:数据列表 package com.liudashuai;import java.util.Arrays; import java.uti…

2020年五一杯数学建模C题饲料混合加工问题解题全过程文档及程序

2020年五一杯数学建模 C题 饲料混合加工问题 原题再现 饲料加工厂需要加工一批动物能量饲料。饲料加工需要原料,如加工猪饲料需要玉米、荞麦、稻谷等。加工厂从不同的产区收购了原料,原料在收购的过程中由于运输、保鲜以及产品本身属性等原因&#xff…

windows服务器热备、负载均衡配置

安装网络负载平衡 需要加入的服务器上全部需要安装网络负载平衡管理器 图形化安装:使用服务器管理器安装 在服务器管理器中,使用“添加角色和功能”向导添加网络负载均衡功能。 完成向导后,将安装 NLB,并且不需要重启计算机。 …

Unity Hub无法登陆的两种终极解决办法

最近换了个电脑,需要重装Unity, 然后unity hub 怎么都无法登陆,登陆不了就不能激活personal license。试了很多次,包括unity hub 2.5.8 和unity hub 3.3都不行,真的是很崩溃。因为是公司的电脑,限制比较多&…

【系统安装】ubuntu20.04启动盘制作,正经教程,小白安装教程,百分百成功安装

1.所需材料: 64GBU盘(其实8g和16g也可以) 2.制作U盘启动盘 使用windows制作ubuntu 20.04启动盘 1)下载制作工具:Rufus:Rufus - 轻松创建 USB 启动盘 2)插入用来做启动盘的U盘 3&#xff0…

nodejs+vue+python+PHP+微信小程序-安卓- 电影在线订票系统的设计与实现-计算机毕业设计推荐

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性:…

qnx log 系统

前言 本文主要介绍QNX 系统中的 log 打印相关接口和使用方法 软件环境:qnx7.1 一、QNX查看 log 的工具 slog2info 1. slog2info 的相关介绍 和linux 中查看 kernel log 信息的 dmesg 命令一样, qnx 里面也有一个查看 log 信息的命令,那就是 slog2info 命令, 如下图所示是…

Jenkins的介绍与相关配置

Jenkins的介绍与配置 一.CI/CD介绍 1.CI/CD概念 ①CI 中文意思是持续集成 (Continuous Integration, CI) 是一种软件开发流程,核心思想是在代码库中的每个提交都通过自动化的构建和测试流程进行验证。这种方法可以帮助团队更加频繁地交付软件&#x…

无监督学习的集成方法:相似性矩阵的聚类

在机器学习中,术语Ensemble指的是并行组合多个模型,这个想法是利用群体的智慧,在给出的最终答案上形成更好的共识。 这种类型的方法已经在监督学习领域得到了广泛的研究和应用,特别是在分类问题上,像RandomForest这样…

【深度学习】机器翻译的前世今生

我们都知道谷歌翻译,这个网站可以像变魔术一样在100 种不同的人类语言之间进行翻译。它甚至可以在我们的手机和智能手表上使用: 谷歌翻译背后的技术被称为机器翻译。它的出现改变了世界交流方式。 事实证明,在过去几年中,深度学习…

搜索引擎项目

认识搜索引擎 1、有一个主页、有搜索框。在搜索框中输入的内容 称为“查询词” 2、还有搜索结果页,包含了若干条搜索结果 3、针对每一个搜索结果,都会包含查询词或者查询词的一部分或者和查询词具有一定的相关性 4、每个搜索结果包含好几个部分&…

5 新的关键字

动态内存分配 回想C语言中,动态内存是怎么分配的?通过C库里面的malloc free去进行动态内存分配。 C通过new关键字进行动态内存申请,动态内存申请是基于类型进行的。 delete 关键字用于内存释放。 //变量申请 type* pointer new type; dele…

TDengine 与煤科院五大系统实现兼容性互认,助力煤矿智能化安全体系搭建

近日,涛思数据与煤炭科学技术研究院(以下简称煤科院)已完成数个产品兼容互认证工作,经双方共同严格测试,涛思数据旗下物联网、工业大数据平台 TDengine V3.X 与煤炭科学技术研究院旗下煤矿复合灾害监测监控预警系统、煤…

css渐变背景,linear-gradient()线性渐变和radial-gradient()径向渐变

嗨,大家好,我是爱搞知识的咸虾米。 许多APP、小程序、网站等都喜欢采用渐变色背景,这样做不但可以增加设计感,而且能提升品牌辨识度。 所以,今天使用css的线性渐变和径向渐变,给大家将这几种不同类型的渐变…

web 服务

作业:请给openlab搭建web网站 网站需求: 1.基于域名 www.openlab.com 可以访问网站内容为 welcome to openlab!!! 2.给该公司创建三个子界面分别显示学生信息,教学资料和缴费网站, 1、基于 www.openlab.com/student 网站访问学生信…

适配器模式 rust和java的实现

文章目录 适配器模式介绍何时使用应用实例优点缺点使用场景 实现java实现rust 实现 rust代码仓库 适配器模式 适配器模式(Adapter Pattern)是作为两个不兼容的接口之间的桥梁。这种类型的设计模式属于结构型模式,它结合了两个独立接口的功能…

时序数据库 TDengine + 高级分析软件 Seeq,助力企业挖掘时序数据潜力

作为一款制造业和工业互联网(IIOT)高级分析软件,Seeq 支持在工艺制造组织中使用机器学习创新的新功能。这些功能使组织能够将自己或第三方机器学习算法部署到前线流程工程师和主题专家使用的高级分析应用程序,从而使单个数据科学家…