美国 AGU 发布 AI 应用手册,明确 6 大指导方针

news2024/9/24 23:32:10

爆发性的 AI 应用:风险与机遇并存

在空间和环境科学领域,AI 工具的应用越来越广泛——诸如天气预报和气候模拟,能源及水资源管理等等。可以说,我们正在经历前所未有的 AI 应用爆发,面对其中的机遇与风险,更加需要审慎思考。

美国地球物理联盟 (AGU) 的跟踪报告进一步揭示了 AI 工具的广泛应用,从 2012-2022年,摘要中提到 AI 的论文数量呈现指数级增长,这凸显了其在天气预报、气候模拟、资源管理等方面的巨大影响。


AI 相关论文发表趋势

然而,AI 释放强大能量的同时也带来了潜在的风险,其中,训练不足的模型或不当设计的数据集,可能导致不可靠的结果甚至潜在危害。例如,将龙卷风报告作为输入数据集,训练数据可能会偏向人口稠密的地区,因为在那里会观察和报告更多的天气事件。作为结果,该模型可能会高估城市地区的龙卷风,低估农村地区的龙卷风,从而造成危害。


这一现象也引发了重要思考——人们在什么时候、什么程度上能够信任 AI,规避可能产生的风险?


在 NASA 的支持下,AGU 召集专家制定了一套「在空间和环境科学中应用人工智能」的指导方针,着重关注了 AI 应用中可能存在的伦理和道德问题,不仅仅局限于空间与环境科学这一特定领域,更为全方位的 AI 应用提供了引导。相关内容已发表于「Nature」。


论文发表于Nature

论文链接:

https://www.nature.com/articles/d41586-023-03316-8

关注公众号,后台回复「指导方针」获取论文完整 PDF

帮助建立信任的六大指导方针

目前,很多人对于 AI/ML 的可信问题仍持观望态度。为帮助研究人员/科研机构建立对 AI 的信任,AGU 建立了六大指导方针:
为保留原意,笔者将译文和原文一并附上

对研究人员的指导

1. Transparency, Documentation and Reporting

在 AI/ML 研究中,透明度和全面的文件记录至关重要。不仅要提供数据和代码,还要记录参与者及问题解决方式,包括处理不确定性和偏见。透明度应贯穿研究的始终,从概念开发到应用过程中都需考虑。

2. Intentionality, Interpretability, Explainability, Reproducibility and Replicability

在使用 AI/ML 进行研究时,必须着重考虑意向性、可解释性、可重复性和可复制性。优先选择开放式科学方法,提高模型的可解释性和可重复性,鼓励开发解释 AI 模型的方法。

3. Risk, Bias and Effects

了解和管理数据集及算法的潜在风险和偏见对研究至关重要。通过更好地理解风险和偏见的来源,以及识别这些问题的方法,能更有效地管理和应对不利结果,最大限度地扩大公共利益和效果。

4. Participatory Methods

在 AI/ML 研究中,采用包容性设计和实施方法是非常重要的。确保不同社区、专业领域和背景的人都有发言权,特别是对于可能受到研究影响的社区。共同生产知识、参与项目和协作对于确保研究的包容性至关重要。

对学术组织(包括研究机构、出版社、协会和投资人)的指导

5. Outreach, Training and Leading Practices

学术组织需要为各个行业提供支持,确保提供有关 AI/ML 伦理使用的培训,包括研究人员、从业者、资助者和更广泛的 AI/ML 社区。科学协会、机构和其他组织应提供资源和专业知识,支持 AI/ML 道德培训,并教育社会决策者了解 AI/ML 在研究中的价值和局限性,以便做出负责任的决策,从而减少其负面影响。

6. Considerations for Organizations, Institutions, Publishers, Societies and Funders

学术组织有责任牵头建立和管理 AI/ML 道德问题的相关政策,包括行为准则、原则、报告方法、决策过程和培训,应阐明价值观,设计治理结构,包括文化建设,以确保道德 AI/ML 实践得以贯彻。此外,跨组织和机构执行这些责任是必要的,以确保道德实践在整个领域中得到落实。

关于 AI 应用的更详细建议

1. 留意偏差(Watch out for gaps and biases)

当涉及人工智能模型和数据时,务必警惕其中的空白和偏见。数据质量、覆盖范围和种族偏见等因素都能影响模型结果的准确性和可靠性,这可能带来意想不到的风险。

例如,某些地区的环境数据覆盖范围或真实性远优于其他地区。云层遮挡频繁的地区(如热带雨林)或传感器覆盖较少的地区(如极地),将提供较少的代表性数据。

数据集的丰富性和质量常偏向富裕地区,忽视弱势群体,包括长期受歧视的社区。而这些数据通常用于为公众、企业和政策制定者提供建议和行动方案,例如在健康数据中,基于白人数据训练的皮肤病学算法在诊断黑人的皮肤损伤和皮疹方面准确性较低。

机构应着重培训研究人员,审视数据和模型的准确性,并设立专业委员会监督人工智能模型的使用。

2.开发解释人工智能模型工作原理的方法(Develop ways to explain how AI models work )

研究人员在使用经典模型进行研究并发表论文时,读者通常希望他们提供底层代码和相关规范的访问权限。然而,目前尚未明确要求研究者提供此类信息,导致他们使用的 AI 工具缺乏透明度和可解释性。这意味着,即使使用相同的算法处理相同的实验数据,不同的实验方式也可能无法精确地复制结果。所以,在已公开发表的研究中,研究人员应清晰记录如何构建、部署人工智能模型,以供他人评估结果。


研究人员建议进行跨模型的比较,并将数据源分成比较组以检查。行业迫切需要进一步的标准和指导来解释和评估人工智能模型的工作方式,以便在产出结果的同时进行与统计信心水平相当的评估。


目前,研究人员和开发人员正在研究一种称为可解释 AI (XAI) 的技术,旨在通过量化或可视化输出,使用户更好地理解人工智能模型的运作方式。比如,在短期天气预报中,人工智能工具能够分析每隔几分钟就获得的大量遥感观测数据,从而提高对严重天气灾害的预测能力。


清晰地解释产出结果的达成方式对于评估预测的有效性和实用性至关重要。比如,在预测火灾或洪水的可能性和程度时,这种解释能帮助人类判断是否向公众发出警报,或者使用其他人工智能模型的输出。在地球科学领域,XAI 试图量化或可视化输入数据的特征,以更好地理解模型输出的情况。研究人员需要检查这些解释,并确保其合理性。


人工智能工具正被用于评估环境观测

3. 建立伙伴关系,提高透明度(Forge partnerships and foster transparency)

研究人员需要在每个阶段都注重透明度:分享数据和代码、考虑进一步的测试以确保可复制性和可重复性、应对方法中的风险和偏差、以及报告不确定性。这些步骤需要更详细地描述方法。为确保全面性,研究团队的人员构成中应包含使用各类数据的专家,同时邀请参与提供数据或可能受研究结果影响的社区成员。例如,有个基于人工智能的项目结合了加拿大塔鲁人的传统知识和非本土方法收集的数据,以确定最适合进行水产养殖的地区(详见 http://go.nature.com/46yqmdr)


水产养殖项目图片

4. 持续支持数据整理和监管(Sustain support for data curation and stewardship)

跨学科研究领域对于数据、代码和软件报告的要求需要符合 FAIR 原则:可找到、可访问、可互操作和可重用。为了建立对人工智能和机器学习的信任,需要公认、质量可靠的数据集,并且公开错误和解决方案。


当前面临的挑战是数据的存储,如通用存储库的广泛使用可能导致元数据问题,影响数据来源跟踪和自动访问。一些先进的学科研究数据存储库提供质量检查和信息补充的服务,但这通常需要投入人力和时间成本。


此外,文章还提到了对存储库的资金支持、不同存储库类型的限制以及对特定领域存储库的需求不足等问题。学术组织、资助机构等应当对支持和维护适当的数据存储库提供持续金融投资。


研究者越来越倾向于选择通用的数据存储库

5. 关注长期影响(Look at long-term impact)

在研究人工智能和机器学习在科学领域广泛应用的过程中,必须着眼于长期影响,确保这些技术能够减少社会差距、增强信任,积极包容不同意见和声音。

关于 AI 使用,听听中国怎么说

「怎么使用 AI,怎么用好 AI」,同样也是我国 AI 领域近年来的热议话题。


今年的两会代表眼中,人工智能是数字技术创新最活跃的领域之一,以生成式 AI(AIGC)、大规模预训练模型、知识驱动 AI 为代表的新技术释放着行业新机遇,需要抓住技术发展的「时间窗口」。


小米集团创始人、董事长兼 CEO 雷军提出鼓励扶持科创产业链,推进仿生机器人产业规划布局;加快制定汽车全生命周期的数据安全标准,指导产业发展;构建汽车数据共享机制及平台,促进汽车数据共享使用。


360 创始人周鸿祎则希望打造中国的「微软+OpenAI」组合,引领大模型技术攻关,打造开源众包的开放创新生态。


张伯礼院士建议设立生物医药制造重大专项,支持智能制药关键技术与装备研发,鼓励生物制药装备的发展。


由此可见,两会代表、委员均十分看好人工智能赛道。不止赋能科技,我们更期待在建立信任,谨慎使用的方针下,AI 能够更好的帮助企业和社会的发展。

参考文献:
https://www.nature.com/articles/d41586-023-03316-8
https://doi.org/10.22541/essoar

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1315298.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

📋 博主简介 💖 作者简介:大家好,我是wux_labs。😜 热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP…

Power BI - 5分钟学习增加索引列

每天5分钟,今天介绍Power BI增加索引列。 什么是增加索引列? 增加索引列就是向表中添加一个具有显式位置值的新列,一般从0或者从1开始。 举例: 首先,导入一张【Sales】样例表(Excel数据源导入请参考每天5分钟第一天)…

目前最火的大模型训练框架 DeepSpeed 详解来了

目前,大模型的发展已经非常火热,关于大模型的训练、微调也是各个公司重点关注方向,但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。…

Android 移动端编译 cityhash动态库

最近做项目, 硬件端 需要 用 cityhash 编译一个 动态库 提供给移动端使用,l 记录一下 编译过程 city .cpp // // Created by Administrator on 2023/12/12. // // Copyright (c) 2011 Google, Inc. // // Permission is hereby granted, free of charg…

Win11黑屏死机怎么办?

Win11黑屏死机是一个令人烦恼的问题,特别是对于那些计算机知识并不充裕的人来说。那么Win11死机黑屏怎么办呢?下面我们就来了解一下。 方案一:卸下外部硬盘驱动器 有些时候,电脑的外部硬件可能会导致电脑黑屏问题。在这种情况下&…

【️Java和C++主要的区别有哪些?各有哪些优缺点?】

✅Java和C主要的区别有哪些?各有哪些优缺点? ✅Java和C分别代表两种类型的语言✅ C是编译型语言✅ Java是解释型语言✅ 两者更多的主要区别如下: ✅知识拓展✅Java与C的参数方法有什么区别? ✅Java和C分别代表两种类型的语言 Java…

生成小程序URLlink链接遇到的坑

这里写自定义目录标题 前端生成小程序URL link背景用户打开小程序的常用方法短链接短链接优缺点优点缺点 生成短链接步骤 可能会遇到的问题:其他 注意📢 前端生成小程序URL link ![h5打开小程序](https://img-blog.csdnimg.cn/direct/a4cfe3ef6d184c6d9…

打造微信私域有什么优势?

随着线上竞争愈发激烈,获客成本逐步攀升,越来越多的企业都开始打造属于自己的私域流量池。而作为目前全球拥有超过10亿活跃用户的平台,微信无疑是构建私域的理想选择。那么使用微信来打造私域流量有哪些优势呢? 打造微信私域的优势包括但不…

【Docker六】Docker-consul

目录 一、docker-consul概述 1、服务注册和发现: 1.1、服务注册和发现概念 1.2、服务注册和发现工作机制: 1.3、服务注册与发现的优点: 2、docker-consul概念 2.1、consul的主要特点: 二、consul架构部署: 1、…

VS Code连接远程Linux服务器调试MPI程序

1.在 VS Code 上安装扩展 C/C 2.通过 VS Code 连接远程 Linux 服务器 3.通过 VS Code 在远程 Linux 服务器上安装扩展 C/C 4.打开远程 Linux 服务器上的文件夹 【注】本文以 /root/ 为例。 5.创建项目文件夹,并在项目文件夹下创建MPI程序 6.点击左侧菜单栏的…

Docker构建镜像时空间不足:/var/lib/docker,no space left on device

背景 在一次更新业务服务功能后,重新在服务器上构建微服务镜像,在构建镜像时报错空间不足: /var/lib/docker, no space left on device 赶紧用 df -h 看了下磁盘使用情况,果然, devicemapper 已经满了。。由于需要紧急…

PyQt6 QToolBar工具栏控件

锋哥原创的PyQt6视频教程: 2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili2024版 PyQt6 Python桌面开发 视频教程(无废话版) 玩命更新中~共计44条视频,包括:2024版 PyQt6 Python桌面开发 视频教程(无废话版…

数据库 02-03 补充 SQL的子查询(where,from),子查询作为集合来比较some,exists,all(某一个,存在,所有)

子查询: where字句的子查询: 通常用in关键字: 举个例子: in关键字: not in 关键字: in 也可以用于枚举集合: where中可以用子查询来作为集合来筛选元祖。 some,all的运算符号…

【JavaScript】闭包的理解

闭包是指在一个函数内部创建另一个函数,并且内部函数可以访问外部函数的变量、参数以及其他内部函数,即使外部函数已经执行完毕。这种机制使得内部函数保留了对外部作用域的引用,即使外部作用域已经不再活跃。 为什么闭包重要? 闭…

Unity | Shader基础知识(第六集:语法<如何加入外部颜色资源>)

目录 一、本节介绍 1 上集回顾 2 本节介绍 二、语法结构 1 复习 2 理论知识 3 Shader里声明的写法 4 Properties和SubShader毕竟不是一家人 三、 片元着色器中使用资源 四、代码实现 五、全部代码 六、下集介绍 相关阅读 Unity - Manual: Writing Surface Shaders…

ES-模糊查询

模糊查询 1 wildcard 准备数据 POST demolike/_bulk {"index": {"_id": "1"} } {"text": "草莓熊是个大坏蛋" } {"index": {"_id": "2"} } {"text": "wolf 也是一个坏蛋&q…

大数据组件:Hadoop

文章目录 1、Hadoop 是什么2、Hadoop 优势3、Hadoop 组成(1)HDFS(2)YARN(3)MapReduce 架构概述(4)HDFS、YARN、MapReduce 三者关系(5)大数据技术生态体系&…

AWTK 串口屏开发(2) - 数据绑定高级用法

AWTK 串口屏 智能家居示例 1. 功能 这个例子稍微复杂一点,界面这里直接使用了 立功科技 ZDP1440 HMI 显示驱动芯片 例子中的 UI 文件和资源,重点关注数据绑定。在这里例子中,模型(也就是数据)里包括一台空调和一台咖…

STM32与Freertos入门(六)队列

1、队列介绍 队列是FreeRTOS提供的一种重要的通信机制,用于在任务之间传递数据。 FreeRTOS队列是一种先进先出(FIFO)的数据结构,用于在任务之间传递消息或数据项。它允许一个任务将数据项发送到队列,而另一个任务则可…

Linux部署MySQL5.7和8.0版本 | CentOS和Ubuntu系统详细步骤安装

一、MySQL数据库管理系统安装部署【简单】 简介 MySQL数据库管理系统(后续简称MySQL),是一款知名的数据库系统,其特点是:轻量、简单、功能丰富。 MySQL数据库可谓是软件行业的明星产品,无论是后端开发、…