Nat. Mach. Intell. | 预测人工智能的未来:在指数级增长的知识网络中使用基于机器学习的链接预测

news2025/1/23 22:37:32

今天为大家介绍的是来自Mario Krenn团队的一篇论文。一个能够通过从科学文献中获取洞见来建议新的个性化研究方向和想法的工具,可以加速科学的进步。一个可能受益于这种工具的领域是人工智能(AI)研究,近年来科学出版物的数量呈指数级增长,这使得人类研究者难以跟上进展。在这里,作者使用AI技术来预测AI自身的未来研究方向。

1d632b39e5b492f99275751b79a2d7bc.png

科学文献的语料库以越来越快的速度增长。特别是在人工智能(AI)和机器学习(ML)领域,每个月的论文数量都在以大约23个月翻一番的速度指数级增长(见图1)。同时,AI社区正在吸纳来自数学、统计学和物理学等多个学科的多样化思想,这使得组织不同的想法和发现新的科学联系变得更具挑战性。作者设想一个计算机程序可以自动阅读、理解并对AI文献采取行动。它可以预测并提出超越个人知识和跨领域界限的有意义研究想法。如果成功,它可以极大地提高AI研究人员的生产力,开辟新的研究途径,并帮助推动该领域的进步。在这项工作中,作者着手实现通过数据驱动方法预测未来研究方向。由于新的研究想法往往来自于看似不相关概念的连接,作者将AI文献的演化模拟为一个时间网络。

1c34602c533a6828612a0975c054d21c.png
图 1

语义网络

语义网络的目标是从科学文献中提取知识,随后可以由计算机算法处理。乍看之下,这个流程的第一步可能是使用大型语言模型对每篇文章进行处理,自动提取概念及其关系。然而,这些方法在推理能力上仍然存在困难;因此,目前还不清楚这些模型如何用于识别和建议新的想法和概念组合。研究人员开创了一种替代方法,在生物化学中从科学论文中共现的概念创建语义网络。在那里,节点代表科学概念,特别是生物分子,并且当论文在其标题或摘要中提及两者时就会被链接。这个不断演化的网络捕捉了该领域的历史,并使用超级计算机模拟,提供了对科学家集体行为的洞察,并建议了更有效的研究策略。尽管从概念共现中创建语义网络只从每篇论文中提取了少量知识,但当应用于大型数据集时,它捕捉到了有意义且可操作的内容。PaperRobot通过从大型医学知识图中预测新链接,并以人类语言形式制定新想法作为论文草案,扩展了这一方法。这种方法被应用并扩展到量子物理学,通过构建一个包含6,000多个概念的语义网络。研究人员将新研究趋势和联系的预测形式化为一个ML任务,目标是识别文献中尚未共同讨论但可能在未来被调查的概念对。这个预测任务是为个性化建议新研究想法的一个组成部分。

作者将未来研究主题的预测形式化为人工智能领域中一个指数级增长的语义网络中的链接预测任务。目标是预测未来哪些尚未连接的节点,代表尚未共同研究的科学概念,将会被连接起来。链接预测在计算机科学中是一个常见问题,通过经典的度量和特征以及机器学习技术来解决。在语义网络中对研究方向进行预测的目标是向研究者提供新的想法。在某种程度上,作者希望建立一个在科学上有创造力的人工缪斯。除此之外,还可以偏向或约束模型,以提供与个别科学家的研究兴趣相关的主题建议,或者为两位科学家的跨学科合作提供合作主题。

数据的来源

f1979ffcf6a4ea8c563c8b3e517d5d78.png
图 2 

b1148850f2f5cc3dc7b13e195be096cd.png
图 3

5dbab8aa5c21b785f407b528e8f7d1e1.png
图 4

9a0e65c77f8805be39570b980d8e20ca.png
图 5

作者使用1992年到2020年在arXiv上发布的论文,在类别cs.AI、cs.LG、cs.NE和stat.ML中,创建了一个动态的语义网络。64,719个节点代表从143,000篇论文标题和摘要中提取的AI概念,这些概念是通过快速自动关键词提取(RAKE)获取的,并通过自然语言处理(NLP)技术和自定义方法进行了规范化。作者的目标是构建一个可扩展的方法,适用于任何科学领域。概念形成语义网络的节点,当概念在论文标题或摘要中共现时就会画出相互连接的边。边有基于论文发表日期的时间戳属性,常见的是概念之间有多个时间戳的边。网络是加权的,边的权重代表连接两个概念的论文数量。总的来说,这创建了一个随时间演化的语义网络,如图2所示。发布的语义网络有64,719个节点和17,892,352个独特的无向边,平均节点度为553。许多中心节点的度远远超过这个平均值,如图3所示。观察到随时间网络连通性的变化。尽管度分布仍然是重尾的,但由于流行趋势的影响,尾部内的节点顺序发生了变化。最具连接性的节点以及它们成为这样的年份包括决策树(1994年)、机器学习(1996年)、逻辑程序(2000年)、神经网络(2005年)、实验结果(2011年)、机器学习(2013年,第二次)和神经网络(2015年)。图4中的连通分量分析显示,网络随着时间的推移变得更加连通,最大的研究群体扩大了,而网络整体的连通分量的数量减少了。语义网络揭示了随时间的增加中心化,百分比更小的节点(概念)贡献了更大的边缘(概念组合)部分,如图5显示。这可能是由于AI社区对少数主导方法越来越关注,或者对术语使用的更一致。

实验部分

fc337fc6b2197798a6dc8788010427b9.png
图 6

作者展示了预测语义网络中新链接(基于2020年前的数据训练,预测2021年的研究)的各种方法,范围从纯统计学方法到带有手工制作特征(NF)的神经网络,再到不含NF的机器学习(ML)模型。结果显示在图6中,使用NF作为ML模型输入的方法获得了最高的AUC分数。没有ML的纯网络特征也具有竞争力,而纯ML方法尚未胜过那些带有NF的方法。预测至少产生三次的网络链接可以达到AUC > 0.995。

结论

作者的方法代表着向开发一个可以帮助科学家发现新的探索途径的工具迈出的关键一步。作者相信,文章中概述的想法和扩展为实现实用、个性化、跨学科的基于AI的新发现建议铺平了道路。并且坚信,这样的工具具有成为影响深远的催化剂的潜力,它将改变科学家们在各自领域内提出研究问题和协作的方式。

参考资料

Krenn, M., Buffoni, L., Coutinho, B. et al. Forecasting the future of artificial intelligence with machine learning-based link prediction in an exponentially growing knowledge network. Nat Mach Intell (2023). 

https://doi.org/10.1038/s42256-023-00735-0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1268331.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Kong处理web服务跨域

前言 好久没写文章了,大概有半年多了,这半年故事太多,本文写不下,就写写文章标题问题! 问题描述 关于跨域的本质问题我这里不过多介绍,详细请看历史文章 跨域产生的原因以及常见的解决方案。 我这边是新…

对二分搜索的理解 Go语言版

二分搜索大家都很熟悉&#xff0c;首先我们先来看看基本框架 func binarySearch(nums []int, target int) int {left, right : 0, ...for ... {mid : left (right-left)/2if nums[mid] target {...} else if nums[mid] < target {left ...} else if nums[mid] > targ…

【Pytorch】Visualization of Feature Maps(4)——Saliency Maps

学习参考来自 Saliency Maps的原理与简单实现(使用Pytorch实现)https://github.com/wmn7/ML_Practice/tree/master/2019_07_08/Saliency%20Maps Saliency Maps 原理 《Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps》&…

如何设置Linux终端提示信息

如何设置Linux终端提示信息 1 方法一&#xff1a;只能在VSCode或者Pycharm显示2 方法二&#xff1a;只能在MobaXterm等远程软件上显示&#xff0c;但全用户都会显示3 方法三&#xff1a;避免用户没看到上面的提示&#xff0c;上面两种都设置一下 在使用远程终端时&#xff0c;由…

基于Qt QChart和QChartView实现正弦、余弦、正切图表

# 源码地址 https://gitcode.com/m0_45463480/QChartView/tree/main# .pro QT += charts​​HEADERS += \ chart.h \ chartview.h​​SOURCES += \ main.cpp \ chart.cpp \ chartview.cpp​​target.path = $$[QT_INSTALL_EXAMPLES]/charts/zoomlinechartINSTAL…

L1-004:计算摄氏温度

题目描述 给定一个华氏温度F&#xff0c;本题要求编写程序&#xff0c;计算对应的摄氏温度C。计算公式&#xff1a;C5(F−32)/9。题目保证输入与输出均在整型范围内。 输入格式&#xff1a;输入在一行中给出一个华氏温度。 输出格式&#xff1a;在一行中按照格式“Celsius C”…

如何使用录屏软件在电脑录制PDF文件

我有一个PDF文件&#xff0c;想用录屏软件将它录制下来并添加上详细的注释&#xff0c;然后发给客户看&#xff0c;请问应该如何录制呢&#xff1f;有没有推荐的录屏软件呢&#xff1f; 不用担心&#xff0c;本文将会详细的为您讲解如何使用录屏软件在电脑端录制PDF文件&#…

GoLang切片

一、切片基础 1、切片的定义 切片&#xff08;Slice&#xff09;是一个拥有相同类型元素的可变长度的序列它是基于数组类型做的一层封装它非常灵活&#xff0c;支持自动扩容切片是一个引用类型&#xff0c;它的内部结构包含地址、长度和容量声明切片类型的基本语法如下&#…

Mac单独修改应用语言

方法1: 方法2: defaults write com.microsoft.Excel AppleLanguages ("zh-cn") defaults write com.microsoft.Word AppleLanguages ("zh-cn")参考&#xff1a;https://www.zhihu.com/question/24976020

Javaweb之Vue组件库Element案例的详细解析

4.4 案例 4.4.1 案例需求 参考 资料/页面原型/tlias智能学习辅助系统/首页.html 文件&#xff0c;浏览器打开&#xff0c;点击页面中的左侧栏的员工管理&#xff0c;如下所示&#xff1a; 需求说明&#xff1a; 制作类似格式的页面 即上面是标题&#xff0c;左侧栏是导航&…

vue高频面试题(2023),有回答思路,并且让你回答清晰

一、对MVC&#xff0c;MVP&#xff0c;MVVM的理解 三者都是项目的架构模式&#xff08;不是类的设计模式&#xff09;&#xff0c;即&#xff1a;一个项目的结构&#xff0c;如何分层&#xff0c;不同层负责不同的职责。 1、MVC&#xff1a; MVC的出现是用在后端&#xff08;…

SpringMVC—拦截器

1 拦截器概念 1.1 简介 拦截器是一种动态拦截方法调用的机制&#xff0c;在 SpringMVC 中动态拦截控制器方法的执行 【注】拦截器底层实现为AOP 作用&#xff1a; 在指定的方法调用前后执行预先设定的代码阻止原始方法的执行 1.2 拦截器和过滤器的区别 ① 归属不同&#…

高效的将两个文件夹中多余的文件删除

高效的将两个文件夹中多余的文件删除 解决方案 之前使用的是这个方法&#xff0c;但是图像太多&#xff0c;需要删除的有70W张&#xff0c;得删10多天。。 将两个文件夹中重复的图象删除 解决方案 先将image图像复制一份&#xff0c;然后改名为txt import osdef change_file…

SpringBoot——Swagger2 接口规范

优质博文&#xff1a;IT-BLOG-CN 如今&#xff0c;REST和微服务已经有了很大的发展势头。但是&#xff0c;REST规范中并没有提供一种规范来编写我们的对外REST接口API文档。每个人都在用自己的方式记录api文档&#xff0c;因此没有一种标准规范能够让我们很容易的理解和使用该…

【JavaWeb】会话过滤器监听器

会话&过滤器&监听器 文章目录 会话&过滤器&监听器一、会话1.1 Cookie1.2 Session1.3 三大域对象 二、过滤器三、监听器3.1 application域监听器3.2 session域监听器3.3 request域监听器3.4 session域的两个特殊监听器3.4.1 session绑定监听器3.4.2 钝化活化监听…

【Vulnhub 靶场】【Coffee Addicts: 1】【简单-中等】【20210520】

1、环境介绍 靶场介绍&#xff1a;https://www.vulnhub.com/entry/coffee-addicts-1,699/ 靶场下载&#xff1a;https://download.vulnhub.com/coffeeaddicts/coffeeaddicts.ova 靶场难度&#xff1a;简单 - 中等 发布日期&#xff1a;2021年5月20日 文件大小&#xff1a;1.3 …

SparkSQL远程调试(IDEA)

启动Intellij IDEA&#xff0c;打开spark源码项目&#xff0c;配置远程调试 Run->Edit Configuration 启动远程spark-sql spark-sql --verbose --driver-java-options "-Xdebug -Xrunjdwp:transportdt_socket,servery,suspendy,address5005"运行远程调试&#xf…

【面试】css预处理器之sass(scss)

目录 为什么引入css预处理器 可读性 嵌套&#xff1a;关系明朗 选择器 属性 伪类‘’ 变量&#xff1a;语义明确 默认变量&#xff1a;美元符号 $ 变量名:值 !default 全局变量&#xff1a;:global { $global-x: } 变量插值&#xff1a;#{} map键值对&#xff1a;$…

【Java SE】带你在String类世界中遨游!!!

&#x1f339;&#x1f339;&#x1f339;我的主页&#x1f339;&#x1f339;&#x1f339; &#x1f339;&#x1f339;&#x1f339;【Java SE 专栏】&#x1f339;&#x1f339;&#x1f339; &#x1f339;&#x1f339;&#x1f339;上一篇文章&#xff1a;带你走近Java的…

C++初阶(十三)vector

&#x1f4d8;北尘_&#xff1a;个人主页 &#x1f30e;个人专栏:《Linux操作系统》《经典算法试题 》《C》 《数据结构与算法》 ☀️走在路上&#xff0c;不忘来时的初心 文章目录 一、vector的介绍二、vector的模拟实现1、模拟实现2、测试结果 一、vector的介绍 vector的文…