AI搜索引擎助力科学家创新

news2024/11/15 23:04:26

开发者希望通过帮助科学家从大量文献中发现联系从而解放科学家,让他们专注于发现和创新。

f7aceee6385ffdc0e200d4cc39a0512f.png

图片来源:The Project Twins

对于专注于历史的研究者Mushtaq Bilal来说,他在未来科技中投入了大量时间。

Bilal在丹麦南部大学( University of Southern Denmark )欧登塞分校做博士后,他的研究方向为19世纪文学中小说的演变。然而,最有影响力的是他的在线教程,他在其中作为学术界和利用人工智能(AI)迅速扩张的搜索工具之间的非正式大使。

多年来,借助于文学背景,Bilal一直在解构学术写作的过程,但现在他的工作已经有了新方向。他说:“去年11月ChatGPT出现时,我意识到可以使用不同的AI应用程序实现许多写作步骤的自动化。”

由机器学习和大型语言模型驱动的新一代搜索引擎正在超越关键字搜索,从科学文献错综复杂的网络中提取并建立关联关系。一些程序,如Consensus,可对是非问题给出基于研究背景的答案;其他程序,如Semantic Scholar,Elicit和Iris,仅能充当数字化助手,如整理参考目录,推荐新的论文和生成研究摘要等。整体上,这些平台为写作早期提供了便利。然而,批评家指出,这些程序尚未通过测试,有可能会延续学术出版过程中存在的偏差。

工具开发团队表示,这些工具是为了应对“信息过载”(information overload),释放科学家们的创造性。华盛顿州西雅图的艾伦人工智能研究所(Allen Institute for Artificial Intelligence )的Daniel Weld和Semantic Scholar的首席科学家表示,科学知识的增长速度如此之快,以至于科学家几乎不可能掌握最新的研究进展。“大多数搜索引擎会帮你找到论文,但需要你自己尝试获取其中的信息。”他说。AI工具可将论文精炼为关键点从而有助于使这些信息更易于获取,Weld说。“我们都是Google Scholar的忠实粉丝,我仍然觉得它很有帮助,但我们可以做得更好。”

## 下一个伟大的想法

做得更好的关键在于另一种类型的搜索。Google Scholar,PubMed和其他标准搜索工具使用关键字来定位相似的论文。相比之下,AI算法使用向量比较。论文被翻译成一组数字,称为向量,其在“向量空间”中的接近程度对应于它们的相似性。“我们可以解析搜索查询的更多含义,因为向量中嵌入的上下文信息比文本本身嵌入的更多。”,位于加利福尼亚州旧金山的Consensus的首席软件工程师Megan Van Welie解释说。

Bilal使用AI工具跟踪论文之间的联系,进入了有趣的兔子洞。在研究巴基斯坦小说中对穆斯林的描述时,基于他的搜索,AI生成的推荐引导Bilal走向孟加拉文学,并在他的论文中阐述了这部分内容。博后期间,Bilal专注于研究安徒生童话在印第安殖民地是如何被解释的。“所有花在孟加拉文学史上的时间都涌了回来,”他说。Bilal使用Elicit来迭代和完善他的问题,利用Research Rabbit识别来源,Scite(它不仅告诉用户论文被引用的频率,还会指出施引论文中的具体内容)来跟踪学术论著。

位于伦敦卫生与热带医学学院的冈比亚医学研究委员会单位疫苗学团队的研究技术员Mohammed Yisa关注了Bilal的Twitter(现在称为X),有时Yisa会花时间测试Bilal推文中提到的平台。

Yisa特别喜欢使用Iris,这是一个创建类似地图的可视化搜索引擎,将论文与主题相连接。将“种子论文”输入到Iris中会生成一个相关出版物的嵌套地图,类似于世界地图。点击地图的深层部分就像从全国范围的视图缩放到州(子主题)和城市(个别论文)。

Yisa表示:“我认为自己是一个视觉学习者,地图可视化是我以前从未见过的。”他目前正在使用这些工具识别关于疫苗公平性的综述性文章,“看看谁现在在谈论它,正在说什么,以及什么还没有被提到”。

其他工具,如Research Rabbit和LitMaps,通过节点的网络映射将论文连接在一起。一款针对医疗专业人士的搜索引擎System Pro,创建了类似的可视化效果,主题之间通过相关性连接在一起。

尽管这些搜索依赖于“提取算法”( extractive algorithms)来提取有用的片段,但一些平台正在推出生成式功能,使用AI创建原始文本。例如,艾伦研究所的Semantic Reader“将AI引入到PDF手稿的阅读体验中”,Weld说。如果用户在方程式中遇到一个符号或者在文中引用,会弹出一个卡片,显示符号的定义或引用论文的AI生成摘要。

Elicit正在测试用于生成更好查询的头脑风暴功能以助于创建一种比前四个搜索结果更好且提供多论文摘要的方式。该方法使用了Open AI的ChatGPT,但只在科学论文上进行了训练,因此与基于整个互联网的搜索相比,它对于“幻觉”(生成的文本中看似正确但实际上不准确的错误)的容忍度较低,Ought公司的工程主管James Brady解释说。“如果你正在发表与你的声誉有关的声明,科学家们希望得到更可靠、可以信任的信息。”

尼日利亚伊巴丹大学的生物医学研究员Miles-Dei Olufeagba仍然认为PubMed是金标准,称其为“医学科学家的避难所”。Olufeagba尝试过Consensus、Elicit和Semantic Scholar。他表示,来自PubMed的结果可能需要更多时间来整理,但最终会找到更高质量的论文。他说,AI工具“往往会丢失一些对文献检索至关重要的信息”。

AI工具可以帮助研究者更深入地挖掘文献,找到新的研究前沿。然而,这类工具也存在一些问题。首先,它们可能会复制和放大现有的偏见。例如,如果AI工具主要依赖于英语的研究文献,那么它可能会忽视非英语的研究成果。此外,如果机器学习模型主要是根据西方的研究文献训练的,那么它可能偏向于西方的观点和方法。其次,这些工具可能会过度简化复杂的科学论文,从而导致误解或误导。

尽管存在这些问题,但许多研究者还是看好这些工具的潜力。Bilal表示,尽管他注意到了一些限制,但他仍然觉得这些工具对他的研究非常有帮助。他说:“我觉得这是一种力量,可以帮助我提高效率,更好地理解我正在阅读的内容,找到新的联系。”

早期阶段

AI平台也容易出现与其人类创建者相同的偏见。研究反复证明学术出版和搜索引擎在某些群体(包括女性[1]和有色人种[2])方面呈现劣势,这些劣势也在存在于AI工具。

例如,带有重音字符的名字的科学家们描述了使用Semantic Scholar创建个人资料的困难。并且,由于包括Semantic Scholar和Consensus在内的几个搜索引擎使用引用计数和影响因子等指标来确定排名,发表在著名期刊或引人注目的作品无论如何都会排在研究更相关的作品之前,从而产生了Weld所称的“富者愈富效应”。(Consensus联合创始人兼首席执行官Eric Olson表示,一篇论文与查询的相关性始终是确定其排名的首要指标。)

这些引擎没有明确将预印本标记为需要更严格审查的内容,并且将其与经正式同行评审的已发表论文一起显示。而对于有争议的问题,比如儿童疫苗是否导致自闭症或人类是否对全球变暖,Consensus有时会返回延续错误或未经验证的答案。对于这些充满争议的问题,Olson表示,团队有时会手动审查结果并标记有争议的论文。

然而,开发人员表示,最终验证任何声明是用户的责任。这些平台通常会标明何时进行beta测试,有些平台还有标志指示论文的质量。除了一个“有争议”的标签外,Consensus目前正在开发一种方法来标注研究类型、参与者数量和资金来源,Elicit也有类似的功能。

但加拿大蒙特利尔的AI公司Hugging Face的科学家Sasha Luccioni警告说,一些AI公司过早的发布产品,是因为它们依赖用户改进产品,这是科技初创企业界的常见做法,但与科学界不太契合。有些团队不肯公开他们的模型,这使其很难通过伦理上审查。例如,Luccioni研究AI模型的碳足迹,但她表示很难获得基本的数据,例如模型的大小或训练期间的时间——“这些基本的东西并不会泄露任何机密”。而早期的Semantic Scholar等平台会分享其基础软件,以便其他人可以在此基础上进行开发(Consensus、Elicit、Perplexity、Connected Papers和Iris都使用Semantic Scholar语料库),“现如今,公司不提供任何信息,所以这已经不再是科学的问题,而更多地成为了产品问题”。

对于Weld来说,这就更需要确保Semantic Scholar的透明度。“我确实认为人工智能发展很快,而‘让我们领先于其他人’的动机可能会推动我们朝着危险的方向发展,”他说。“但我也认为人AI技术可以带来巨大的益处。世界面临的一些主要挑战最好是通过真正充满活力的研究计划来解决的,这就是每天早上让我充满激情的原因——帮助提高科学家的生产力。”

参考文献

[1].  Ross, M. B. et al. Nature 608, 135–145 (2022).

[2].  Salazar , J. W. et al. JAMA Int. Med. 181, 1248–1251 (2021).

阅读原文内容

doi: https://doi.org/10.1038/d41586-023-01907-z

往期精品(点击图片直达文字对应教程)

3e0b800bcf53f37c893cc58816a096ac.jpeg

2d4f9f3030c6b655c6a525293b4ce97c.jpeg

2d9d2d68a587fbc9a524d8f5ff0ecf3b.jpeg

4564326ed8c3268585d10b11390eeff7.jpeg

d2b4d6afff7831ff7436c9c1a13e604f.jpeg

5aefda23c956babdc88aa7a7cee103ed.jpeg

90e121ceefce164c0fac57a8503d94eb.jpeg

3a9273dae0c55e13a9e577f64d5960bc.jpeg

0f3c66a2633da75e09c5db4f054dfb6a.jpeg

12f21091a4f2f2525c0468ef24709fe9.jpeg

24013c8c1435cdb66efb7007b2a2ac59.jpeg

bde5fd72c5ebc29ac577aa3c529823a5.jpeg

cfb02dc1c6da0404f62af6ad24f150dc.png

629ad0f4accf55d30d058628fb2ef8f3.png

9c3e3b03bc75e54a3a9f3c87cdbbf257.png

cb9dee2fd112fd83ae0a607c81580b34.png

3ffa4b67530209847ab1dc1c8295d6dc.jpeg

f5a63e15ee3db24d78c4aefc0f20a5fd.jpeg

99ea993e4e314c6a929ca3e7b1c13cea.jpeg

736d5dc0b43e0204229f5822cdd8c3f6.jpeg

edfd97ccfff0693724cb2f64eb4c7fad.png

9451cc04b5be2d8677bb9cfd9210eaa8.png

8783320b8e13c5f7bb4634158bd7be9f.jpeg

425a489ec2a81149dc5001f4f2496545.png

3bb58d71a4fb4c5ba1b3541eaa51414b.png

aa93fc686f30611de2f83f9c4610e122.jpeg

a81583bf40e3d9e99bd00b33d3f25e02.png

7ad41933e0ad8a4224990db7ec0f61f3.png

机器学习

28e5b4deb441376c700b269a8d564f56.png

e75074196c8f600e1ec52c00ed0c0bf9.jpeg

0e03e044407e0b09dfb2cefb77e3e93b.jpeg

5872267c8050a5d4a13087e632495e04.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/901254.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

畅享个性海报创作——探索免费开源的在线自动生成海报项目魅力

我们的生活越来越离不开各种创意和宣传,而其中一个常见的需求就是制作精美的海报。然而,对许多人来说,制作海报可能并不是一件轻松的事情,往往需要专业的设计技能或者花费不少时间去请人帮忙。今天了我给大家介绍一款开源的可私有…

SQL助你面大厂(连续N天登录)

在腾讯、网易或者一些游戏类大厂中,他们经常关注的就是用户上线人数以及天数,那么给我们一个数据库,我们怎么样才能快速的查询那个用户的连续N天登录? 那我们用案例来说明,再多的语言在现实面前总是那么苍白无力&…

mongodb 数据库管理(数据库、集合、文档)

目录 一、数据库操作 1、创建数据库 2、删除数据库 二、集合操作 1、创建集合 2、删除集合 三、文档操作 1、创建文档 2、 插入文档 3、查看文档 4、更新文档 1)update() 方法 2)replace() 方法 一、数据库操作 1、创建数据库 创建数据库…

HCIP——VLAN实验2

一.实验要求 1.PC1/3的接口均为access模式,且属于van2,在同一网段 2.PC2/4/5/6的IP地址在同一网段,与PC1/3不在同一网段 3.PC2可以访问4/5/6,PC4不能访问5/6,PC5不能访问PC6 4.所有PC通过DHCP获取ip地址,PC…

第 7 章 排序算法(1)

7.1排序算法的介绍 排序也称排序算法(Sort Algorithm),排序是将一组数据,依指定的顺序进行排列的过程。 7.2排序的分类: 内部排序: 指将需要处理的所有数据都加载到**内部存储器(内存)**中进行排序。外部排序法: 数据量过大&am…

深入探索:Kali Linux 网络安全之旅

目录 前言 访问官方网站 导航到下载页面 启动后界面操作 前言 "Kali" 可能指的是 Kali Linux,它是一种基于 Debian 的 Linux 发行版,专门用于渗透测试、网络安全评估、数字取证和相关的安全任务。Kali Linux 旨在提供一系列用于测试网络和…

【数据结构】吃透单链表!!!(详细解析~)

目录 前言:一.顺序表的缺陷 && 介绍链表1.顺序表的缺陷2.介绍链表(1)链表的概念(2)链表的结构(3)链表的功能 二.单链表的实现1.创建节点的结构2.头文件函数的声明3.函数的实现&#xff…

一、docker及mysql基本语法

文章目录 一、docker相关命令二、mysql相关命令 一、docker相关命令 &#xff08;1&#xff09;拉取镜像&#xff1a;docker pull <镜像ID/image> &#xff08;2&#xff09;查看当前docker中的镜像&#xff1a;docker images &#xff08;3&#xff09;删除镜像&#x…

golang云原生项目之:etcd服务注册与发现

服务注册与发现&#xff1a;ETCD 1直接调包 kitex-contrib&#xff1a; 上面有实现的案例&#xff0c;直接cv。下面是具体的理解 2 相关概念 EtcdResolver: etcd resolver是一种DNS解析器&#xff0c;用于将域名转换为etcd集群中的具体地址&#xff0c;以便应用程序可以与et…

【深度学习 | 数据可视化】 视觉展示分类边界: Perceptron模型可视化iris数据集的决策边界

&#x1f935;‍♂️ 个人主页: AI_magician &#x1f4e1;主页地址&#xff1a; 作者简介&#xff1a;CSDN内容合伙人&#xff0c;全栈领域优质创作者。 &#x1f468;‍&#x1f4bb;景愿&#xff1a;旨在于能和更多的热爱计算机的伙伴一起成长&#xff01;&#xff01;&…

Spring Boot通过企业邮箱发件被Gmail退回的解决方法

这两天给我们开发的Chrome插件&#xff1a;Youtube中文配音 增加了账户注册和登录功能&#xff0c;其中有一步是邮箱验证&#xff0c;所以这边会在Spring Boot后台给用户的邮箱发个验证信息。如何发邮件在之前的文章教程里就有&#xff0c;这里就不说了&#xff0c;着重说说这两…

升级鸿蒙3后的超级快充 Turbo,如何开启和关闭?

nova 10 和 nova 9 、nova 9 Pro 也支持超级快充 Turbo 模式充电啦&#xff01;发布会后&#xff0c;许多人艳羡 nova 11 的超级快充 Turbo 模式充电&#xff0c;这不就来了&#xff01;超级快充 Turbo 加持&#xff0c;充电速度更快&#xff0c;心情更 UP&#xff01; 超级快充…

深度学习环境配置教程(保姆教程)

深度学习环境配置教程(保姆教程&#xff09; 目录1.Anaconda安装2.Anaconda环境操作相关1.显示所有环境2.新建虚拟环境3.激活虚拟环境4.在对应的虚拟环境中安装库&#xff08;tensorflow与torch的安装&#xff09;1. Tensorflow的CPU与GPU安装示例如下&#xff1a;2. pytorch的…

RK3399平台开发系列讲解(内核调试篇)Valgrind使用案例

🚀返回专栏总目录 文章目录 一、使用未初始化的内存案例二、内存泄露三、在内存被释放后进行读/写案例四、从已分配内存块的尾部进行读/写案例五、两次释放内存案例沉淀、分享、成长,让自己和他人都能有所收获!😄 📢Valgrind 是一个开源的内存调试和性能分析工具,用于…

【SoC基础】从[存储器]到[内存]再到[闪存],一次性解释清楚!

&#x1f4e2;&#xff1a;如果你也对机器人、人工智能感兴趣&#xff0c;看来我们志同道合✨ &#x1f4e2;&#xff1a;不妨浏览一下我的博客主页【https://blog.csdn.net/weixin_51244852】 &#x1f4e2;&#xff1a;文章若有幸对你有帮助&#xff0c;可点赞 &#x1f44d;…

【小沐学NLP】Python进行统计假设检验

文章目录 1、简介1.1 假设检验的定义1.2 假设检验的基本步骤 2、测试数据2.1 鸢尾花&#xff08;Iris plants dataset&#xff09; 3、正态分布检验3.1 直方图判断3.2 KS检验&#xff08;scipy.stats.kstest&#xff09;3.3 Shapiro-Wilk test&#xff08;scipy.stats.shapiro&…

Docker 练习2 安装MySQL

一、实验要求 1、使用mysql:5.6和 owncloud 镜像&#xff0c;构建一个个人网盘。 2、安装搭建私有仓库 Harbor 3、编写Dockerfile制作Web应用系统nginx镜像&#xff0c;生成镜像nginx:v1.1&#xff0c;并推送其到私有仓库。具体要求如下&#xff1a; &#xff08;1&#xff09…

网上购物系统的设计与实现/在线商城/基于spring boot的电商平台/基于Java的商品销售系统

摘 要 本毕业设计的内容是设计并且实现一个基于Springboot的网上购物系统。它是在Windows下&#xff0c;以MYSQL为数据库开发平台&#xff0c;Tomcat网络信息服务作为应用服务器。网上购物系统的功能已基本实现&#xff0c;主要包括用户管理、数码分类管理、数码产品管理、服…

如何快速制作解决方案PPT

如何快速制作解决方案PPT 理解客户的需求 在开始制作解决方案PPT之前&#xff0c;需要对客户的需求进行深入了解和分析。这包括客户需要解决的问题、目标、预算和时间限制等。 需求分析 客户需要解决的问题客户的目标预算限制时间限制 确定解决方案 基于客户的需求&#x…

LeetCode——二叉树篇(五)

刷题顺序及思路来源于代码随想录&#xff0c;网站地址&#xff1a;https://programmercarl.com 目录 404. 左叶子之和 513. 找树左下角的值 递归 迭代 112. 路径总和 113. 路径总和 II 404. 左叶子之和 给定二叉树的根节点 root &#xff0c;返回所有左叶子之和。 /**…