AI时代,让文献主动找上门——揭开文本和数据挖掘的变革性力量

news2025/2/25 21:32:19

文本和数据挖掘(text and data mining, TDM)使用计算工具和技术来分析大型文本数据集,从学术论文、期刊和其他科学出版物中的大量科学数据里提取有价值的见解,旨在识别通过传统人工分析难以或无法发现的模式、关联和趋势,近年来已逐渐发展成为一种强大的工具。
如何将这一强大的工具引入到企业的研发架构中,让研究人员无需为了获取有用信息而研读数百篇文章?

信息资深人士Mary Ellen Bates对话TDM专家——施普林格·自然数据解决方案及战略主管Prathik Roy,分享了他对TDM领域的独到见解,带领我们深入探究这一领域。

Roy在为企业客户开发数据传递机制、借助TDM驱动变革性发现等方面拥有丰富的经验,在访谈中他阐明了TDM的潜力,相关工具对于研究人员的重要性所在,并分享了有关知识产权和授权许可考量的宝贵知识以及探讨了企业与学术TDM项目之间的协同效应。

在这里插入图片描述

Q:什么是TDM?为何它对研究人员如此重要?

A:TDM是指利用机器来阅读文本(如科学出版物和文档)、提取信息,并将其用于机器学习和人工智能。TDM对研究人员极为重要,因为它开辟了药物发现、老药新用,以及用于命名实体识别的信息增强等多种用例。此外,它使得不同行业的公司都能利用科技文献中的宝贵见解,以改善运营并取得变革性发现。

Q:这些年来TDM是如何发展的?未来又会走向何方?

A:过去5年来,TDM已经实现了从“人类辅助AI”到“AI辅助人类”的转变,自动化比重日益加深。这一转变带来了更高的F1分数,表明机器学习模型的准确率、精确率和召回率都有所提升。另外,TDM也从利用spaCy一类的开源模型,发展到利用现存的内容集来创建新内容。展望未来,许多中小型公司有望能为更大的企业填补TDM分析的空缺,优化运营并驱动创新。

Q:在TDM的实施过程中,尤其是在制造业、化工和半导体等行业中存在哪些挑战?

A:TDM的实施需要大量资源,在机器学习和算力方面尤其如此。不过,AI平台训练框架(如谷歌的BERT)有助于解决部分问题。尽管基于transformer的模型产出的结果更优,但人工智能幻觉等挑战依然存在,而且对传统机器学习模型的依赖度仍然很高。

Q:关于TDM中的知识产权和授权许可,有哪些需要考虑的关键因素?

A:虽然底层数据集属于许可供应商,但通过TDM分析所产生的知识产权属于客户。研究人员必须咨询其法律团队,充分理解其中的法律问题和过程。关键在于遵守许可协议,合理使用数据集。倘若许可中断,研究人员则需清除或停用部分数据,以遵守条款和条件。

Q:企业界和学术界对TDM的使用有何不同?

A:在企业中,TDM项目都是围绕着特定目的(如药物发现)而搭建的。而学术研究人员旨在开发出适用于多种用例的通用模型。然而,企业界与学术界的合作和资助安排已模糊了这一界线,使双方都能受益于行业洞察与宝贵的研究成果。

Q:研究人员在着手一个TDM项目时,应该采取什么步骤?

A:研究人员应当确定他们的需求和所需要的具体内容。研究人员有必要联系出版机构,了解访问选项,例如开放获取内容API或数据馈送(data feeds)。然而,并非所有出版机构都提供这些选项,因此研究人员应当阅读并理解条款、条件、许可,以及与数据相关的隐私政策。他们应当知晓版权和许可限制,对于订阅式或付费内容尤其如此。建议研究人员向图书馆员或信息专家寻求帮助,以获得遵守版权限制方面的指导,因为团队合作对于实现TDM项目的产出和社会效益最大化至关重要。

Q:拥抱知识的未来:释放文本和数据挖掘的力量

A:不可否认的是,TDM拥有变革性力量,能让研究人员和企业在广袤的知识海洋中发现隐藏的瑰宝。TDM实践从“人类辅助AI”到“AI辅助人类”的发展展现了其不断成长和创新的潜力。尽管未来可能会出现诸多挑战,但研究人员、行业内专业人士,以及数据科学家的共同努力必将为更大的进步铺平道路。

不论您是瞄准具体结果的产业界专业人士,还是寻求通用模型的学术人员,TDM都是一种不受限制的强大工具。学术界和产业界通力合作,发掘文本和数据的巨大潜力,就能推动知识进步和社会改善。

Prathik Roy博士简介

Prathik Roy博士是一位经验丰富的专业人士,对数据驱动的解决方案和变革性技术充满热情。作为施普林格·自然数据解决方案及战略主管,他长期活跃在尖端传递机制(包括API和数据馈送)开发的最前沿,以满足企业的多样化需求,促进突破性发现。

Prathik Roy博士拥有强大的TDM专业背景,在驱动各个行业——尤其是制药和生物技术行业创新的过程中发挥着重要作用。他已经借助TDM技术领导了多个项目,涉及药物发现、老药新用以及用于命名实体识别的信息增强。Prathik Roy博士凭借其专业知识和全身心投入,成为了TDM领域中一股持续存在的驱动力,激励着研究人员和行业专业人士踏上知识发现的变革之旅。

文本和数据挖掘(TDM)

文本和数据挖掘(Text and Data Mining, TDM)是指对大量的文本或数据资源进行自动选择和分析的过程,它能产出研究和研究项目所需的有用信息。开展TDM的目的包括检索内容、寻找模式、发现关系、语义分析和了解内容与概念和需求之间的关联等等。

TDM的创新之处在于,研究人员就算不知道具体要问什么,也能对数据集进行分析。如今,AI已基本成熟——它不单能呈递信息,还能提供建议、做出决策并生成内容。

施普林格·自然开发了各种工具,旨在方便研究人员对我们的出版物进行文本和数据挖掘。

最重要的TDM工具包括:

· Meta API:在线文档的新版元数据(带有额外字段)以及源内容链接

· 用于开放获取内容的全文API:施普林格·自然开放获取XML格式的全文内容(如有)

· 用于付费订阅内容的全文API:施普林格·自然所有XML格式的全文内容(如有)

施普林格·自然TDM的四种使用场景示例:
在这里插入图片描述

  1. 接入API和密钥(api_key=**********)在Metadata中搜索化学(Chemistry)相关数据;

  2. 搜索关键词“患者(patients)”相关数据;

  3. 搜索1993年相关数据;

  4. 展示pam格式数据和json格式数据(我们同时支持jat、xml等多种数据格式输出)

版权声明:

本文由施普林格∙自然上海办公室负责整理翻译,中文内容仅供参考。欢迎转发分享。

© 2024 Springer Nature Limited. All Rights Reserved

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1960207.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络HTTP全讲解,让你透彻掌握HTTP协议(三)http长短连接/代理/网关/缓存/内容协商机制/断点续传

HTTP HTTP的长连接与短连接短链接长链接HTTP代理代理的作用HTTP网关web网关常见的网关类型HTTP缓存HTTP缓存头部字段HTTP缓存工作方式缓存改进方案cdn缓存工作方式浏览器操作对http缓存的影响HTTP内容协商机制客户端驱动服务器驱动请求首部集近似匹配透明协商断点续传和多线程下…

类和对象的深入了解4

1.析构函数 1.1析构函数概念 与构造函数功能相反,析构函数不是完成对对象本身的销毁,局部对象销毁工作是由编译器完成 的。而对象在销毁时会自动调用析构函数,完成对象中资源的清理工作。它的名字与类名相同,前面加上一个波浪号…

LLM大模型:十大人工智能大模型技术介绍

十大人工智能大模型技术的简介: 深度学习模型 深度学习是人工智能领域中一种重要的机器学习技术,通过构建深度神经网络来模拟人脑的认知过程。深度学习模型能够自动提取数据的特征,并在海量数据中进行学习和优化,从而在语音识别…

79.WEB渗透测试-信息收集-框架组件识别利用(3)

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 内容参考于: 易锦网校会员专享课 上一个内容:78.WEB渗透测试-信息收集-框架组件识别利用(2)-CSDN博客 struts2…

长面板数据实证模型及 Stata 具体操作步骤

目录 一、文献综述 二、理论原理 三、实证模型 四、稳健性检验 五、程序代码及解释 六、代码运行结果 一、文献综述 长面板数据在经济学、金融学、社会学等领域的研究中得到了广泛应用。许多学者通过构建长面板数据模型来研究各种经济现象和社会问题。例如,在研…

乌班图下的vscode粘贴代码后一直在输入CTRLV命令

最近在VMware中使用vscode开发c程序中,拷贝一段代码后,代码界面一直输入CTRLV命令,导致乌班图桌面死掉,无法操作、 解决方法: 1、强制重启。长按电源按钮强制关机,然后再次开机。 2、使用命令行界面。同时…

电测量数据交换DLMS_COSEM组件第47部分:基于IP网络的DLMS_COSEM传输层

1.范围 本部分规定了面向无连接和连接的在IP网络中所使用的DLMS/COSEM通信协议集的传输层(TL)。 这些传输层为用户DLMS/COSEM的应用层提供OSI式服务。面向无连接的传输层基于互联网标准用户数据报协议(UDP)。面向连接的传输层基于互联网标准传输控制协议(TCP)。 DLMS/CO…

C++:map和set

hello,各位小伙伴,本篇文章跟大家一起学习《C:map和set》,感谢大家对我上一篇的支持,如有什么问题,还请多多指教 ! 如果本篇文章对你有帮助,还请各位点点赞!!…

redis的代码开发

redis是什么? 前提:官网地址https://redis.io 1.Redis是一个开源的,key,value格式的,内存型数据结构存储系统;它可用作数据库、缓存和消息中间件。 value支持多种类型的数据结构如strings, hashes, lists, sets, sorted sets with range queries, bitmaps, hyperloglo…

亚马逊测评自养号有什么优势?

在当今竞争激烈的电商市场中,若想实现销量的显著增长,测评策略已成为不可或缺的一环,尤其是对于新入驻平台的店铺及推出的创新产品而言,仅凭初期的自然流量难以迅速脱颖而出,因此众多跨境卖家纷纷采用测评手段&#xf…

微信小程序教程002:代码结构介绍和新建小程序页面

文章目录 代码介绍1、小程序代码构成2、小程序页面组成部分3、JSON配置文件的作用3.1 app.json文件3.2 project.config.json文件3.3 sitemap.json文件3.4 页面的.json文件新建小程序页面WXML和WXSS介绍1、什么是WXML2、什么是WXSS小程序的JS文件1、JS文件2、小程序中JS文件分类…

【机器学习】探索图神经网络 (GNNs): 揭秘图结构数据处理的未来

💎 欢迎大家互三:2的n次方_ ​ 💎1. 引言 图结构数据在现实世界中无处不在,从社交网络中的用户关系,到推荐系统中的用户-物品交互,再到生物信息学中的分子结构。传统的机器学习模型在处理这些数据时常常力…

C#高级:枚举(Enum)从索引、值到注释的完整使用技巧

目录 一、推荐的枚举写法 二、获取注释的封装代码 三、已知【枚举】,获取注释、索引 四、已知【索引】,获取枚举值、注释 五、已知【注释】,获取枚举值、索引 六、创建一个【枚举字典】,key索引,value(枚举值&am…

入选ICML!麻省理工团队基于AlphaFold实现新突破,揭示蛋白质动态多样性

作为生物体的重要组成部分,蛋白质具有不同状态,基于集体运动或无序波动的不同结构组合,采用复杂的三维结构,来执行丰富的生物功能,例如,蛋白质构象变化对转运体、通道和酶的功能至关重要,而平衡…

【2024最新华为OD-C/D卷试题汇总】[支持在线评测] 围棋的气(100分) - 三语言AC题解(Python/Java/Cpp)

🍭 大家好这里是清隆学长 ,一枚热爱算法的程序员 ✨ 本系列打算持续跟新华为OD-C/D卷的三语言AC题解 💻 ACM银牌🥈| 多次AK大厂笔试 | 编程一对一辅导 👏 感谢大家的订阅➕ 和 喜欢💗 🍿 最新华为OD机试D卷目录,全、新、准,题目覆盖率达 95% 以上,支持题目在线…

Oracle特有的DECODE函数

Oracle中的DECODE函数是一种条件表达式函数,用于基于给定的条件从一组值中选择一个值返回。它的基本语法如下: DECODE(expression, search1, result1, [search2, result2, ...], [default])expression:要比较的表达式或列。searchN&#xff…

正点原子imx6ull-mini-Linux驱动之pinctrl 和 gpio 子系统(5)

1:pinctrl 子系统 1.1:pinctrl 子系统简介 Linux 驱动讲究驱动分离与分层,pinctrl 和 gpio 子系统就是驱动分离与分层思想下的产物, 驱动分离与分层其实就是按照面向对象编程的设计思想而设计的设备驱动框架 来回顾一下上一章是…

2006年威廉王子提出分手 舞会上凯特一袭护士装令他再次沦陷 迅速和好

虽然威廉王子和凯特米德尔顿是当今最有影响力和最令人心动的情侣之一,但许多人可能忘记了,早在 2006 年,两人还在约会时,他们曾短暂分手。尽管当时他们的分手可能让英国媒体感到意外,但不到一年后,两人就和…

Window部署Ollama+Qwen2.0+Open-WebUI

文章目录 Windows下安装Docker安装Docker检查是否安装成功, 出现版本即为安装成功安装Ollama启动 Ollama 并拉取模型(选做) 修改默认地址和端口(选做) Ollama 进行跨域配置安装open-webui Windows下安装Docker 准备条件 开启Hyper-V,在“启用或关闭Windows功能”里…

全网最强Linux教程 | 万字长文爆肝Linux操作系统

Linux 1.Linux的引言 Linux是一套免费使用和自由传播的类Unix操作系统,是一个基于POSIX和Unix的多用户、多任务、支持多线程和多CPU的操作系统。伴随着互联网的发展,Linux得到了来自全世界软件爱好者、组织、公司的支持。它除了在服务器操作系统方面保…