评价基于GPT和Bert的方法并用于生信文本识别PPI

news2024/11/25 19:36:30

检测蛋白质-蛋白质相互作用(PPI)对于理解遗传机制、疾病发病机制和药物设计至关重要。然而,随着生物医学文献的快速增长,越来越需要自动和准确地提取PPI以促进科学知识发现。预训练语言模型,例如生成式预训练Transformer(GPT)和基于Transformer的双向编码器(BERT),已在NLP任务中显示出优势。作者使用手动管理的基准语料库评估了各种GPT和BERT模型的PPI识别性能,该语料库包含来自逻辑学习语言(LLL)的77个句子中的164个PPI。基于BERT的模型实现了最佳的整体性能,其中PubMedBERT实现了最高的精度(85.17%)和F1分数(86.47%),而 BioM-ALBERT 实现了最高的召回率(93.83%)。尽管没有针对生物医学文本进行明确的训练,但 GPT-4 以 83.34% 的精度、76.57% 的召回率和 79.18% 的 F1score 实现了与最佳BERT模型相当的性能。这些发现表明GPT模型可以有效地从文本数据中检测PPI,并具有用于生物医学文献挖掘任务的潜力。

来自:Evaluation of GPT and BERT-based models on identifying protein-protein interactions in biomedical text

目录

  • 背景概述
  • 方法
    • 数据集
    • 语言模型
      • Auto-regressive Language Models
      • Masked Language Models
    • 为GPT定制query
    • GPT-3中的温度参数优化
    • 表现评估
  • 结果和讨论

背景概述

PPI对于许多生物学功能至关重要,比如细胞代谢,将基因型转化为表型。了解这些相互作用可以增强对健康和疾病状态下的生物过程、pathways和networks的理解。现有各种公共PPI数据库,包括从中低通量实验收集的PPI。然而,这些资源仍然不完整,并未涵盖所有潜在的PPI。另外,全新的PPI通常在生信文本上报道。基于科学文献的快速增长,手动提取PPI已经变成一个困难的任务,我们需要一个无需人工参与的自动文本挖掘工具。

NLP是计算机科学的一个重点领域,并越来越多应用于各个领域,包括近年来经历了数据快速增长的生物医学研究。生信关系抽取是一种NLP方法,旨在识别生物医学文本中两个或多个实体之间的关系,用于支持生信文本的自动分析。深度学习的进步,例如CNN和RNN以及 NLP的进步使得生物医学文本挖掘能够成功地发现蛋白质之间的相互作用。预训练大型神经语言模型已使得许多NLP问题得到实质性改进。近年来,transformer架构在各种NLP任务中取得了最先进的成果,包括生物医学领域的关系提取。

随后,出现了基于 transformer 的模型,如BERT,一种掩码语言模型。这些模型称为大型语言模型LLM,专注于理解语言和语义。LLM在大量数据上进行了预训练,可以针对各种任务进行微调。最近的研究表明,LLM在上下文零样本和少样本学习、分析、生成和理解人类语言方面表现出色。LLM的海量数据处理能力可用于识别文本元素之间的联系和趋势。

另一种LLM是GPT,GPT-3由OpenAI开发,具有大规模预训练、零和少样本学习、上下文感知、创造力和自适应性等优势。OpenAI的ChatGPT是GPT模型的3.5版本,展示了分析和处理文本数据的巨大潜力。最近推出了GPT-4,能够在各种创意和技术写作任务中与用户进行制作、修改和合作,例如歌曲创作、剧本创作和模仿用户写作风格。GPT模型的进步,从GPT-3到GPT-4,展示了NLP的快速进步,并开辟了广泛的应用领域。

目前已经发表了几项研究,评估GPT模型在各种标准化测试中解决问题的性能,并且已经表明它们能够实现与人类相当甚至更好的性能,并且能够通过专业的标准化测试。然而,目前尚未进行任何研究来评估GPT模型可用于从生物医学文本中提取PPI。在这里,作者对多个GPT模型的PPI识别性能进行了全面评估,并将其与用于关系提取的最先进的基于 BERT的模型进行比较。

方法

数据集

作者使用了LLL语料库,其中包含77个句子中的164个PPI。LLL语料库是为2005年逻辑学习语言LLL05挑战创建的数据集。它包含枯草芽孢杆菌(Bacillus subtilis,一种细菌)中手动标记的基因/蛋白质相互作用,句子在XML文件中提供。

LLL不包含无相互作用关系的实体对,这影响BERT-based方法的训练,为了解决这个问题,作者使用每个句子中标识的实体生成了所有可能的实体对组合。因此,在一个句子中用 n n n个蛋白质实体可以生成总共 C ( n , 2 ) C(n,2) C(n,2)个实体对,然后,如果在LLL中报告了相互作用对,将其标记为正样本,将其余的标记为负样本。

作者还应用了基本的预处理步骤,通过删除标点符号、纯数字字符串和空格,并将所有字母转换为小写来确保捕获所有实体,从而产生标准化的蛋白质名称。对于基于BERT的模型,将实体对中的实体名称替换为PROTEIN1和PROTEIN2关键字。

语言模型

作者评估了三个自回归语言模型GPT-3、GPT-3.5 via ChatGPT 和 GPT4 via ChatGPT,以及七个掩码语言模型Bio_ClinicalBERT、BioBERT、BioM-ALBERT-xxlarge、BioM-BERT-PubMed- PMC-Large、PubMedBERT、SciBERT_scivocab_cased 和 SciBERT_scivocab_uncased。

Auto-regressive Language Models

GPT是OpenAI在2018年基于Transformer架构开发的语言模型。Transformer 模型由一个生成隐藏表示的编码器和一个生成输出序列的解码器组成。自注意力机制使神经网络能够确定输入元素的重要性,使其成为语言翻译、文本分类和文本生成的理想选择。GPT架构包括具有自注意机制的层、全连接层和层归一化,可以防止训练期间的过拟合。

图1展示了OpenAI在过去几年中发布的GPT模型的历史。GPT的第一个版本GPT-1有1.17亿个参数。它是使用包括维基百科在内的大量文本数据进行训练的。GPT-2比其前身GPT-1有15亿个参数的显著提升。它是在包括网页和书籍在内的更大的文本数据语料库上进行训练的,可以产生更连贯、更令人信服的语言。GPT-3使用1750亿个参数进行训练,包括庞大的文本数据语料库,包括网页、书籍和学术文章。GPT-3在语言翻译、聊天机器人开发和内容生成等一系列NLP任务中表现出色。

2022年11月30日,OpenAI发布了ChatGPT,这是一种引人入胜的对话工具,能够基于文本数据产生与上下文相关的响应。ChatGPT在GPT-3.5系列上进行了微调,其中包括以下型号:GPT-3.5-turbo-0301、code-davinci-002、text-davinci002和text-davicin-003。在作者的研究中,最新的gpt-3.5-turbo-0301作为gpt-3.5。2023年3月14日,OpenAI推出了迄今为止最先进、最前沿的系统GPT-4,该系统通过产生更可靠的结果而超越了其前身。表1总结了GPT模型的架构和参数数量,包括的GPT-3、ChatGPT和GPT-4。
fig1

  • 图1:GPT(generative pre-trained transformer),API(application programming interface)。

fig2

  • 表1:GPT型号规格。

Masked Language Models

作者研究了包括六种不同的基于BERT的模型:

  • BioBERT:一个基于PubMed摘要和PubMed Central(PMC)全文文章预先训练的BERT模型,用于不同的NLP任务。BioBERT v1.0使用了超过20万篇摘要和超过27万篇PMC文章。扩展版BioBERT v1.1使用>1M PubMed摘要进行了微调。
  • SciBERT:在随机语义学者文章(random Semantic Scholar articles)上预训练的BERT模型。在对文章进行预训练时,使用了整个文本。
  • Bio-ClinicalBERT:一个微调的BioBERT v1.0模型(PubMed 200K+PMC 270K),包含MIMIC-III v1.4的所有注释,MIMIC-IIII v1.4是一个电子健康记录数据库,包含约8.8亿个单词。
  • PubMedBERT:一个在BLURB(生物医学语言理解与推理基准)上训练的BERT模型。
  • BioM-ALBERTxxlarge:在PubMed摘要上预训练的BERT模型,具有与ALBERTxxLarge相同的架构。
  • BioM-BERTLarge:与BERTLarge具有相同架构的BERT模型。

为GPT定制query

为了从LLL语句中提取PPI,作者利用OpenAI的应用程序编程接口(API)访问GPT-3,而GPT-3.5和GPT-4是通过ChatGPT Plus的web界面访问的。作者仔细设计了API和web界面所需的prompts,以最少的后处理步骤生成稳定的interaction。LLL数据包括44篇出版物中的77句话,共164个PPI。作者从数据集中提取了必要的信息,并使用文档级折叠将其分为十个fold。对于每个fold,提供了句子ID和句子作为输入以及query,如表2所示。为了评估涵盖这77个句子的生物医学实体词典的影响,还执行了两个额外的查询,即在上述预处理之后创建的原始蛋白质名称和标准化蛋白质名称。

Query typeQuery
Base: without protein names从给定的句子中找出所有可能的PPI,并以表格形式提供结果,比如列为(句子ID|蛋白质1|蛋白质2|蛋白质-蛋白质相互作用)。确保表格每一行都包含一对蛋白质-蛋白质相互作用,即使从一句话中可以识别出多对。
With protein names从给定的句子中找出所有可能的蛋白质-蛋白质相互作用,并以表格形式提供结果,列为(句子ID|蛋白质1|蛋白质2|蛋白质-蛋白质相互作用)。确保每一行都包含一对蛋白质-蛋白质相互作用,即使从一句话中可以识别出多对。以下是蛋白质名称供您参考:[‘KinC’ ‘KinD’ ‘sigma(A)’ ‘Spo0A’ ‘SigE’ ‘SigK’ ‘GerE’ ‘sigma(F)’ ‘sigma(G)’ ‘SpoIIE’ ‘FtsZ’ ‘sigma(H)’ ‘sigma(K)’ ‘gerE’ ‘EsigmaF’ ‘sigmaB’ ‘sigmaF’ ‘SpoIIAB’ ‘SpoIIAA’ ‘SigL’ ‘RocR’ ‘sigma(54)’ ‘E sigma E’ ‘YfhP’ ‘SpoIIAA-P’ ‘sigmaK’ ‘sigmaG’ ‘ComK’ ‘FlgM’ ‘sigma X’ ‘sigma B’ ‘sigma(B)’ ‘sigmaD’ ‘SpoIIID’ ‘sigmaW’ ‘PhoP~P’ ‘AraR’ ‘sigmaH’ ‘yvyD’ ‘ClpX’ ‘Spo0’ ‘RbsW’ ‘DnaK’ ‘sigmaE’ ‘sigma W’ ‘sigmaA’ ‘sigma(X)’ ‘CtsR’ ‘Spo0A~P’ ‘spoIIG’ ‘ydhD’ ‘ykuD’ ‘ykvP’ ‘ywhE’ ‘spo0A’ ‘spoVG’ ‘rsfA’ ‘cwlH’ ‘KatX’ ‘katX’ ‘rocG’ ‘yfhS’ ‘yfhQ’ ‘yfhR’ ‘sspE’ ‘yfhP’ ‘bmrUR’ ‘ydaP’ ‘ydaE’ ‘ydaG’ ‘yfkM’ ‘sigma F’ ‘cot’ ‘sigK’ ‘cotD’ ‘sspG’ ‘sspJ’ ‘hag’ ‘comF’ ‘flgM’ ‘ykzA’ ‘CsbB’ ‘nadE’ ‘YtxH’ ‘YvyD’ ‘bkd’ ‘degR’ ‘cotC’ ‘cotX’ ‘cotB’ ‘sigW’ ‘tagA’ ‘tagD’ ‘tuaA’ ‘araE’ ‘sigmaL’ ‘spo0H’ ‘sigma G’ ‘sigma 28’ ‘sigma 32’ ‘spoIVA’ ‘PBP4*’ ‘RacX’ ‘YteI’ ‘YuaG’ ‘YknXYZ’ ‘YdjP’ ‘YfhM’ ‘phrC’ ‘sigE’ ‘ald’ ‘kdgR’ ‘sigX’ ‘ypuN’ ‘clpC’ ‘ftsY’ ‘gsiB’ ‘sigB’ ‘sspH’ ‘sspL’ ‘sspN’ ‘tlp’]
With normalized protein names从给定的句子中找出所有可能的蛋白质-蛋白质相互作用,并以表格形式提供结果,列为(句子ID|蛋白质1|蛋白质2|蛋白质-蛋白质相互作用)。确保每一行都包含一对蛋白质-蛋白质相互作用,即使从一句话中可以识别出多对。以下是蛋白质名称供您参考:[‘kinc’ ‘kind’ ‘sigmaa’ ‘spo0a’ ‘sige’ ‘sigk’ ‘gere’ ‘sigmaf’ ‘sigmag’ ‘spoiie’ ‘ftsz’ ‘sigmah’ ‘sigmak’ ‘esigmaf’ ‘sigmab’ ‘spoiiab’ ‘spoiiaa’ ‘sigl’ ‘rocr’ ‘sigma54’ ‘esigmae’ ‘yfhp’ ‘spoiiaa-p’ ‘comk’ ‘flgm’ ‘sigmax’ ‘sigmad’ ‘spoiiid’ ‘sigmaw’ ‘phop~p’ ‘arar’ ‘yvyd’ ‘clpx’ ‘spo0’ ‘rbsw’ ‘dnak’ ‘sigmae’ ‘ctsr’ ‘spo0a~p’ ‘spoiig’ ‘ydhd’ ‘ykud’ ‘ykvp’ ‘ywhe’ ‘spovg’ ‘rsfa’ ‘cwlh’ ‘katx’ ‘rocg’ ‘yfhs’ ‘yfhq’ ‘yfhr’ ‘sspe’ ‘bmrur’ ‘ydap’ ‘ydae’ ‘ydag’ ‘yfkm’ ‘cot’ ‘cotd’ ‘sspg’ ‘sspj’ ‘hag’ ‘comf’ ‘ykza’ ‘csbb’ ‘nade’ ‘ytxh’ ‘bkd’ ‘degr’ ‘cotc’ ‘cotx’ ‘cotb’ ‘sigw’ ‘taga’ ‘tagd’ ‘tuaa’ ‘arae’ ‘sigmal’ ‘spo0h’ ‘sigma28’ ‘sigma32’ ‘spoiva’ ‘pbp4*’ ‘racx’ ‘ytei’ ‘yuag’ ‘yknxyz’ ‘ydjp’ ‘yfhm’ ‘phrc’ ‘ald’ ‘kdgr’ ‘sigx’ ‘ypun’ ‘clpc’ ‘ftsy’ ‘gsib’ ‘sigb’ ‘ssph’ ‘sspl’ ‘sspn’ ‘tlp’]
  • 表2:GPT-3(API)、GPT-3.5(ChatGPT)和GPT-4(ChatGPT)提示中包含的查询。

GPT-3中的温度参数优化

OpenAI的API允许调整GPT中的“温度”参数,这决定了生成模型的贪婪程度或创造性。参数范围在0(最不具创造性)和1(最具创造性)之间。作者使用OpenAI API和11个温度(最小值=0,最大值=1,增量=0.1)探讨了该参数在PPI识别中的影响。0.1的温度证明了GPT-3的最高整体性能,因此用于这项研究。

表现评估

为了确保每个fold的一致性,从三次单独的运行中获得GPT-3、GPT-3.5和GPT-4的输出,并获得它们的评估性能的平均值。在每次提示后刷新浏览器,以防止ChatGPT记住以前的提示。

对于基于BERT的模型,在10倍交叉验证设置中对这些模型进行了微调,在该设置中,fold是在文档级别创建的。该策略采用了文档级折叠拆分,确保一个文档中的句子仅在训练或测试集中使用,以避免过拟合。

结果和讨论

作者使用具有相同10倍设置的LLL数据集对基于GPT和BERT的模型进行了彻底比较,以保持所有模型的一致性。对GPT模型的查询是在三次单独的运行中完成的。

图2说明了访问GPT-3 API及其输出的Python代码段。预测的interaction pairs与相应的句子ID一起返回。

fig3

  • 图2:GPT API代码和输出。图A为用于访问OpenAI API的Python代码段。图B为用于fold9的GPT-3示例输出。

与GPT-3不同,GPT-3.5和GPT-4是通过名为ChatGPT Plus的web界面访问的,因为在该研究期间,API访问有限。因此用图3描述GPT-4的示例输入和输出。
fig4

  • 图3:GPT-4的示例输入和输出,通过ChatGPT-Plus web界面实现。

表3总结了16个模型的PPI识别性能,包括每个GPT版本的三种变体。一般来说,基于BERT的模型优于GPT;然而,当提供蛋白质名称时,GPT,特别是GPT-4,表现出与性能最好的基于BERT的模型相当的性能。

总的来说,无论是否提供蛋白质名称,GPT-4在所有版本的GPT模型中表现最好。然而,就精度而言,GPT-3.5的性能高于GPT-4,得分为79.11%,而GPT-4的得分为73.97%。最初,基本GPT模型的精度低于大多数基于BERT的模型。然而,当提供蛋白质名称时,GPT模型的精度显著提高,接近性能最好的PubMedBERT模型,该模型的精度达到85.17%。具体而言,提供了蛋白质名称的GPT-4模型实现了83.71%的精度。

fig5

  • 表3:基于BERT和GPT的模型在LLL数据集上的PPI评估结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/478113.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

学历:门槛还是机会?

目录 一、学历和职业之间的关系认知 二、不同的文化和传统也会对学历带来不同的解读 三、在学习、生活及工作中学历带来的局限性 四、造成“孔乙己长衫”现象的深层次原因 五、给与学弟学妹们一点毕业就业的建议 是否应该追求高学历一直是社会上热议的话题。有人认为学历代…

Splunk 转移数据之collect 命令

1: 背景: 有些数据的输出结果需要很长时间,原因是查询的数据量很大,还有就是搜索的时间范围很大:一年,或者要统计过去几个月的count / 或者是比例等。 那么在这种背景下,就需要转移查询的数据结构,进行转移到另外一个index, 用另外一个新的index 进行实时展示。 下面…

【一起撸的DL框架】5 实现:自适应线性单元

CSDN个人主页:清风莫追欢迎关注本专栏:《一起撸个DL框架》GitHub获取源码:https://github.com/flying-forever/OurDL 文章目录 5 实现:自适应线性单元🍇1 简介2 损失函数2.1 梯度下降法2.2 补充 3 整理项目结构4 损失函…

glibc 系统C文件库

下载时候经常会需要选择glibc glibc是GNU发布的libc库,即c运行库。 glibc是linux系统中最底层的api,几乎其它任何运行库都会依赖于glibc。glibc除了封装linux操作系统所提供的系统服务外,它本身也提供了许多其它一些必要功能服务的实现。 li…

tcpdump使用教程

一、概述 tcpdump是一个功能强大的,用于抓取网络数据包的命令行工具,与带界面的Wireshark一样,基于libpcap库构建。这篇文章主要介绍tcpdump的使用。关于如何使用tcpdump的资料中,最有用的就是tcpdump的两个手册。 tcpdump使用手…

CANOE入门到精通——CANOE系列教程记录2

本系列以初学者角度记录学习CANOE,以《CANoe开发从入门到精通》参考学习,CANoe16 demo版就可以进行学习 创建工程 在一个路径中,创建这几个文件夹 创建工程,将工程命名Vehicle_System_CAN.cfg 创建Database dbc文件 在实际开…

SignOff Criteria——OCV applied and results

文章目录 1. O v e r v i e w Overview Overview1.1 w h a t i s o c v what\ is\ ocv what is ocv?1.2 O C V . E f f e c t o n s i g n o f f OCV.\ Effect\ on\ signoff OCV. Effect on signoff1.3 H o w t o r e m o v e t h e e f f e c t s o f O C V Ho…

【hello Linux】可重入函数、volatile和SIGCHLD信号

目录 1. 可重入函数 2. volatile 3. SIGCHLD信号 Linux!🌷 1. 可重入函数 先来谈一下重入函数的概念:重入函数便是在该函数还没有执行完毕便重复进入该函数(一般发生在多线程中); 可重入函数&#xff1a…

C++程序设计——lambda表达式

一、问题引入 在C98中,如果想对一个数据集合中的元素进行排序,可以使用sort()方法,但如果待排序元素为自定义类型,就需要用户自己定义排序时的比较规则。 随着C语法的发展,人们开始觉得其编写比较复杂,每次…

Word2vec原理+实战学习笔记(一)

来源:投稿 作者:阿克西 编辑:学姐 视频链接:https://ai.deepshare.net/detail/p_5ee62f90022ee_zFpnlHXA/6 文章标题: Efficient Estimation of Word Representations in Vector Space 基于向量空间中词表示的有效估计…

【计算机网络】学习笔记:第四章 网络层(七千字详细配图)【王道考研】

基于本人观看学习b站王道计算机网络课程所做的笔记&#xff0c;不做任何获利 仅进行交流分享 特此鸣谢王道考研 若有侵权请联系&#xff0c;立删 如果本篇笔记帮助到了你&#xff0c;还请点赞 关注 支持一下 ♡>&#x16966;<)!! 主页专栏有更多&#xff0c;如有疑问欢迎…

安装chatglm

地址 下载源代码 下载完成后解压 安装cuda 输入nvcc -V查看是否安装cuda 输入nvidia-smi查看支持的最高版本&#xff0c;最高支持12.1 下载cudahttps://developer.nvidia.com/cuda-downloads 双击安装 同意之后点击下一步 选择精简模式即可 等待下载安装包 …

链接sqlite

一.sqlite库函数 1.sqlite3_open()函数 语法&#xff1a;*sqlite3_open(const char *filename, sqlite3 *ppDb) 作用&#xff1a;该例程打开一个指向 SQLite 数据库文件的连接&#xff0c;返回一个用于其他 SQLite 程序的数据库连接对象。 参数1&#xff1a;如果 filename …

如何在自己的Maven工程上搭建Mybatis框架?

编译软件&#xff1a;IntelliJ IDEA 2019.2.4 x64 操作系统&#xff1a;win10 x64 位 家庭版 Maven版本&#xff1a;apache-maven-3.6.3 Mybatis版本&#xff1a;3.5.6 目录 前言 一. 什么是Mybatis框架&#xff1f;1.1 框架是什么&#xff1f;1.2 什么是MyBatis &#xff1f;1…

3.11 C结构体及结构体数组

结构体的意义 问题&#xff1a;学籍管理需要每个学生的下列数据&#xff1a;学号、姓名、性别、年龄、分数&#xff0c;请用C语言程序存储并处理一组学生的学籍。 思考&#xff1a;如果有多个学生&#xff0c;该怎么定义 已学数据类型无法解决。 结构体概述 正式&#xff1a;…

【Sping学习详解】

重新学习Spring很久了&#xff0c;也看了不少的视频&#xff0c;但是没有系统总结&#xff0c;容易忘记&#xff0c;网上寻找相关博客&#xff0c;也没有找到按照路线总结的&#xff0c;只能说不顺我心&#xff0c;所以自己总结一下&#xff01;&#xff01;&#xff01; 从下…

vulnhub靶机dpwwn1

准备工作 下载连接&#xff1a;https://download.vulnhub.com/dpwwn/dpwwn-01.zip 网络环境&#xff1a;DHCP、NAT 下载完后解压&#xff0c;然后用VMware打开dpwwn-01.vmx文件即可导入虚拟机 信息收集 主机发现 端口发现 继续查看端口服务信息 打开网站发现只有Apache默认…

【Spring篇】IOC/DI注解开发

&#x1f353;系列专栏:Spring系列专栏 &#x1f349;个人主页:个人主页 目录 一、IOC/DI注解开发 1.注解开发定义bean 2.纯注解开发模式 1.思路分析 2.实现步骤 3.注解开发bean作用范围与生命周期管理 1.环境准备 2.Bean的作用范围 3.Bean的生命周期 4.注解开发依赖…

行为识别 Activity Recognition

行为识别 行为检测是一个广泛的研究领域&#xff0c;其应用包括安防监控、健康医疗、娱乐等。 课程大纲 导论 图卷积在行为识别中的应用&#xff1a;论文研读&#xff0c;代码解读&#xff0c;实验 Topdown关键点检测中的hrnet&#xff1a;论文研读&#xff0c;代码解读&a…

ETL工具 - Kettle 流程、应用算子介绍

一、Kettle 流程和应用算子 上篇文章对Kettle 转换算子进行了介绍&#xff0c;本篇文章继续对Kettle 的流程和应用算子进行讲解。 下面是上篇文章的地址&#xff1a; ETL工具 - Kettle 转换算子介绍 流程算子主要用来控制数据流程和数据流向&#xff1a; 应用算子则是Kettle给…