如何使用NLP库解析Python中的文本

news2025/4/19 12:08:35

Python是一种强大的面向对象的编程(object-oriented programming,OOP)语言,在人工智能领域有着广泛的用途。正是鉴于其实用性,以Google为首的大型科技公司,已经对其开发了Tensorflow等代码库,帮助人们利用强大的机器学习算法与模型,来实现各种应用目的,其中不乏各种“手语”解析器、摩托车头盔检测器、以及各种物品识别器。

而NLP(natural language processing,自然语言处理)是所有与理解和操纵自然语言相关的人工智能活动的总称。在Python中,就有一种被称为Transformers的机器学习模型,可被用于获取文本,并将文本分解为不同的组件,进而识别出其中的重要部分。接下来,我们就来讨论一下作为深度学习模型的Transformer,是如何解析文本的。

一、如何使用Transformer库在Python中解析文本?

在开始之前,先需要拥有一个Google帐户。为了省去在自己的计算机上安装Python、其依赖项、以及IDE(integrated development environment,集成开发环境)的麻烦,我们使用免费的云服务环境-Google Colab笔记本,以便与不同的人使用Python进行协作。同时,由于AI代码库本身体量较大,并且具有较多的依赖项,因此云端环境的使用,可以有效地节省它们对于硬盘空间的占用。

1.安装所需的库

首先,我们需要安装如下四个代码库。打开Colab笔记本,并在第一个代码单元格中输入以下内容:

!pip install transformers

!pip install torch

!pip install sentencepiece

!pip install newspaper3k

在继续之前,让我们稍微了解一下这些命令。如你所知:

  • “Transformers”是可被用于解析文本的深度学习模型。
  • “Torch”提供了深度学习的算法。
  • “Sentencepeice”可被用于“标记化”(组件分解)文本。
  • “Newspaper3k”是一个网络抓取库,可用于从互联网导入文章(文字内容)。

此时,你的屏幕会显示如下内容:

图片

2.导入文章

为了导入文章,你必须提供其对应的URL。接着,你需要输入如下命令,来下载并解析文章,以便我们稍后对其进行进一步的标记。

图片

在完成后,我们将进入第3步。

3.标记文章

我们需要从转换库中,导入自动分词器,然后使用T5模型(T5是一种机器学习模型),可用于文本到文本(text-to-text)的转换(在此我们可用于解析),进而生成解析的文本。下图展示了需要为此效果输入的代码。

图片

4.解析文章

为了解析这篇文章,你需要创建一个特定的函数。此函数能够接受已标记的文章,并且单独解析每个句子。然后,在输出之前,它会将各个句子重新连接到一起。

图片

下图展示了已解析文本的输出:

图片

你可以手动将其复制到文本文件中,以增强可读性。

这便是使用NLP库解析Python中文本的一种方式。不过,这是一种相当复杂且繁琐的方式,尤其是对于那些不熟悉AI和Python的人来说,更是如此。此时,你一定会想到,是否有一些在线解析工具,来达到该目的呢?

二、可用于在线解析的免费工具

1.Prepostseo

Prepostseo提供了可用于各种目的且非常实用的解析工具。由于可以被免费使用,因此你无需注册任何类型的帐户,即可流畅地开始使用它。

使用该工具时,你可以免费地采用如下三种模式:

  • 简单模式
  • 高级模式
  • 流畅模式

其中,在简单模式下,该工具只会进行一些简单的同义化,即:多个词会被一些同义词所代替。

而高级模式改变的不仅仅是单词和解析的结果。如果你不喜欢其默认给出的结果,则可以查看它的可修改之处,并用其他的同义词替换它。

流利模式不仅会改变单词,而且会改变短语、句子结构、以及语气。但是,它并不提供编辑输出的选项。

可见,流畅模式和高级模式是更为有效的模式。若想导入定制的内容,你可以上传待解析的文档,或者直接将文本复制粘贴到输入字段中,并在解析过程完成后,再下载其输出。

该工具的唯一缺点是会有广告在其网页上。

2.Linguix

Linguix是另一个无需注册即可使用的免费解析器。由于其网页上并没有任何广告,因此它对于用户来说十分友好。

虽然Linguix没能提供多种模式,但是当你在解析一个句子时,会得到多个建议,而非仅仅一条。鉴于所有建议都有可能对给定的文本产生不同更改,你可以选择其中最适合的一个。

该工具的操作方法比较简单,你只需要在输入框中写入待解析的文本,然后以突出显示的方式选择它,便可逐句获得相应的弹出建议。

该工具的唯一缺点是:你一次只能解析五个句子。

3.Paraphraser

Paraphraser.io也是一个拥有许多内容优化工具的在线工具包。顾名思义,它主要针对的是解析领域。

该工具同样无需注册便可被免费使用。不过,与前面提到的Prepostseo类似,你在使用过程中,也可能会被其广告所困扰。目前,它提供了两种免费模式:标准模式和流畅模式。其中,标准模式只会使用同义词去替换部分单词,并保持整体句子的结构不变。而流利模式除了会替换单词和短语,还会改变句子的结构,进而让文本更具有可读性。

除了广告,该工具的另一个缺点是:你一次性最多只能解析500个单词。

三、小结

综上所述,在使用NLP库解析Python中的文本时,我们完全可以利用人工智能和深度学习的各种模型,来实现转换。你既可以使用Google Colab的强大云服务功能,使用Transformer库来完成此类繁重的任务;又可以选用各种在线解析工具的各种模式,以不同的方式重写文本。而且,此类工具大多是免费且无需注册。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/917662.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

相交链表00

题目链接 相交链表 题目描述 注意点 保证 整个链式结构中不存在环函数返回结果后,链表必须 保持其原始结构如果 listA 和 listB 没有交点,intersectVal 为 0 解答思路 两个链表从头开始遍历,如果其是在同一个位置处相交,则在…

(AcWing)没有上司的舞会

Ural 大学有 NN 名职员,编号为 1∼N。 他们的关系就像一棵以校长为根的树,父节点就是子节点的直接上司。 每个职员有一个快乐指数,用整数 Hi 给出,其中 1≤i≤N。 现在要召开一场周年庆宴会,不过,没有职…

智能问答FAQ的原始问答数据怎么整理?

整理智能问答FAQ的原始数据是构建一个智能问答系统的重要步骤之一。 如何整理原始问答数据以及如何将其转化为智能问答系统 1. 收集原始数据 收集原始数据是整理智能问答FAQ的第一步。可以从以下途径收集原始数据: 网络搜索:通过搜索引擎、论坛、社交…

小白到运维工程师自学之路 第七十九集 (基于Jenkins自动打包并部署Tomcat环境)2

紧接上文 4、新建Maven项目 clean package -Dmaven.test.skiptrue 用于构建项目并跳过执行测试 拉到最后选择构建后操作 SSH server webExec command scp 192.168.77.18:/root/.jenkins/workspace/probe/psi-probe-web/target/probe.war /usr/local/tomcat/webapps/ /usr/loca…

伦敦银和伦敦金的区别

伦敦银河伦敦金并称贵金属交易市场的双璧,一般投资贵金属的投资者其实不是交易伦敦金就是交易伦敦银。相信经过一段时间的学习和投资,不少投资者都能分辨二者的区别。下面我们就来谈谈伦敦银和伦敦金有什么异同,他们在投资上是否有差别。 交易…

股票预测和使用LSTM(长期-短期-记忆)的预测

一、说明 准确预测股市走势长期以来一直是投资者和交易员难以实现的目标。虽然多年来出现了无数的策略和模型,但有一种方法最近因其能够捕获历史数据中的复杂模式和依赖关系而获得了显着的关注:长短期记忆(LSTM)。利用深度学习的力…

Android初学之android studio运行java/kotlin程序

第一步骤:File—>New—>New Module,然后弹出一个框,(左边)选择Java or Kotlin Library,(右边)编辑自己的图书馆名、包名、类名,选择Java一个语言,然后F…

分享漂亮electerm主题

Electerm 字体建议设置为:Consolas 和 Microsoft YaHei UI 主题配置如下: themeNameNice main-dark#171717 main-light#2E3338 text#ddd text-light#fff text-dark#888 text-disabled#777 primary#CACACA info#FFD166 success#06D6A0 error#EF476F wa…

Unity shader 入门之渲染管线一、总览

如下示意图 应用阶段(ApplicationStage):准备场景信息(视景体,摄像机参数)、粗粒度剔除、定义每个模型的渲染命令(材质,shader)——由开发者定义,不做讨论。几何阶段(GemetryStage)&…

星戈瑞分析FITC-PEG-Alkyne的荧光特性和光谱特性

​欢迎来到星戈瑞荧光stargraydye!小编带您盘点: FITC-PEG-Alkyne的荧光特性和光谱特性是对其荧光性能进行分析的方面。以下是FITC-PEG-Alkyne的一些常见荧光特性和光谱特性: **1. 荧光激发波长:**FITC-PEG-Alkyne的荧光激发波长通…

【校招VIP】java语言考点之分代垃圾回收

考点介绍: JVM垃圾回收是面试里绕不开的考点,尤其是分代回收算法,集各种普通垃圾回收于一身,成为垃圾回收之王。但是也造成多个阶段的GC的不同,需要从对象的大小和使用频度等角度去考虑每个阶段的算法选择和造成的问题…

Docker 微服务实战

1. 通过IDEA新建一个普通微服务模块 1.1 建Module docker_boot 1.2 改写pom <?xml version"1.0" encoding"UTF-8"?><project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance&…

OpenHarmony应用实现二维码扫码识别

本文转载自《OpenHarmony应用实现二维码扫码识别》&#xff0c;作者zhushangyuan_ 概念介绍 二维码的应用场景非常广泛&#xff0c;在购物应用中&#xff0c;消费者可以直接扫描商品二维码&#xff0c;浏览并购买产品&#xff0c;如图是购物应用的扫描二维码的页面。 本文就以橘…

TUME儿童毛毯上架亚马逊做CPC认证测试

毛毯(英文Blanket)&#xff0c;是一种常用的床上用品&#xff0c;具有保暖功能&#xff0c;与被子相比较薄。其原料多采用动物纤维&#xff08;如羊毛、马海毛、兔毛、羊绒、驼绒、牦牛绒&#xff09;或腈纶、粘胶纤维等化学纤维&#xff0c;也有的是动物纤维与化纤混纺制成的。…

软件产品需要做测评报告吗?

软件测试报告 毋庸置疑&#xff0c;当然需要&#xff0c;软件测试报告对软件测试过程中的评估、沟通、风险掌控、缺陷修复、发展方向等方面都有着非常重要的作用。接下来我们具体讲讲&#xff1a; 1、软件产品质量的客观评价 &#xff08;1&#xff09;发现软件产品存在的问题…

蓄电池管理,金融公司需警惕!

蓄电池在数据中心的UPS系统中作为备用电源&#xff0c;可以在电力中断时提供持续的电力供应&#xff0c;以保障数据中心的正常运行。 因此&#xff0c;蓄电池监控在数据中心行业具有重要意义。 客户案例 上海某金融服务公司拥有多个数据中心&#xff0c;为其核心业务提供支持。…

vue3 实现按钮权限管理

在做后台管理系统时&#xff0c;经常会有权限管理的功能&#xff0c;这里来记录一下关于按钮权限管理的实现方法 1、自定义指令 v-permission。新建js文件用来写指令代码。 export default function btnPerms(app) {app.directive(permission, {mounted(el, binding) {if (!p…

使用动态IP是否会影响网络

今天我们要谈论的话题是关于动态IP和网络的关系。也许有些小伙伴对这个概念还比较陌生&#xff0c;但别担心&#xff0c;我会简单明了的给你理清楚。让我们一起看看动态IP到底能否影响到网络。 首先&#xff0c;我们先来搞明白什么是动态IP。在互联网世界中&#xff0c;每一个连…

开源容灾备份软件,开源cdp备份软件

数据的安全性和完整性面临着硬件问题、黑客攻击、人为错误等各种威胁。在这种环境下&#xff0c;开源容灾备份软件应运而生&#xff0c;通过提供自动数据备份和恢复&#xff0c;有效地保证了公司的数据安全。 一、开源容灾备份软件的定义和作用 开源容灾备份软件是一种基于开源…

ConfigMap(可变应用配置管理)

实验环境 实验环境&#xff1a; 1、win10,vmwrokstation虚机&#xff1b; 2、k8s集群&#xff1a;3台centos7.6 1810虚机&#xff0c;1个master节点,2个node节点k8s version&#xff1a;v1.22.2containerd://1.5.5实验软件(无) 1 基础知识 1.1 什么是ConfigMap(可变配置管理…