软件测试|如何使用Python取句中中英文内容

news2025/1/24 8:29:59

简介

提取句子中的中英文内容在自然语言处理中是一个常见任务,通常用于文本处理、机器翻译和语言学研究。本文将详细介绍如何使用 Python 提取句子中的中英文内容,包括准备工作、选择合适的库、编写代码示例和演示示例。

准备工作

我们可以使用Python自带的re模块或者借助jiebanltk库来实现该功能,jieba以及nltk是第三方库,所以我们需要通过命令来安装这两个库,命令如下:

pip install jieba nltk

下面是对我们用到的模块的介绍:

  • re:用于正则表达式操作,我们将使用它来匹配中英文内容
  • jieba:用于中文分词,将中文句子分成词语
  • nltk:自然语言工具包,用于英文文本处理

使用正则表达式提取中英文

正则表达式是一种强大的文本匹配工具,可以用来提取句中的中英文内容。下面是使用正则表达式提取中英文的示例代码:

import re

def extract_chinese_and_english(sentence):
    chinese_pattern = re.compile('[\u4e00-\u9fa5]+')
    english_pattern = re.compile('[a-zA-Z]+')
    result = {
        'chinese': chinese_pattern.findall(sentence),
        'english': english_pattern.findall(sentence)
    }
    return result

sentence = '这是一个示例句子,包含了一些中文和英文。This is an example sentence with both Chinese and English.'
result = extract_chinese_and_english(sentence)
print(result['chinese'])
print(result['english'])

------------------------
运行脚本,输出结果如下:
['这是一个示例句子', '包含了一些中文和英文']
['This', 'is', 'an', 'example', 'sentence', 'with', 'both', 'Chinese', 'and', 'English']

使用第三方库进行中英文提取

除了正则表达式,还可以使用一些第三方库来提取句中的中英文内容。下面是使用Jieba和nltk库进行中英文提取的示例代码:

import re
import jieba
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize

# 初始化nltk
nltk.download("punkt")

# 示例句子
sentence = "这是一个示例句子,包含了一些中文和英文。This is an example sentence with both Chinese and English."

# 提取中文内容
def extract_chinese(text):
    chinese_pattern = re.compile(r'[\u4e00-\u9fa5]+')
    chinese_matches = chinese_pattern.findall(text)
    return " ".join(chinese_matches)

# 提取英文内容
def extract_english(text):
    english_pattern = re.compile(r'[a-zA-Z]+')
    english_matches = english_pattern.findall(text)
    return " ".join(english_matches)

# 分词中文内容
chinese_text = extract_chinese(sentence)
chinese_words = jieba.cut(chinese_text)

# 分词英文内容
english_text = extract_english(sentence)
english_words = word_tokenize(english_text)

# 输出结果
print("原句子:", sentence)
print("中文内容:", chinese_text)
print("中文分词:", " ".join(chinese_words))
print("英文内容:", english_text)
print("英文分词:", " ".join(english_words))

-----------------------------
输出结果如下:
原句子: 这是一个示例句子,包含了一些中文和英文。This is an example sentence with both Chinese and English.
中文内容: 这是一个示例句子 包含了一些中文和英文
中文分词: 这 是 一个 示例 句子   包含 了 一些 中文 和 英文
英文内容: This is an example sentence with both Chinese and English
英文分词: This is an example sentence with both Chinese and English
  1. 我们首先使用正则表达式来提取中文和英文内容。中文内容的正则表达式 [\u4e00-\u9fa5]+ 用于匹配中文字符,英文内容的正则表达式 [a-zA-Z]+ 用于匹配英文字符。

  2. 对中文内容使用 jieba 进行分词,将中文句子分成词语。

  3. 对英文内容使用 nltkword_tokenize 函数进行分词,将英文句子分成单词。

  4. 最后,我们输出原句子、中文内容、中文分词、英文内容和英文分词。

总结

本文主要介绍了使用Python来对文本中的中文英文内容进行提取,我们只使用了简单的示例,如果我们需要处理更复杂的文本,需要使用更高级的框架以及更复杂的正则表达式。

最后感谢每一个认真阅读我文章的人,礼尚往来总是要有的,虽然不是什么很值钱的东西,如果你用得到的话可以直接拿走:

这些资料,对于【软件测试】的朋友来说应该是最全面最完整的备战仓库,这个仓库也陪伴上万个测试工程师们走过最艰难的路程,希望也能帮助到你! 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1383700.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ruoyi后台管理系统部署-4-安装nginx

yum 安装 ngix 1.24 yum 官方源安装: # 1. 需要预先安装 yum-utils sudo yum install yum-utils # 2. 配置yum repo touch /etc/yum.repos.d/nginx.repongix.repo: [nginx-stable] namenginx stable repo baseurlhttp://nginx.org/packages/centos/$releasever/$…

【26 预处理详解】

目录 预定义符号#define定义常量#define定义宏带有副作用的宏参数宏替换的规则宏函数的对比#和##命名约定#undef命令行定义条件编译头文件的包含其他预处理指令 1. 预定义符号 c语言设置了一些预定义符号,可以直接使用,预定义符号也是在预处理期间处理…

江科大STM32 下

目录 7、ADC数模转换器8、DMA直接存储器存取9、USART串口9-2 串口发送接受9-3 串口收发HEX数据包 I2CSPI协议10.1 SPI简介W25Q64简介10.3 SPI软件读写W25Q6410.4 SPI硬件读写W25Q64 BKP、RTC11.0 Unix时间戳11.1 读写备份寄存器BKP11.2 RTC实时时钟 十二、PWR12.1 PWR简介12.2 …

Java21 + SpringBoot3集成WebSocket

文章目录 前言相关技术简介什么是WebSocketWebSocket的原理WebSocket与HTTP协议的关系WebSocket优点WebSocket应用场景 实现方式1. 添加maven依赖2. 添加WebSocket配置类,定义ServerEndpointExporter Bean3. 定义WebSocket Endpoint4. 前端创建WebSocket对象 总结 前…

Camunda Postman

一:下载 https://artifacts.camunda.com/ui/native/camunda-bpm/org/camunda/bpm/camunda-engine-rest-openapi/7.17.0/ 下载camunda-engine-rest-openapi-7.17.0.jar解压获取openapi.json 二:Postman导入 Postman -> File -> Import -> 上…

百度面经整理(2024最新)

百度 面经1 shiro的组件分布式一致性算法zookeeper那些能参与投票,leader能投票吗?netty零拷贝实现volatile,如何感知到变量变化的redis高可用http如何跨域?tcp如何长链接。http如何操作浏览器缓存。用过消息队列吗?…

在众多的材质中选择灰口铸铁铸造划线平台、铸铁平台等的原因——河北北重

使用灰口铸铁制作铸铁平台和划线平台的主要原因有以下几点: 强度高:灰口铸铁具有较高的强度和硬度,能够承受较大的载荷和冲击力。这使得灰口铸铁非常适合制作需要承受重压和磨损的平台和设备。 耐磨性好:灰口铸铁具有较高的耐磨性…

第六站:C++面向对象关键字解释说明

this指针: 是一个特殊的指针,放回这个对象本身,this指针是属于实例对象,不能访问静态方法(不属于某一个实例对象,属于共有的,大众的,由类直接调用) 第一种用法: void Human::setName(string name1) {this->name name1; } void Human::setAge(int age1) {this->age a…

张载为往圣继绝学,唯一的错是不够强大

“自古雄才多磨难,从来纨绔少伟男。” 张载,人称“横渠先生”。他在横渠镇,授徒讲学,恢复古礼,试验井田,写书《正蒙》。张载讲学关中,弟子多为关中人,其学派被称作关学。 张载自学…

开源知识库zyplayer-doc部署指南

1.前置条件 docker已经安装 mysql已经安装且数据库zyplayer-doc存在 服务器ip:192.168.168.99/ 数据库账户:root,密码:123456 2.拉取镜像 docker pull zyplayer/zyplayer-doc:latest 3.启动 docker run -d \--restart unless-stopped \--name zyplayer-doc \-p 8083:8083 …

Docker安装Redis详细步骤

1、创建安装目录 mkdir -p /usr/local/docker/redis-docker 2、确定安装的版本 确定对应的版本,在步骤3中会用到: https://github.com/redis/redis/branches 3、配置docker-compose.yml 内容如下: version: 3 services:redis:image: r…

C语言经典算法之希尔排序算法

目录 前言 一、代码实现 二、算法的时空复杂度 时间复杂度: 空间复杂度: 前言 建议:1.学习算法最重要的是理解算法的每一步,而不是记住算法。 2.建议读者学习算法的时候,自己手动一步一步地运行算法。 tips:本算…

力扣热题 100

文章目录 哈希双指针滑动窗口子串普通数组矩阵链表二叉树图论回溯二分查找栈堆贪心算法动态规划多维动态规划技巧 哈希 双指针 移动零 class Solution {public void moveZeroes(int[] nums) {int k 0;for(int i 0;i < nums.length; i){if(nums[i] ! 0) {nums[k] nums[…

2-6基础算法-快速幂/倍增/构造

文章目录 一.快速幂二.倍增三.构造 一.快速幂 快速幂算法是一种高效计算幂ab的方法&#xff0c;特别是当b非常大时。它基于幂运算的性质&#xff0c;将幂运算分解成一系列的平方操作&#xff0c;以此减少乘法的次数。算法的核心在于将指数b表示为二进制形式&#xff0c;并利用…

计算机毕业设计----Springboot+Vue调查问卷管理系统

基于Spring Boot的问卷调查系统 项目介绍 > * 本项目的在线问卷调查调查系统是基于SpringBoot开发的&#xff0c;采用了前后端分离模式来开发。 > * 前端开发使用了Vue、Element UI&#xff0c;后端的开发则是使用了SpringBoot、MyBatis技术。 项目配置 > * 下载…

docker部署开原博客系统halo

1.先看下效果 2.拉取镜像 docker pull halohub/halo:2.10 3.启动 mkdir -p /data/halo && cd /data/halodocker run -it -d --name halo -p 8090:8090 -v /data/halo/.halo2:/root/.halo2 halohub/halo:2.10 4.设置账户密码 设置后登陆 5.登陆 发布博客

【Docker】Dockerfile构建最小镜像

&#x1f973;&#x1f973;Welcome 的Huihuis Code World ! !&#x1f973;&#x1f973; 接下来看看由辉辉所写的关于Docker的相关操作吧 目录 &#x1f973;&#x1f973;Welcome 的Huihuis Code World ! !&#x1f973;&#x1f973; 前言 一.Dockerfile是什么 二.Dock…

【Qt】QThread moveTothread-多线程的两种实现方法

一、如何理解多线程 二、实现多线程的两种方式&#xff08;面向应用&#xff09; 2.1 继承 QThread 的类 2.2 (推荐这种方式)函数 moveTothread() 三、多线程的释放问题&#xff08;善后工作&#xff09; 多线程的两种实现方法 一、如何理解多线程二、实现多线程的两种方式&…

C++核心编程之类和对象---C++面向对象的三大特性--多态

目录 一、多态 1. 多态的概念 2.多态的分类&#xff1a; 1. 静态多态&#xff1a; 2. 动态多态&#xff1a; 3.静态多态和动态多态的区别&#xff1a; 4.动态多态需要满足的条件&#xff1a; 4.1重写的概念&#xff1a; 4.2动态多态的调用&#xff1a; 二、多态 三、多…

快速排序学习笔记

代码框架 // 在数组nums将下标从left到right中进行从小到大排序// 原理是先将一个元素排好序&#xff0c;然后将其他的元素排好序void sort(int[] nums, int left, int right) {if (left > right) {return;}// 对数组nums[left,right]进行切分&#xff0c;使得nums[left,p-1…