数据融合工具(7)文本属性值规范化处理

news2024/9/23 5:15:48

图片

一、需求背景

数据检查方案中,对文本属性值的检查一般包括以下内容:

  • 检查属性值中不能含有不合理的标点符号(“,”、“?”、空格、换行符等);

  • 确认全部属性字段是否为半角;

  • 名称简称中不能出现异常字符;

……

而我们在属性表中处理文本类型字段属性值时,也常碰到这样的烦恼:

  • 一次只能处理一个字段;

  • 一次只能处理一种非法字符类型;

  • 字段计算器一运算,想反悔已经来不及;

  • 文本查找与替换,又不能支持字符串两端或中间模糊匹配;

    ……

图片

二、为什么要对文本属性值规范化处理?

        属性值规范化处理是数据预处理的一部分,通常在数据清洗和准备阶段进行。这种处理是为了确保数据的一致性和可用性,以减少错误和提高数据的质量。以下是针对属性值规范化处理的不同需求及其原因:

  1. 全角转半角:这需求的原因是全角字符在计算机系统中通常占用更多的存储空间,并且在一些应用程序中可能会引起字符编码问题。将全角字符转为半角字符可以减小存储开销,提高数据的兼容性和可移植性。

  2. 半角转全角:有时,特定的应用程序或系统可能要求文本中的字符都是全角字符。半角字符转为全角字符可以确保数据的一致性和符合系统的要求。

  3. 值替换:有时,需要将某些特定的属性值替换为其他值,以满足特定需求。例如,将"男"替换为"1",将"女"替换为"2",以便进行数据分析或模型训练。

  4. 异常字符剔除:异常字符通常是那些与特定应用不兼容或无法正确处理的字符。剔除这些字符可以确保数据的质量和可用性。

  5. 删除英文标点符号:在一些自然语言处理任务中,英文标点符号可能无关紧要或干扰数据处理。删除这些标点符号有助于提高文本处理的效率。

  6. 删除中文标点符号:与英文标点符号类似,中文标点符号在某些任务中可能无关紧要或干扰数据处理。删除它们可以净化文本数据。

  7. 删除英文:有时,数据中可能包含不需要的英文文本。删除英文可以减少干扰和降低数据维度。

  8. 删除中文:类似于删除英文,如果数据中包含不需要的中文文本,可以删除以简化数据。

  9. 删除数字:在某些情况下,数字可能不重要或干扰数据分析。删除数字可以净化文本或属性值,使其更适合某些任务。

  10. 删除空格:额外的空格可能会导致数据处理问题,特别是在文本匹配和搜索方面。删除空格有助于确保文本的一致性。

        这些需求的具体原因取决于数据的特点和所执行的任务。属性值规范化处理的目标是提高数据的质量、一致性和适用性,以便于后续的分析、建模和应用。

        归纳一下:

        要素类文本字段属性值,在多种场景下需要对属性值规范化处理。

        (1) 全角转半角;

        (2) 半角转全角;

        (3) 值替换;

        (4) 异常字符剔除;

                  a) 删除英文标点符号;

                 b) 删除中文标点符号;

                 c) 删除英文;

                d) 删除中文;

                e) 删除数字;

                 f) 删除空格。

三、要素类文本属性值规范化处理工具

        要素类文本属性值规范化处理工具,用于处理输入要素文本字段值中,存在的全角半角、空格、数字、中文、中文标点、英文、英文标点以及值替换等文本规范化需求。

3.1 工具概述

支持功能:

        (1)全角、半角互转;

        (2)值替换;

 支持“*”模糊查找,如“*ABC”,“*ABC*”和“ABC*”,“*”代表任意多个连续的字符。

        (3)异常字符剔除。

        (4)支持多个文本字段一起处理,支持多种属性值规范化方法一起处理;

3.2 功能流程

        (1)工具打开界面如下图所示

图片

        (2)工具测试数据运行过程如下所示

图片

        (3)工具测试数据运行结果示意如下

图片

        (4)工具参数介绍如下

图片

        (5)工具输出

        当选中“是否另存规范化后的结果”,即默认值情况下,输出要素类(FeatureClass)“输入要素类名称+ _format”为修复后的结果。 

        若scratch.gdb不存在,则自动创建,若已存在,不会覆盖其中已有的要素。

        (6)注意事项

        当可选参数“是否另规范化后的结果”未被选中时,将在输入要素中直接修复要素,应注意备份。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1921337.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

FastAPI 学习之路(四十二)利用Docker部署发布

我们之前的部署都是基于本地的部署,我们这次来看下,如何使用docker部署我们的fastapi项目。 编写Dockerfile ①:首先编写一个docker镜像的制作文件Dockerfile FROM python:3.10RUN pip install fastapi uvicorn aiofiles sqlalchemy pytho…

led灯什么牌子的质量好呢?盘点五款高口碑的led灯

很多新手小白在选购护眼台灯前,都会思考led灯什么牌子的质量好呢?这因为有的无良商家因为想要降低成本,使用一些廉价低劣的处理器,led灯的电压和功率都难以保证,有的甚至会产生有害的辐射,对人体的健康造成…

基于web、dns、nfs的综合实验

题目: 现有主机 node01 和 node02,完成如下需求: 1、在 node01 主机上提供 DNS 和 WEB 服务 2、dns 服务提供本实验所有主机名解析 3、web服务提供 www.rhce.com 虚拟主机 4、该虚拟主机的documentroot目录在 /nfs/rhce 目录 5、该目录由 no…

win11下部署Jenkins,build c#项目

一个c#的项目,由于项目经理总要新版本测试,以前每次都是手动出包,现在改成jenkins自动生成,节省时间。 一、下载Jenkins, 可以通过清华镜像下载Index of /jenkins/windows-stable/ | 清华大学开源软件镜像站 | Tsingh…

低压电柜导线颜色标准

低压电柜导线颜色标准主要遵循以下规则:‌ 保护导线(‌PE)‌必须采用黄绿双色,‌这是为了明确标识接地线路,‌确保安全。‌ 动力电路的中线(‌N)‌和中间线(‌M)‌必须…

Windows 如何安装和卸载 OneDrive?具体方法总结

卸载 OneDrive 有人想问 OneDrive 可以卸载吗?如果你不使用当然可以卸载,下面是安装和卸载 OneDrive 中的卸载应用具体操作步骤: 卸载 OneDrive 我们可以从设置面板中的应用选项进行卸载,打开设置面板之后选择应用,然…

人工智能算法工程师(中级)课程1-Opencv视觉处理之基本操作与代码详解

大家好,我是微学AI,今天给大家介绍一下人工智能算法工程师(中级)课程1-Opencv视觉处理之基本操作与代码详解。OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库。它提供了各种视觉处理函数&am…

《python程序语言设计》2018版第5章第55题利用turtle绘制平方函数,我用的是我之前的解题,有点扛不住了。兄弟们

直接上图 import turtleturtle.speed(20) turtle.penup() # 这里就是我理解的平方函数的概念,不知道对不对 for i in range(-18, 19):turtle.goto(i, i ** 2)turtle.pendown()turtle.hideturtle() turtle.done()只有平方函数的结果。没有横线竖线。各位兄弟们自己脑…

硅谷甄选4(项目主体)

1.路由配置 1.1路由组件的雏形 src\views\home\index.vue(以home组件为例) 安装插件: 1.2路由配置 1.2.1路由index文件 src\router\index.ts //通过vue-router插件实现模板路由配置 import { createRouter, createWebHashHistory } fro…

【Python学习笔记】调参工具Optuna + 泰坦尼克号案例

【Python学习笔记】调参工具Optuna&泰坦尼克号案例 背景前摇:(省流可不看) 最近找了份AI标注师的实习,但是全程都在做文本相关的活,本质上还是拧螺丝,就想着学点调参、部署什么的技能增加一些竞争力&a…

昇思MindSpore学习笔记6-02计算机视觉--ResNet50迁移学习

摘要: 记录MindSpore AI框架使用ResNet50迁移学习方法对ImageNet狼狗图片分类的过程、步骤。包括环境准备、下载数据集、数据集加载、构建模型、固定特征训练、训练评估和模型预测等。 一、概念 迁移学习的方法 在大数据集上训练得到预训练模型 初始化网络权重参数…

爬虫-浏览器自动化

什么是selenium selenium是浏览器自动化测试框架,原本用于网页测试。但到了爬虫领域,它又成为了爬虫的好帮手。有了 selenium,我们便不再需要判断网页数据加载的方式,只要让 selenium 自动控制浏览器,就像有双无形的手…

海南云亿商务咨询有限公司抖店开店正规吗?

在当今的数字经济时代,抖音电商已经成为一股不可忽视的力量。无论是品牌商还是个人创业者,都纷纷涌入这个充满活力和潜力的市场。而在这个风起云涌的浪潮中,海南云亿商务咨询有限公司以其专业的服务和敏锐的市场洞察力,成为抖音电…

GitHub 创始人资助的开源浏览器「GitHub 热点速览」

你是否注意到,现在主流的浏览器如 Chrome、Edge、Brave 和 Opera 都采用了谷歌的 Chromium 引擎?同时,谷歌每年不惜花费数十亿美元,确保其搜索引擎在 Safari 中的默认地位,甚至连 Firefox 也难逃商业利益的影响&#x…

一款好用的特殊字符处理工具

跟mybatis代码的时候,偶然发现的一款特殊字符处理工具java.lang.StringTokenizer。平常,我们看到的mybatis mapper.xml里面各种换行各种缩进,但日志文件里面的sql都是整整齐齐的。没有换行符,缩进等。就是利用该工具做的格式化处理…

在Ubuntu下安装samba实现和Windows系统文件共享

一、安装 apt install -y samba samba-clientSamba is not being run as an AD Domain Controller: Masking samba-ad-dc.service Please ignore the following error about deb-systemd-helper not finding those services. (samba-ad-dc.service masked) Created symlink /et…

每天一个数据分析题(四百二十七)- 方差分析

下面是一个方差分析表: 表中A,B,C,D,E五个单元格内的数据分别是( )。 A. 40,5,35,60,1.71 B. 40,5,35,60&a…

仙侠天花板,圆你土豪梦,上古传说手游详细图文架设教程

前言 这次给大家带来的是一款我的心头好,绝对是我所有架设游戏里排名前三的,一款经典的仙侠手游,安卓苹果双端,画质精美程度真的没有哪几个游戏可以比得上,故事情节加上背景音乐绝对值得沉浸其中慢慢玩,最…

JSONObject和Map<String, Object>的转换

一、前言 Java开发中出参返回和入参传入更灵活的方法是使用Map<String, Object>入参或出参&#xff0c;或者使用JSONObject。 1、好处&#xff0c;参数可变&#xff0c;对接口扩展性很友好。 public ResponseData<WXModelDTO> getUserInfo(RequestBody Map<…

【unity笔记】常见问题收集

一 . Unity Build GI data 卡住问题 问题解决: 参考官方文档&#xff0c;GI(Global Illumination) data 指的是全局照明信息。 在Unity的Edit->Preference中&#xff0c;可以编辑GI缓存路径和分配GI缓存大小。 调出Window->Rendering->Lighting窗口&#xff0c;取消…