【神奇bug】“金”、“⾦”不是同一个字

news2024/9/20 16:07:01

身为程序员,总能遇见那些神奇的bug。我前段时间遇到了 “中国黄金” 和 “中国黄⾦”,我咋看咋觉得是同一个词,但是程序就是判定不一致,十分郁闷,多方搜索,最后发现2个金居然不是一个字。真是个神奇的bug,故整理下相关情况,希望大家若能遇见此类问题,可以快速排查。

一、情况回顾

1.1 工具推荐

这里推荐2个在线网站,供大家参考:
在线文本对比
在线字符编码查询

1.2 排查路线

step1. 打开在线对比网站,逐字对比,发现问题出现在 “金” 字这里,此时可判定并非同一个字。
逐字对比

step2. 打开在线字符编码查询网站,分别查一下其编码

“金”码位值相关信息如下:
“金”码位值相关信息

“⾦”码位值相关信息
“⾦”码位值相关信息
由此可以看出2个字的编码完全不同,故程序判定不一致是正常现象。至此,本次问题已梳理清楚,统一字符即可。
经过后续查询,发现 “⾦” 实际为康熙词典中的部首。

step3. 啥原因导致的这个情况发生呢?
项目前期,部分文本以图片形式提供, 因不想手动打字,所以采用了OCR进行文本识别。
嗯……OCR的锅,不过话说回来,也不能全怪OCR,也许图片显示确实与后者更相近。
使用OCR录入数据的大家注意了哈!

二、举一反三、延伸扩展

由这件事开始,那么扩展想一下,还有那些从程序视角审视完全不一样,但是肉眼难以区分的情况呢?
我这里仅是抛砖引玉,欢迎大家在评论区补充哈。

2.1 压根不是一个字

这类字字形极为相似,OCR中也极容易误判,但是多数有细微差别。

常用字近似字
巿

2.2 全角半角不同

全角一个字符占用两个标准字符位置的状态,也就是字母、数字等与汉字占等宽位置。

半角一个字符占用一个标准字符的位置。

ASCII表中的字符,在默认情况下输入的字母数字和字符都是半角的。

举例如下:

半角全角
a
b
c

如果你还遇到过其他的情况,欢迎补充哈~~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/99332.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机基础学习笔记:操作系统篇之硬件结构,CPU Cache基础概念

三、CPU Cache的数据结构和读取过程 本文知识来源小林Coding阅读整理思考,原文链接请见该篇文章 Cache结构 CPU Cache 是由很多个 Cache Line 组成的,Cache Line 是 CPU 从内存读取数据的基本单位,而 Cache Line 是由各种**标志(…

基于java+springmvc+mybatis+vue+mysql的智能新冠疫苗接种助手

项目介绍 随着全球新冠疫情的蔓延,基本所有的发达国家都开始了全民疫苗接种的行为,在我国更是进行了全民的新冠疫苗接种,为了能够让民众更加方便快捷的进行疫苗的接种我们通过java编程语言,后端ssm框架,前端vue技术开…

【Python百日进阶-数据分析】Day129 - plotly柱状图(条形图):px.bar()实例

文章目录四、实例4.1 Plotly Express条形图4.1.1 加拿大人口4.1.2 一维数据的条形图4.1.3 多维数据条形图4.1.4 彩条4.1.5 堆叠与分组条形图4.1.6 聚集成单色条4.1.7 带文本的条形图4.1.8 填充图案4.1.9 分面子图4.1.10 带Plotly Express的基本水平条形图4.1.11 配置水平条形图…

nacos服务注册与发现

目录 1. 应用系统架构的演变(单应用>分布式) 2. Spring Cloud Alibaba介绍 3. 开发示例 3.1 版本的选择 3.2 nacos安装 3.3 创建工程 3.3.1 创建父工程 3.3.2 创建服务提供者模块 3.3.2 服务消费者 3.4 测试 今天与大家们简单的聊一下&#…

远程的Win11主机没有连接屏幕,通过向日葵远程后只有一个640x480的分辨率选项

背景 远程的 Win11 主机没有连接屏幕,通过向日葵远程后只有一个 640x480 的分辨率选项,界面特别小,用起来很不方便。而且远程主机本身还无法调整分辨率,向日葵上面的工具栏里也没有分辨率这一选项。 问题分析 主要原因是远程主机…

threejs之圆弧

文章目录弧线相关方法getPointssetFromPoints直线样条曲线与贝塞尔曲线样条曲线贝塞尔曲线专栏目录请点击 弧线 一般我们绘制弧线都会使用ArcCurve来进行绘制,他是EllipseCurve的别名,关于他的所有的方法,我们都可以看EllipseCurve 官网例子…

Linux网络协议之UDP协议(传输层)

Linux网络协议之UDP协议(传输层) 文章目录Linux网络协议之UDP协议(传输层)1.深入理解传输层1.1 对于端口号的理解1.2 端口号范围1.3 常用的知名端口号1.4 进程和端口号的两个问题1.5 查看网络状态命令(netstat)2.UDP协议2.1 UDP协议格式2.2 UDP的特点2.3 面向数据报2.4 UDP的缓…

基于nodejs仿京东商城系统的设计与实现.zip(论文+源码+ppt文档+视频录制)

第一章绪论 3 1.1项目开发的背景和意义 3 1.2国内外研究的现状 3 1.3研究的主要内容 4 第2章系统相关技术介绍 4 2.1 相关技术介绍 4 2.2 系统环境开发条件 5 第三章系统分析 6 3.1可行性分析 6 3.1.1技术性可行性 6 3.1.2经济性可行性 6 3.1.3操作性可行性 7 3.2功能需求分析 …

(Java)【深基9.例1】选举学生会

【深基9.例1】选举学生会 一、题目描述二、输入格式三、输出格式四、样例输入五、样例输出六、失败经历七、正确代码八、正确思路及易错点(1)题目分析(2)思路分析(3)StringBuffer: 线程安全的可变字符串①S…

二十四、CANdelaStudio深入-ExtData编辑

本专栏将由浅入深的展开诊断实际开发与测试的数据库编辑,包含大量实际开发过程中的步骤、使用技巧与少量对Autosar标准的解读。希望能对大家有所帮助,与大家共同成长,早日成为一名车载诊断、通信全栈工程师。 本文介绍CANdelaStudio的ExtData编辑,欢迎各位朋友订阅、评论,…

推荐系统学习笔记-deep crossing

由来 2016年由微软提出, 完整的解决了特征工程、稀疏向量稠密化, 多层神经网络进行优化目标拟合等一系列深度学习在推荐系统的应用问题。 这个模型涉及到的技术比较基础,在传统神经网络的基础上加入了embedding, 残差连接等思想&…

K8s CICD实战

K8s Network之Ingress PDF路径: 链接:https://pan.baidu.com/s/17DxUD8KN7pU1UKIR1Ejemg 提取码:dwf5 一、如果项目需要修改某些代码,怎么办? (1)重新打成jar包 (2)重新制作Dockerf…

javaSE - 异常(Exception 或 RuntimeException)

一、异常的背景 1.1、初识异常 其实在我们开发中,就是代码出现意外状况。影响到程序的运行。 其实,在我们接触代码开始,就一直在接触异常,只是从来没有分类。 这点在java中,更加明显。 现在我们就来基本了解一下异常。…

web靶场搭建之帝国cms7.5

目录 一、漏洞描述 二、漏洞环境 三、环境搭建 四、漏洞复现 后台getshell(CVE-2018-18086) 漏洞原理: 漏洞复现: 源码审计: 代码注入 (CVE-2018-19462) 漏洞原理: 漏洞复现: 源码审计: 后台X…

Innodb存储引擎-表(逻辑存储结构、行记录格式、数据页结构)

文章目录表索引组织表InnoDB逻辑存储结构表空间(tablespace)段(segment)区(extent)页(page)行(record)行记录格式compactRedundant行溢出数据Compressed 和 Dynamic 行记录格式CHAR的行结构存储数据页结构File Header & Page Header & File TrailerInfimum 和 Supremum…

springboot《1》

map的映射 package com.kob.backend.controller.pk;import org.springframework.web.bind.annotation.RequestMapping; import org.springframework.web.bind.annotation.RestController;import java.util.HashMap; import java.util.Map;RestControllerRequestMapping("…

国产软件的「硬替代」与「软着陆」之辨

作者 | 曾响铃 文 | 响铃说 疫情倒逼、政策驱动、市场化博弈、国际形势拉锯等等一系列的因素正在综合影响国产软件的走势。在国内,国产软件替代化进程持续加速,国产软件正迎来逆势增长的“窗口期”。 与此同时,从中央到地方,政…

项目中pom.xml文件变灰且中间有横杠改怎么解决?

目录 问题描述: 问题解决: 💟 创作不易,不妨点赞💚评论❤️收藏💙一下 问题描述: 项目中的部分pom.xml文件是没问题的,部分pom.xml文件没有被识别,变灰且有横杠。 原因:操作的时…

力扣(LeetCode)163. 缺失的区间(C++)

模拟 将 lowerlowerlower 和 upperupperupper 加入数组,避免边界判断。 一次遍历,相邻元素差 111 ,无缺失;相邻元素差 222 ,缺失中间的一个数;相邻元素相差大于 222 ,缺失中间一段数。根据格式…

Less知识点整理

Less 官方文档 在线Less编译工具 Less主要语法 1、变量xxx 2、嵌套 规则嵌套和冒泡 规则(例如 media 或 supports)可以与选择器以相同的方式进行嵌套。 规则会被放在前面,同一规则集中的其它元素的相对顺序保持不变。这叫做冒泡&#xff08…