如何在 Qt 中使用 uchardet 库
文章目录
- 如何在 Qt 中使用 uchardet 库
- 一、简介
- 二、uchardet库的下载
- 三、在Qt中直接调用
- 四、编译成库文件后调用
- 4.1 编译工具下载
- 4.2 uchardet源码编译
- 4.3 测试编译文件
- 4.4 Qt中使用
- 五、一些小问题
- 5.1 测试文件存在的问题
- 5.2 uchardet库相关
- 六、写在最后
一、简介
相信对编程熟悉的朋友有时候都会碰到这样一个问题——乱码。
大家应该都知道,这是由于文件编码格式不正确导致的相关问题,即在文件编写和阅读的时候采取的编码格式不同,于是造成了我们阅读上的困难。
对于众多编译器,都有转文件编码与识别文件编码的相关功能,因此我们经常看到他们的身影。
如上图所示分别为 windows记事本、Notepad++、VsCode
所提供的文件编码格式识别。
而在网上搜索到的绝大多数方式是使用 python
中的 chardet
模块进行文件编码格式的判断。其实该库就是我们本次使用的 uchardet
库,其只是被开发者适配成了 python
版本。由于有关该库的 C++
使用示例太少,所以就有了这篇文章,希望能给各位大佬提供思路!!!
那么我在这里简单介绍一下 uchardet
库。
uchardet(Universal Charset Detector)
是一个强大的开源项目,它可以帮助我们自动识别文本的字符集编码。
uchardet
基于Mozilla
的CharDet
算法,该算法经过大量实际数据训练,具有高度的准确性。其核心功能是通过分析字节序列的统计特性,判断出最可能的字符编码类型,支持如UTF-8、GBK、ISO-8859-1
等多种常见的字符集。项目采用
C++
编写,易于跨平台集成,并且拥有简洁的API
接口,使得开发者可以轻松地将uchardet
整合到他们的应用中。此外,项目还提供了Python
绑定,方便Python
开发者使用。项目地址(下载方式后续过程中我会进行阐述,因此不用着急下载!!!):
BYVoid/uchardet: An encoding detector library ported from Mozilla (github.com)
uchardet / uchardet · GitLab
项目网站主页:
- uchardet (www.freedesktop.org)
以上信息来源为以下文章,感谢作者分享!!
- 探索高效字符检测:深入理解
uchardet
-CSDN博客
由此,我们对 uchardet
有了初步的认识,那么如何将其应用到项目工程中,是本文的重点。这里我将使用 Qt
对该库进行操作,同理使用 C++
亦可实现。
在项目开始之前,简单介绍一下我所使用的配置环境:
开发平台:
- Window 10
- Qt 5.12.3
编译环境
- MinGW 64-bit
二、uchardet库的下载
由于网上资料实在是太少,所以说下载也是一件难事,不过本文推荐以下下载方式:
Index of /software/uchardet/releases (www.freedesktop.org)
- 如无法点击跳转可自行复制网址:https://www.freedesktop.org/software/uchardet/releases/
打开以后得到如下页面:
截至本文章撰写时间 2024/6/27,其版本更新到
0.0.8
而我们需要下载的是 uchardet-0.0.8.tar.xz
,这是稳定的发行版,可以正常使用。这里对新手朋友说一句,不要直接从 Github
上下载,而要去里面的 Release
下载,否则,你下载的文件大概率无法运行。因为没有 Release
的项目,大概率正在开发,其中不免存在或多或少的问题,盲目尝试不会让我们事半功倍!!!
回归正题,对上述下载的文件解压以后得到如下图所示的文件结构。
那么到这里该库的源码下载完成!!!后续我们将对其进行使用。
三、在Qt中直接调用
这种方法可以实现功能,但不推荐。因为直接使用其源码文件导入到 Qt
中,会增加很多文件,对我们的阅读体验不是很好,但这里也做介绍,感兴趣的朋友可以阅读。
-
新建
Qt
项目,将uchardet
源码中的src
文件夹复制到Qt
项目文件中: -
然后在
Qt
中按照如下步骤添加库文件:如图所示,在项目文件夹上 右键,点击
Add Existing Directory
。如图所示,对
uchardet.cpp
文件取消勾选。对项目中已有的文件取消勾选!!!然后点击
OK
,此时我的项目结构为: -
我在
UI
文件中创建了一个按钮,用来测试该库是否可行,如下所示: -
对按钮使用转到槽,实现其
released
槽函数。-
在
widget.h
文件中进行如下更改:#ifndef WIDGET_H #define WIDGET_H #include <QWidget> #include <QFileDialog> #include <QDebug> /* 增加 uchardet 库头文件 */ #include "src/uchardet.h" namespace Ui { class Widget; } class Widget : public QWidget { Q_OBJECT public: explicit Widget(QWidget *parent = nullptr); ~Widget(); private slots: void on_pushButton_released(); private: Ui::Widget *ui; }; #endif // WIDGET_H
-
对
widget.cpp
文件中对按钮的槽函数进行实现/*! * @File : widget.cpp * @Brief : 按钮槽函数 * @Details : 详细说明 * @Param : 参数 * @Return : 返回值 * @Author : Liu Jiahao * @Date : 2024-06-27 16:42:05 * @Version : v1.1 * @Copyright : Copyright By Liu Jiahao, All Rights Reserved * */ void Widget::on_pushButton_released() { QString filePath = QFileDialog::getOpenFileName(nullptr, "选择文件", "../", "所有文件 (*.*)"); if (filePath.isEmpty()) { return; } QFile file(filePath); // 文件打开成功 if (file.open(QIODevice::ReadOnly | QIODevice::Text)) { QByteArray buff = file.readAll(); uchardet_t ud = uchardet_new(); uchardet_handle_data(ud, buff.constData(), buff.size()); uchardet_data_end(ud); const char* encoding = uchardet_get_charset(ud); QString result = QString::fromLatin1(encoding); uchardet_delete(ud); qDebug() << "该文件的编码格式为:" << result; } file.close(); }
-
由此,完成了对该库的调用,这种方法较为简单,缺点就是会导入大量的源代码。
当我们运行程序点击按钮打开一个文件后,将会打印出该文件的编码格式,其运行结果如下图所示:
这里我做了一个简单的动图用于演示实现效果,如下所示:
四、编译成库文件后调用
在 Qt
中最常用的一般都是将所需库编译后调用,而 uchardet
也是可以进行这样的操作的,只不过实现起来有一点繁琐,需要我们自己进行编译。
4.1 编译工具下载
我们编译需要使用 MinGW-w64
进行编译,因此需要对该文件进行下载。
Releases · niXman/mingw-builds-binaries (github.com)
- 如无法点击跳转可自行复制网址:https://github.com/niXman/mingw-builds-binaries/releases
截至本文章撰写时间 2024/6/27,其版本更新到
13.2.0
我们可以看到下图所示的内容:
各个版本有何区别,感兴趣的朋友可以自行搜索,这里将不再赘述!!!本文着重讲解如何使用 uchardet
,望谅解!!!
这里我电脑是 64 位的,故我下载 x86_64-13.2.0-release-win32-seh-ucrt-rt_v11-rev0.7z
,下载后解压得到以下文件信息:
任意一个盘都可以,我这里直接解压在了 C 盘,大家不要学我!!!
- 尽量解压到一个自己好找的地方,后续需要使用这个地址!!!
然后打开 设置->系统->系统信息->高级系统设置->环境变量
,按照图中所示步骤进行点击:
我这里电脑没有装中文,但界面几乎一致。
我之前将其解压到 C:/mingw64/
目录下,因此这里我需要向环境变量中加入其 bin
文件,如下所示:
此时我们打开控制台(快捷键 win + R
后输入 cmd
最后回车),在其中输入 gcc -v
得到以下信息:
即证明安装完成,但还有一步需要操作。
打开 MinGW-w64
的安装目录,进入其 bin
文件,找到 mingw32-make.exe
文件将其复制一份重命名为 make.exe
,如下所示:
这样做是为了我们后续使用命令时,能够方便的使用
make
命令,而不是mingw32-make
此时再次使用控制台,输入 make -v
或者 mingw32-make -v
都能输出以下内容:
至此,结束安装编译工具的工作。接下来需要编译 uchardet
源码。
4.2 uchardet源码编译
同样打开控制台,这里我们需要提前将源码文件复制一份,这样方便我们出错后有回转的余地,而不是每次都要重新下载源码。我这里将复制的源码文件夹命名为 uchardet-copy
,然后输入命令行,去到复制源码的文件夹,命令如下:
cd <复制后源码文件夹的路径>
运行结果如图所示:
此后依次输入以下命令:
mkdir build
cd build
cmake .. -G "MinGW Makefiles"
make
不出意外的话将会在 uchardet-copy/build/
目录中生成类似的文件结构:
4.3 测试编译文件
后续一切操作都是基于我复制源码的文件夹,即 uchardet-copy
文件夹下的!!!
-
首先,需要我们进入
uchardet-copy/build/src
目录下找到libuchardet.dll
文件,将其复制到uchardet-copy/build/test
中: -
打开控制台,进入
uchardet-copy/build/test
目录中,同样使用cd
命令:cd <写入自己文件路径>
-
然后在
uchardet-copy/build/test
目录中新建一个文件,我这里新建的a.txt
文件,默认采用的是UTF-8
编码格式,此时命令窗口中输入你想检测的文件,我使用以下命令行:uchardet-tests.exe a.txt
得到以下内容:
可以看到其编码格式为
UTF-8
,检测结果正确!
由此可以看到我们编译结果成功!!!其他编码格式相关的测试大家可以自行验证,这里不再赘述!!!
4.4 Qt中使用
通过上一步编译后我们已经得到了相关的 .a
和 .dll
文件,其路径位于我上述所讲的 uchardet-copy/build/src
文件夹,将 .a
以及 .dll
复制到我们新建的 Qt
项目文件中。
这里需要注意的是,由于我电脑是64位的,我下载的 MinGW 也是64位版本,因此编译出的 dll 文件也是用于64位操作系统的。所以,建立 Qt 项目时,注意所需 Qt 编译环境,应当是 MinGw 64-bit!!!
除此之外,还需要添加 .h
文件,其路径位于 uchardet-copy/src
文件夹内,同样需要将其复制到我们自己的 Qt
项目文件夹中,我这里新建了文件夹 uchardet
并将相关文件复制在该文件中,如下所示:
然后我们需要在工程文件中导入该动态库(具体操作不予细说,这里只介绍重要部分)。
-
导入动态库:
具体在
.pro
文件中添加的东西为:win32: LIBS += -L$$PWD/uchardet/ -luchardet INCLUDEPATH += $$PWD/uchardet DEPENDPATH += $$PWD/uchardet
-
与本文第三小节类似,在
UI
文件中添加一个按钮: -
具体代码也与第三小节类似,这里简单赘述:
在
widget.h
中有以下代码:#ifndef WIDGET_H #define WIDGET_H #include <QWidget> #include <QDebug> #include <QFileDialog> #include <uchardet/uchardet.h> namespace Ui { class Widget; } class Widget : public QWidget { Q_OBJECT public: explicit Widget(QWidget *parent = nullptr); ~Widget(); private slots: void on_pushButton_released(); private: Ui::Widget *ui; }; #endif // WIDGET_H
在
widget.c
文件中实现其槽函数:/*! * @File : widget.cpp * @Brief : 打开文件槽函数 * @Details : 详细说明 * @Param : 参数 * @Return : 返回值 * @Author : Liu Jiahao * @Date : 2024-06-28 14:43:15 * @Version : v1.1 * @Copyright : Copyright By Liu Jiahao, All Rights Reserved * */ void Widget::on_pushButton_released() { QString filePath = QFileDialog::getOpenFileName(nullptr, "选择文件", "../", "所有文件 (*.*)"); if (filePath.isEmpty()) { return; } QFile file(filePath); // 文件打开成功 if (file.open(QIODevice::ReadOnly | QIODevice::Text)) { QByteArray buff = file.readAll(); uchardet_t ud = uchardet_new(); uchardet_handle_data(ud, buff.constData(), buff.size()); uchardet_data_end(ud); const char* encoding = uchardet_get_charset(ud); QString result = QString::fromLatin1(encoding); uchardet_delete(ud); qDebug() << "该文件的编码格式为:" << result; } file.close(); }
-
其运行结果也与第三小节类似,只是采用了不同的调库方式,这里就不再进行赘述。
值得注意的是,该库并不能确保百分百检测出的文件类型正确,同时,文件中如果没有文本信息,也是无法检测出来的。
五、一些小问题
在对该库的使用过程,也发现一些或多或少的小问题,在这一小节将进行阐述。
5.1 测试文件存在的问题
细心的朋友可能会注意到,在 uchardet/test
中有很多文件夹,如下所示:
其中均为不同语言的不同编码格式文件,例如 en
为英语,其中包含文件 ascii.txt
,也就意味着该文件编码格式为 ascii
,但是我们将此文件复制到 uchardet-copy/build/test
中进行测试的时候,发现其并不能输出任何东西,如下所示:
通过对 uchardet-copy/test
中 uchardet-tests.c
文件的阅读,其中包含以下代码:
/* In a unit test, 0 means success, other returned values mean failure. */
success = (strcmp(charset, expected_charset) != 0);
if (success) {
fprintf(stderr, "success: %d, Got %s, expected %s\n", success, charset, expected_charset);
}
通过对这代码的分析可以知道,charset
为检测出的文件编码格式类型,而 expected_charset
为期望的文件编码格式类型。再往上看,有以下代码:
expected_charset = strrchr(filename, '/');
if (expected_charset == NULL)
{
expected_charset = filename;
}
else
{
expected_charset++;
}
expected_charset = strtok(expected_charset, ".");
我们通过阅读这段代码,可以知道,其进行的操作是把你输入的文件名去后缀并保存起来,使其成为 expected_charset
变量。
那么上述问题迎刃而解,例如,我们输入的文件名是 ascii.txt
,经过其检测后得出其编码格式为 ascii
,那么对于 success = (strcmp(charset, expected_charset) != 0);
这一句代码而言,得到的结果 success
必定为 0
,故没有输出。
可以看的出来,作者这样做的目的是,当文件编码格式和文件名相同时,判定为真,则不进行输出。当文件编码格式和文件名不相同时,判定为假,输出错误信息。
其实这对我们开发而言,并没有多大关系,也不影响我们使用这个库进行编码识别的操作,只是我在开发过程中遇到这个问题的一些感想。希望能对本文读者有所帮助!!!
5.2 uchardet库相关
由于编码格式众多且繁杂,且该库长时间没有进行更新,难免会有一些小问题,导致识别文件编码格式不准确。但这都是在我们可以承受的范围之内。
另外肯定有人好奇,我怎么知道这个库为什么这么用。实际上,我在网上找了大量资料,对于该库的描述实在是太少,偶然间看到一位大佬写的文章:C++ 自动检测编码_uchardet c++±CSDN博客
顿时恍然大悟,于是我也去查看了 Notepad++
的源码文件:
并且,notepad++
为了解决该库无法识别出 UTF-8 BOM、UTF-16BE BOM、UTF-16LE BOM
的问题,专门对这几个类型进行了单独的判断:
那么综合来讲,该库的性能以及使用体验还是不错的,大家感兴趣可以自行尝试。
六、写在最后
本文介绍了 如何在Qt中使用uchardet库,同时该库也可适用于C++。以及使用过程中存在的一些小问题。
本文中的代码后续会逐步开源,欢迎关注,敬请期待!!!
欢迎广大读者提出问题以及修改意见,本人看到后会给予回应,欢迎留言,后续会逐步进行开源!!!
另外,由于文章是作者手打的文字,有些地方可能文字会出错,望谅解,也可私信联系我,我对其进行更改。
-
个人CSDN账号:刘梓谦_-CSDN博客
-
Gitee:刘佳豪 (liu-jiahaohappy) - Gitee.com
-
GitHub:Jiahao-Liu29 (github.com)