OpenCV 入门（五） —— 人脸识别模型训练与 Windows 下的人脸识别

OpenCV 入门系列：

OpenCV 入门（一）—— OpenCV 基础
OpenCV 入门（二）—— 车牌定位
OpenCV 入门（三）—— 车牌筛选
OpenCV 入门（四）—— 车牌号识别
OpenCV 入门（五）—— 人脸识别模型训练与 Windows 下的人脸识别
OpenCV 入门（六）—— Android 下的人脸识别
OpenCV 入门（七）—— 身份证识别

本文主要内容：

如何训练 OpenCV 的人脸识别模型
如何在 Windows 下利用 OpenCV 进行人脸识别

1、概述

人脸识别需要人脸模型（特征集合）的支持，人脸定位的速度与准确度取决于模型。

OpenCV 提供了已经训练好的模型，无论是 Windows 版本还是 Android 版本的 SDK，都在 etc 目录下提供了两种级联分类器模型：

2024-3-31.OpenCV两种级联分类器模型

“Haarcascades” 和 “Lbpcascades” 都是级联分类器模型，用于目标检测和识别，特别是在人脸检测领域中常被使用：

Haarcascades 基于 Haar-like 特征（哈尔特征）的级联分类器。Haar-like 特征是一种基于像素差值的特征描述方法，通过计算图像中不同区域的像素值之和的差异，来捕捉图像中的纹理和形状信息。Haarcascades 模型使用了这些特征来构建级联分类器，以在图像中快速检测人脸或其他目标
Lbpcascades 使用的是局部二值模式（Local Binary Patterns，LBP）特征的级联分类器。LBP 特征是一种描述图像纹理的方法，通过比较像素点与其邻域像素的灰度值，将其转化为二进制编码。Lbpcascades 模型利用这些二进制编码来构建级联分类器，用于目标检测和识别，例如人脸检测

两个文件夹内都提供了多种模型用以识别物体，比如 lbpcascades 文件夹下的 lbpcascade_frontalface.xml 可以用于识别人脸，lbpcascade_frontalcatface.xml 用于识别猫脸：

2024-3-28.OpenCV提供的人脸特征集合文件

Windows 版本的 SDK 提供了文档与演示代码，在 opencv\sources\doc\tutorials 目录下，比如 objdetect 就是介绍物体识别的。比如 cascade_classifier.markdown 介绍级联分类器，traincascade.markdown 介绍如何训练模型。当然这些文档都是英文的，如果想查看中文文档，可以去 OpenCV 的中国 Wiki 论坛提供的中文文档，比如级联分类器训练。此外演示代码在 opencv\sources\samples\ 目录下，Android 相关的演示在 android 目录中。

除了使用 OpenCV 提供的级联分类器模型，我们也可以使用 OpenCV 提供的工具自己训练模型，具体的操作方法会在下一节介绍。

编码时 Windows 和 Android SDK 使用的都是 4.1.0 版本。

2、人脸模型训练

OpenCV 识别事务实际上就是对事物进行分类。给 OpenCV 各种样本去学习，使得 OpenCV 学习区分不同类别的事物。以人脸为例，给 OpenCV 的正样本全都是各种人脸，负样本全是与人脸无关的事物，那么 OpenCV 就能识别出什么人脸，什么不是。因此供 OpenCV 学习的样本越多越好。

OpenCV 提供的模型可以识别所有人脸，假如现在有个需求，就是只识别某一个人脸，其他的不识别，该如何实现呢？

这就需要自己训练模型了。假如要求只识别你的人脸，那么在采集图像时，保证摄像头内只有你的脸，通过 OpenCV 识别到人脸，然后将人脸部分转为 24 * 24 的灰度图保存到指定的目录内。用目录内的这些小图片通过 OpenCV 提供的工具进行训练，就可以训练出只识别你的脸的模型。

说到 OpenCV 的训练工具，这里要特别说明一下。我们写 Demo 用的是 OpenCV 的 4.1.0 版本，但是在该版本中，训练工具被移除了。在 3.4.X 版本中，这个工具是存在的（如 3.4.6 或 3.4.16 等版本都行）：

2024-4-24.OpenCV训练工具

因此我们需要再下载一个包含训练工具的 OpenCV 版本，然后在 opencv\build\x64\vc15\bin 目录下找到 opencv_createsamples.exe 和 opencv_traincascade.exe 工具，可以将目录添加到环境变量中。

稍微提一下为什么 OpenCV 4.X 版本中移除了训练工具。早期的 OpenCV 提供了 C 和 C++ 两种风格的 API。比如 C 风格的 CvMat、CvVideoCapture，而 C++ 风格 API 对应的就是 Mat、VideoCapture。

从 4.X 版本开始，OpenCV 移除了 C 风格的 API，而训练工具是用 C 写的，因此在源码 /opencv410/sources/app 目录下的 CMakeLists.txt 文件中，你能看到生成两个训练工具的代码被注释掉了：

即便打开注释也无法编译出这两个训练工具，因为 C 的源码已经被移除了，所以才需要再下载一个带有训练工具的 3.4.X 版本，这也是 OpenCV 官方给出的解决方案。

2.1 训练步骤

训练模型需要正样本和负样本：

正样本就是与目标模型相关性强的。比如训练只识别你的人脸的模型，那么前面收集的人脸灰度图就是正样本
负样本就是与目标模型相关性弱的，甚至没有相关性的。比如训练人脸识别模型，那么负样本就可以是风景图等等

我们将正样本存入 pos 目录，将负样本存入 neg 目录，然后再创建正样本和负样本的描述文件 positive.txt 和 neg.txt：

2024-3-30.OpenCV训练库文件路径

样本描述文件格式为文件名、人脸数量、每个人脸的起始坐标与宽高范围：

2 个人脸分别为 (100,200) 处为左上角，宽高为 50x50 的范围和 (50,30) 处为左上角，宽高为 25x25 的范围
pos/1.jpg 2 100 200 50 50   50 30 25 25

按照上述格式，我们的正样本可以写为：

pos/0.jpg 1 0 0 24 24
pos/1.jpg 1 0 0 24 24
pos/2.jpg 1 0 0 24 24
pos/3.jpg 1 0 0 24 24
pos/4.jpg 1 0 0 24 24
pos/5.jpg 1 0 0 24 24
pos/6.jpg 1 0 0 24 24
中间省略...
pos/61.jpg 1 0 0 24 24

负样本也是类似的操作。当然需要注意正负样本的比例最好是 1:3，比如正样本有 100 个，负样本最好就是 300 个。

接下来就使用 OpenCV 提供的工具训练模型：

首先运行 opencv_createsamples 命令创建正样本的向量文件：

# -info: 正样本描述文件
# -vec : 输出的正样本向量
# -num : 正样本数量
# -w -h: 输出样本的大小
C:\Users\Desktop\train>opencv_createsamples -info positive.txt -vec pos.vec -num 61 -w 24 -h 24

如果运行成功则会如上图所示在当前目录下生成 pos.vec 文件，log 会输出：

Create training samples from images collection...
Done. Created 61 samples

如果因为文件路径不匹配，则运行会报错：

Create training samples from images collection...
Unable to open image: pos/pos/1.jpg
OpenCV: terminate handler is called! The last OpenCV error is:
OpenCV(3.4.16) Error: Assertion failed (0 <= roi.x && 0 <= roi.width && roi.x + roi.width <= m.cols && 0 <= roi.y && 0 <= roi.height && roi.y + roi.height <= m.rows) in cv::Mat::Mat, file C:\build\3_4_winpack-build-win64-vc15\opencv\modules\core\src\matrix.cpp, line 751

然后运行 opencv_traincascade 进行训练：

# -data ： 需要手动创建，训练的模型作为结果会输出到这个目录
# -vec  ： 正样本	
# -bg	  ： 负样本
# -numPos ：每级分类器训练时所用到的正样本数目
# -numNeg ：每级分类器训练时所用到的负样本数目，可以大于 -bg 数目
# -numStages：训练分类器的级数，如果层数多，分类器的误差就更小，但是检测速度慢。(15-20)
# -featureType: 采用 LBP 算法
# -w -h：负样本的宽高可以设置的随意些，只要起始点 + 宽高不超过图片像素范围即可
C:\Users\Desktop\train>opencv_traincascade -data data -vec pos.vec -bg neg.txt -numPos 61 -numNeg 300 -numStages 15 -featureType LBP -w 24 -h 24

如果你没有手动创建 data 目录，运行上述命令会报错说无法打开 data/params.xml 文件：

===== TRAINING 0-stage =====
<BEGIN
POS count : consumed   61 : 61
NEG count : acceptanceRatio    300 : 1
Precalculation time: 0.026
+----+---------+---------+
|  N |    HR   |    FA   |
+----+---------+---------+
|   1|        1|        0|
+----+---------+---------+
END>
Parameters can not be written, because file data/params.xml can not be opened.

创建 data 后再次运行可能会有如下结果之一：

# 1.训练成功
Training until now has taken 0 days 0 hours 0 minutes 10 seconds.

# 2.可以认为该训练阶段是成功的，达到了所需的叶子误报率，并且分支训练已经终止（样本太少，模型质量不行）
Required leaf false alarm rate achieved. Branch training terminated.

# 3.错误
Bad argument < Can not get new positive sample. The most possible reason is insufficient count of samples in given vec-file.

训练成功后会在 data 目录下得到如下文件：

2024-3-30.OpenCV训练库结果

cascade.xml 就是我们训练出的库文件，将其拷贝到手机中，修改代码，用 cascade.xml 替代 OpenCV 提供的 lbpcascade_frontalface.xml：

		// 初始化 OpenCV
        val path = File(
            Environment.getExternalStorageDirectory(),
            /*"lbpcascade_frontalface.xml"*/
            "cascade.xml"
        ).absolutePath
        mOpenCVJNI.init(path)

使用 cascade.xml 模型去做人脸识别时，就只会识别训练样本中的人脸，而不会像 OpenCV 提供的 lbpcascade_frontalface.xml 识别所有人脸，这种识别特定人脸的需求与我们上班打卡的机器原理是类似的。

这里简单说下训练样本数量的选取标准。

minHitRate 是分类器的每一级希望得到的最小检测率。当设置为 0.995 时如果正训练样本个数为 100 个，那么其中的 0.5 个就很可能不被检测，第二次选择的时候必须多选择后面的 5 个，按照这种规律我们为后面的每级多增加 numPos*minHitRate 个正样本。

实际准备的正样本数量应该（读入 vec 的正样本数） >= numPos + (numStage - 1) * numPos * (1 - minHitRate)

按照此公式计算： x+14*x*0.005 = 1.07*x,也就是正样本数量要大于等于 1.07*x 而我们正样本是 100，所以 x = 93.45，但是此处传 100 也可以。

因为实际的检测率会比 minHitRate 高，所以在设置 numPos 时可以将其设置的稍微再大些，最终的目的是要尽量让所有的正样本都参与到训练中。但是，过大就会出错。

2.2 算法简介

LBP（Local Binary Patterns，局部二值模式）是一种用于纹理分析和模式识别的图像特征描述算法。它于 1994 年由 Ojala 等人提出，并被广泛应用于人脸识别、纹理分类、物体检测和图像检索等领域。

LBP 算法的基本思想是对图像中的每个像素点，根据其周围像素的灰度值进行编码，形成一个局部的二值模式。该编码方法具有旋转不变性和灰度不变性的特点，使得 LBP 特征适用于处理灰度图像。

LBP 算法的步骤如下：

对于图像中的每个像素点，选择一个固定大小的邻域窗口（通常为 3 × 3 或 5 × 5 的正方形）。
将邻域窗口中心像素的灰度值与邻域窗口中的其他像素逐一比较，若中心像素的灰度值大于或等于相邻像素的灰度值，则该像素点的位置被标记为 1，否则标记为 0。
将邻域窗口中的 8 个二值编码按顺时针或逆时针顺序排列，形成一个 8 位二进制数，即得到该像素点的 LBP 编码。
遍历图像中的所有像素点，重复步骤 2 和步骤 3，得到整幅图像的 LBP 编码图像。
统计 LBP 编码图像中不同 LBP 模式的出现频率，作为图像的 LBP 特征向量。

LBP 算法的主要优点是计算简单、特征表达能力强、对光照变化具有一定的不变性。然而，它也有一些不足之处，例如对噪声和旋转变化敏感。

我们要清楚，人工智能都是基于大数据的。用上万张图片训练出模型用于物体识别。

3、Windows 人脸识别

这一节现在 Windows 上实现人脸识别，因为 Windows 上查看中间结果（灰度图、直方图等等）比较方便。我们在 Visual Studio 中新建项目，驱动电脑的摄像头进行人脸识别。

3.1 代码实现

实现过程大致可分为三步：

加载 OpenCV 提供的级联分类器以具备人脸识别能力
打开摄像头
对摄像头采集到的数据进行灰度化、均衡化处理后进行人脸识别，在识别出人脸的位置画一个矩形

代码如下：

void detect() {
	// 1.加载级联分类器
	if (!face_CascadeClassifier.load("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml")) {
		cout << "级联分类器加载失败！" << endl;
	}

	// 2.开启摄像头进行录制
	VideoCapture capture;
	capture.open(0);
	if (!capture.isOpened())
	{
		cout << "OpenCV 打开摄像头失败！\n" << endl;
		return;
	}

	// 3.处理采集到的图像
	Mat frame; // 摄像头彩色图像
	Mat gray; // 摄像头灰度图像
	while (true)
	{
		// 采集到的图像存入 frame
		capture >> frame;
		if (frame.empty()) {
			cout << "OpenCV 读取摄像头图像失败!" << endl;
			return;
		}

		// 灰度化处理，注意 OpenCV 颜色排序为 BGR
		cvtColor(frame, gray, COLOR_BGR2GRAY);

		// 直方图均衡化，增强对比度
		equalizeHist(gray, gray);

		// 一张图片可能包含多张人脸，因此保存结果的是一个集合
		vector<Rect> faces;

        // 对灰度图进行人脸识别，识别结果保存在 faces 集合中
		face_CascadeClassifier.detectMultiScale(gray, faces);

		for each (Rect face in faces)
		{
			// 在 frame 这张图片的 face 上画一个 BGR 颜色为 (0, 0, 255) 即红色的矩形
			rectangle(frame, face, Scalar(0, 0, 255));
			// 这种方式来检测相机实时人脸图像非常卡顿！只适合静态图像的检测
		}
		// 显示图像
		imshow("摄像头", frame);
		// wait 30ms，如果按 Esc 键就退出
		if (waitKey(30) == 27)
		{
			break;
		}
	}
}

人脸识别不需要图片的颜色，正相反，图片的颜色对于识别是一个干扰项，因此在识别之前通常要进行降噪处理，将图片处理成灰度图。

运行起来会发现虽然确实可以识别出人脸，在人脸位置画一个红色矩形，但是图像非常卡顿。这是因为不论是 OpenCV 还是 TensorFlow，检测人脸都是很耗时的，检测一次大概需要 1 ~ 2 秒的时间。因此我们不能向上面这样，对每一帧视频图片都进行检测，而是先检测到人脸，后续采用人脸跟踪。

下面对上述代码进行改造。

3.2 代码优化

上面提到，优化视频画面卡顿的方法是检测第一帧，检测到后，对后续的帧进行人脸跟踪。那么在 OpenCV 中，人脸检测的任务交给主检测适配器，人脸跟踪的任务交给跟踪检测适配器。这两种适配器必须是 DetectionBasedTracker::IDetector 的子类。我们直接使用 OpenCV 提供的代码示例 opencv\sources\samples\android\face-detection\jni\DetectionBasedTracker_jni.cpp 中定义的 CascadeDetectorAdapter 写入 OpenCV.h：

# pragma once

#include <iostream>
#include <opencv2/opencv.hpp>

using namespace std;
using namespace cv;

CascadeClassifier face_CascadeClassifier;
cv::Ptr<DetectionBasedTracker> tracker;

class CascadeDetectorAdapter : public DetectionBasedTracker::IDetector
{
public:
	CascadeDetectorAdapter(cv::Ptr<cv::CascadeClassifier> detector) :
		IDetector(),
		Detector(detector)
	{
		CV_Assert(detector);
	}

    // 每张 Image 图片中都可能会有多张人脸 objects，因此可能会多次调用 detect 进行识别
	void detect(const cv::Mat& Image, std::vector<cv::Rect>& objects)
	{
		Detector->detectMultiScale(Image, objects, scaleFactor, minNeighbours, 0, minObjSize, maxObjSize);
	}

	virtual ~CascadeDetectorAdapter()
	{
	}

private:
	CascadeDetectorAdapter();
	cv::Ptr<cv::CascadeClassifier> Detector;
};

接下来我们通过宏定义的方式在原始代码上进行优化，加入使用跟随策略进行人脸检测的代码：

// 定义此宏则收集人脸图片数据保存到指定位置
#define COLLECT_SAMPLES
// 收集的人脸图片编号
int i = 0;

// 一次识别，后续跟踪来解决只通过检测的方式的卡顿问题
void track() {
// 如果定义了 DETECT 宏，则每一帧都进行检测，否则只检测一帧，后续跟随，这里我们没有定义这个宏
#ifdef DETECT
	// 1.加载级联分类器，注意路径一定是斜杠而不是反斜杠，否则会加载失败
	if (!face_CascadeClassifier.load("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml")) {
		cout << "级联分类器加载失败！" << endl;
		return;
	}
#else
	// 2.创建跟踪器并运行
	// 2.1 创建主检测适配器
	cv::Ptr<CascadeDetectorAdapter> mainDetector = makePtr<CascadeDetectorAdapter>(
		makePtr<CascadeClassifier>("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml"));
	// 2.2 创建跟踪检测适配器
	cv::Ptr<CascadeDetectorAdapter> trackingDetector = makePtr<CascadeDetectorAdapter>(
		makePtr<CascadeClassifier>("G:/Tools/OpenCV/build/etc/haarcascades/haarcascade_frontalface_alt.xml"));
	// 2.3 创建跟踪器
	DetectionBasedTracker::Parameters DetectorParams;
	tracker = makePtr<DetectionBasedTracker>(mainDetector, trackingDetector, DetectorParams);
	// 2.4 开始检测
	tracker->run();
#endif

	// 3.开启摄像头进行录制
	VideoCapture capture;
	capture.open(0);
	if (!capture.isOpened())
	{
		cout << "OpenCV 打开摄像头失败！\n" << endl;
		return ;
	}

	// 4.处理采集到的图像
	Mat frame; // 摄像头彩色图像
	Mat gray; // 摄像头灰度图像
	while (true)
	{
		// 采集到的图像存入 frame
		capture >> frame;
		if (frame.empty()) {
			cout << "OpenCV 读取摄像头图像失败！\n" << endl;
			return ;
		}

		// 灰度化处理，注意 OpenCV 颜色排序为 BGR
		cvtColor(frame, gray, COLOR_BGR2GRAY);

		// 直方图均衡化，增强对比度
		equalizeHist(gray, gray);

		// 一张图片可能包含多张人脸，因此要保存在 faces 集合中
		vector<Rect> faces;
// 如果每帧都识别，则通过 detectMultiScale，否则用 tracker 进行识别
#ifdef DETECT
		face_CascadeClassifier.detectMultiScale(gray, faces);
#else
		tracker->process(gray);
		tracker->getObjects(faces);
#endif // DETECT
		for each (Rect face in faces)
		{
			// 在 frame 这张图片的 face 上画一个 BGR 颜色为 (0, 0, 255) 即红色的矩形
			rectangle(frame, face, Scalar(0, 0, 255));
			// 这种方式来检测相机实时人脸图像非常卡顿！只适合静态图像的检测

#ifdef COLLECT_SAMPLES
			// 采集人脸样本，转换为 24 * 24 的灰度图保存到指定路径的文件中
			Mat sample;
			frame(face).copyTo(sample);
			resize(sample, sample, Size(24, 24));
			cvtColor(sample, sample, COLOR_BGR2GRAY);
			char p[100];
			// 目录需要手动创建，否则不会自动生成
			sprintf(p, "D:/opencv/train/face/pos/%d.jpg", i++);
			//imread 读取文件图像
			imwrite(p, sample);//将Mat写入文件	
#endif // COLLECT_SAMPLES
		}

		// 显示图像
		imshow("摄像头", frame);
		// Esc 键退出
		if (waitKey(30) == 27)
		{
			break;
		}
	}
#ifndef DETECT
	tracker->stop();
#endif // !DETECT
}

简要说明：

在第 2 步创建跟踪器时，使用了 OpenCV 的智能指针 Ptr 模板类，它采用引用计数型的句柄类实现计数。自动管理对象的释放，Ptr 中调用 release() 会将引用计数器减 1，如果计数器为 0 则会删除该对象。使用 Ptr 声明的对象可以不用手动释放
创建的 mainDetector 负责检测，trackingDetector 负责跟随，调用 tracker->run() 会开启一个线程，其内部有一个无限循环，当 tracker->process() 传入灰度图开始检测后，检测到的人脸数据可以通过 tracker->getObjects(faces) 获取，faces 是一个 vector<Rect> 类型的入参出参数据，保存着一张图片中的所有人脸
我们定义了 COLLECT_SAMPLES 宏用来收集人脸数据，将采集到的人脸图像转成灰度图再把尺寸设置为 24 * 24 保存在指定目录中，这些图片可以帮助我们使用 2.1 节中介绍的方法训练自己的模型

应用以上代码后就可以流畅的识别出人脸了。