重复图片查找：巧用Python和OpenCV进行图像哈希与汉明距离检测以从海量图片中找出重复图片

news2026/2/14 18:50:25

重复图片查找：巧用Python和OpenCV进行图像哈希与汉明距离检测以从海量图片中找出重复图片

1. 导言
2. 环境准备
3. 图像哈希（pHash）原理
4. 汉明距离原理
5. 代码实现
- 导入必要的库
- 图像哈希计算函数
- 汉明距离计算函数
- 查找重复图片函数
- 示例使用

在处理大量图片数据时，重复图片的出现是一个常见的问题。重复图片不仅浪费存储空间，还可能影响数据分析的准确性。本文将介绍如何使用Python和OpenCV库，通过图像哈希（pHash）和汉明距离（Hamming Distance）来检测重复图片。

1. 导言

在大规模图像处理中，重复图片的检测和移除是一个常见的需求。为了高效地实现这一目标，我们可以使用图像哈希算法。图像哈希是一种将图像内容映射到固定长度的二进制字符串的技术，可以用来快速比较图像的相似性。

在本文中，我们将使用感知哈希（pHash）算法来计算图像的哈希值，并通过汉明距离来衡量不同图像哈希值之间的相似性。

2. 环境准备

首先，我们需要确保已经安装了必要的软件和库。本文使用的主要库包括：

OpenCV：用于图像处理
NumPy：用于数值计算
os：用于文件和目录操作
collections：用于字典操作

可以使用以下命令安装这些库：

pip install opencv-python numpy

3. 图像哈希（pHash）原理

感知哈希（pHash，Perceptual Hash）是一种基于图像内容特征的哈希算法。它通过以下几个步骤生成图像的哈希值：

将图像转换为灰度图。
缩放图像到指定大小（例如8x8或16x16）。
计算图像像素的平均值。
将每个像素与平均值比较，大于平均值的像素赋值为1，小于平均值的像素赋值为0。
将比较结果按顺序连接成一个二进制字符串，即为图像的哈希值。

4. 汉明距离原理

汉明距离（Hamming Distance）用于衡量两个二进制字符串之间的差异。具体来说，汉明距离是两个字符串对应位置上不同字符的个数。例如，字符串“1010”和“1001”的汉明距离为2。

在图像哈希检测中，汉明距离越小，表示图像越相似。

5. 代码实现

导入必要的库

import cv2
import numpy as np
import os
from collections import defaultdict

图像哈希计算函数

该函数用于计算图像的感知哈希值。

def calculate_phash(image_path, hash_size=16):
    # 读取图像并转换为灰度图
    image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)
    if image is None:
        raise ValueError(f"Image not found: {image_path}")
    
    # 缩放到指定大小
    image = cv2.resize(image, (hash_size, hash_size))
    
    # 计算平均值
    avg = np.mean(image)
    
    # 生成哈希值
    phash = ''.join(['1' if pixel > avg else '0' for row in image for pixel in row])
    
    return phash

汉明距离计算函数

该函数用于计算两个二进制字符串之间的汉明距离。

def hamming_distance(hash1, hash2):
    return sum(c1 != c2 for c1, c2 in zip(hash1, hash2))

查找重复图片函数

该函数遍历指定文件夹中的所有图片，计算每张图片的哈希值，并根据汉明距离查找重复图片。

def find_duplicate_images(image_folder, hash_size=8, distance_threshold=5):
    phashes = defaultdict(list)
    
    for image_name in os.listdir(image_folder):
        image_path = os.path.join(image_folder, image_name)
        phash = calculate_phash(image_path, hash_size)
        phashes[phash].append(image_name)
    
    duplicates = []
    for hash_values in phashes.values():
        if len(hash_values) > 1:
            duplicates.append(hash_values)
    
    return duplicates

示例使用

下面的代码展示了如何使用上述函数查找指定文件夹中的重复图片。

# 示例使用
image_folder = r'D:\JupyterNotebook\extract_fire_pic_v1'
duplicates = find_duplicate_images(image_folder)

if duplicates:
    for group in duplicates:
        print("Duplicate group:", group)
else:
    print("No duplicates found.")