KNN 和 SVM 图片分类任务代码及细节分享

news2026/2/14 21:28:04

使用KNN (K-最近邻) 方法进行图像分类也是一个常见的选择。以下是

使用`sklearn`的`KNeighborsClassifier`进行图像分类的Python脚本：

import os
import cv2
import numpy as np
import logging
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, confusion_matrix

# 设置日志
logging.basicConfig(filename='training_log.txt', level=logging.INFO, format='%(asctime)s - %(message)s')

# 读取图像数据和标签
def load_images_from_folder(folder):
    images = []
    labels = []
    label = 0
    for subdir in os.listdir(folder):
        subpath = os.path.join(folder, subdir)
        if os.path.isdir(subpath):
            for filename in os.listdir(subpath):
                if filename.endswith(".jpg"):
                    img_path = os.path.join(subpath, filename)
                    img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)
                    img_normalized = cv2.resize(img, (256, 256))  # 归一化图像大小为256x256
                    images.append(img_normalized.flatten())
                    labels.append(label)
            label += 1
    return images, labels

# 主函数
def main():
    # train_folder = "YOUR_TRAIN_DATASET_FOLDER_PATH"  # 替换为你的训练集文件夹路径
    # test_folder = "YOUR_TEST_DATASET_FOLDER_PATH"    # 替换为你的测试集文件夹路径

    

    logging.info("Loading training data from %s", train_folder)
    X_train, y_train = load_images_from_folder(train_folder)
    logging.info("Loaded %d training samples", len(X_train))

    logging.info("Loading test data from %s", test_folder)
    X_test, y_test = load_images_from_folder(test_folder)
    logging.info("Loaded %d test samples", len(X_test))

    logging.info("Training KNeighborsClassifier...")
    knn = KNeighborsClassifier(n_neighbors=3)  # 使用3个邻居
    knn.fit(X_train, y_train)
    logging.info("Training completed.")

    y_pred = knn.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    logging.info("Test Accuracy: %f", accuracy)

    cm = confusion_matrix(y_test, y_pred)
    cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
    logging.info("Normalized Confusion Matrix:")
    for row in cm_normalized:
        logging.info(" - ".join(map(lambda x: "{:.2f}".format(x), row)))

if __name__ == "__main__":
    main()

KNeighborsClassifier来进行训练和预测。默认情况下，我设置了n_neighbors=3，这意味着使用3个最近的邻居进行投票。你可以根据需要调整这个参数。

选择合适的n_neighbors值是很重要的。一个较小的值（如1或3）可能会使模型对噪声更敏感，而一个较大的值可能会使模型更加平滑。通常，选择一个奇数的值可以避免在投票中出现平局的情况。

为了确定最佳的n_neighbors值，你可以使用交叉验证来评估不同值的性能，然后选择性能最好的那个值。

对于多类分类问题，选择合适的`n_neighbors`值是很重要的。以下是一些建议：

避免平局：为了避免在投票中出现平局的情况，通常建议选择一个奇数的n_neighbors值。但是，由于你有21个类，这个规则不再适用，因为即使是偶数的邻居数也不太可能导致平局。
默认值：KNeighborsClassifier的默认n_neighbors值是5。这是一个常用的起始值，但可能不是最优的。
根据类别数量：一个常见的策略是选择一个接近总类别数量的n_neighbors值。在你的情况下，你有21个类，所以你可以考虑从这个数字开始，然后向上或向下调整。
交叉验证：最佳的方法是使用交叉验证来确定最佳的n_neighbors值。这意味着你会尝试多个不同的n_neighbors值，然后选择在验证集上性能最好的那个。

使用支持向量机（SVM）进行图像分类是一个强大的方法。`sklearn`提供了`SVC`（支持向量分类）类来实现SVM。

以下是使用sklearn的SVC进行图像分类的Python脚本：

import os
import cv2
import numpy as np
import logging
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, confusion_matrix

# 设置日志
logging.basicConfig(filename='training_log_svm.txt', level=logging.INFO, format='%(asctime)s - %(message)s')

# 读取图像数据和标签
def load_images_from_folder(folder):
    images = []
    labels = []
    label = 0
    for subdir in os.listdir(folder):
        subpath = os.path.join(folder, subdir)
        if os.path.isdir(subpath):
            for filename in os.listdir(subpath):
                if filename.endswith(".jpg"):
                    img_path = os.path.join(subpath, filename)
                    img = cv2.imread(img_path, cv2.IMREAD_GRAYSCALE)
                    img_normalized = cv2.resize(img, (256, 256))  # 归一化图像大小为256x256
                    images.append(img_normalized.flatten())
                    labels.append(label)
            label += 1
    return images, labels

# 主函数
def main():
    # train_folder = "YOUR_TRAIN_DATASET_FOLDER_PATH"  # 替换为你的训练集文件夹路径
    # test_folder = "YOUR_TEST_DATASET_FOLDER_PATH"    # 替换为你的测试集文件夹路径


    


    logging.info("Loading training data from %s", train_folder)
    X_train, y_train = load_images_from_folder(train_folder)
    logging.info("Loaded %d training samples", len(X_train))

    logging.info("Loading test data from %s", test_folder)
    X_test, y_test = load_images_from_folder(test_folder)
    logging.info("Loaded %d test samples", len(X_test))

    logging.info("Training SVM...")
    svm = SVC(kernel='linear', C=1)  # 使用线性核和C=1
    svm.fit(X_train, y_train)
    logging.info("Training completed.")

    y_pred = svm.predict(X_test)
    accuracy = accuracy_score(y_test, y_pred)
    logging.info("Test Accuracy: %f", accuracy)

    cm = confusion_matrix(y_test, y_pred)
    cm_normalized = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
    logging.info("Normalized Confusion Matrix:")
    for row in cm_normalized:
        logging.info(" - ".join(map(lambda x: "{:.2f}".format(x), row)))

if __name__ == "__main__":
    main()

使用了SVC类来进行训练和预测。我选择了线性核（kernel='linear'）和正则化参数C=1（C=1）。这些参数可能需要根据你的数据进行调整。

SVM有许多可调参数，如核函数、C值和其他参数。

科学地调整SVM的参数：

交叉验证：使用交叉验证是评估不同参数组合性能的关键。例如，你可以使用sklearn的GridSearchCV来自动进行参数搜索和交叉验证。
核函数选择：
- 线性核：当特征数量很大或数据线性可分时使用。
- RBF核：当数据有非线性边界时使用。它有一个参数gamma需要调整。
- 多项式核：当数据的边界是多项式形式时使用。它有degree和coef0两个参数需要调整。
- Sigmoid核：在某些特定的数据集上可能有效，但不常用。
C值：C是SVM的正则化参数。较小的C值会导致较大的间隔，但可能允许一些误分类。较大的C值会尝试最大化训练数据的正确分类，但可能导致过拟合。
gamma值：仅对RBF核和多项式核有效。它定义了单个训练样本的影响范围。较小的值意味着更大的影响范围，较大的值意味着更小的影响范围。
使用GridSearchCV：这是一个自动化的参数搜索方法，它会尝试所有给定的参数组合，并使用交叉验证来评估每种组合的性能。

from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# 定义参数网格
param_grid = {
    'C': [0.1, 1, 10, 100],
    'gamma': [1, 0.1, 0.01, 0.001],
    'kernel': ['linear', 'rbf', 'poly', 'sigmoid']
}

# 使用GridSearchCV进行参数搜索
grid_search = GridSearchCV(SVC(), param_grid, refit=True, verbose=3, cv=5)
grid_search.fit(X_train, y_train)

# 打印最佳参数
print("Best parameters found: ", grid_search.best_params_)