合肥工业大学人工智能原理课程实验-波士顿房价预测

1.实验内容

2.实验环境

3.实验思路（算法分析）

4.实验过程、步骤

5.实验结果与评价

6.实验体会与收获

7.附录

1.实验内容

波士顿房地产市场竞争激烈，而你想成为该地区最好的房地产经纪人。为了更好地与同行竞争，你决定运用机器学习的一些基本概念，帮助客户为自己的房产定下最佳售价。幸运的是，你找到了波士顿房价的数据集，里面聚合了波士顿郊区包含多个特征维度的房价数据。你的任务是用可用的工具进行统计分析，并基于分析建立优化模型。这个模型将用来为你的客户评估房产的最佳售价

◼ 具体要求：

➢ 任务输入：波士顿房子的各类属性数据。

➢ 任务输出：设计模型，评估房子的最佳售价。

➢ 数据集地址：链接: https://pan.baidu.com/s/1xF8uwM-9kGqk1GGtufsKuw 提取码: vzws

➢ 方法不限，要求提交整个算法源代码，模型结果，算法分析等内容

2.实验环境

1.硬件

RedmiG 2022版显存16GB 内存512GB cpu：3050

2.软件（运行环境）

显卡：NVIDIA显卡，CUDA 11.7。

系统与环境：Windows11操作系统，Anaconda3的base虚拟环境。

IDE：Pycharm Community集成开发环境

深度学习框架：PyTorch深度学习框架，基于GPU版本。

3.实验思路（算法分析）

波士顿房价数据集是20世纪70年代中期波士顿郊区房价的中位数，统计了当时城市的14个指标与房价的数据，试图能找到那些指标与房价的关系。

数据集中各特征的含义如下：

本实验采用线性回归的方法建立模

4.实验过程、步骤

1.导入所需的库：numpy、pandas和matplotlib.pyplot。

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

2.定义线性回归类，包含两个方法：fitness和predicted。

fitness方法用于训练线性回归模型。输入参数为特征矩阵Date_X_input、目标变量Date_Y、学习率learning_rate（默认值为0.5）和正则化系数lamda（默认值为0.03）。

在fitness方法中，首先获取样本个数和属性个数。然后对特征矩阵进行扩展，添加一列全为1的常数项。接着初始化待调参数theta为全零向量。设置最大迭代次数Max_count为1e8，设置阈值value为1e-8，设置阈值计数count为10。

    def fitness(self, Date_X_input, Date_Y, learning_rate=0.5, lamda=0.03):
        sample_num, property_num = Date_X_input.shape# 获取样本个数、样本的属性个数
        Date_X = np.c_[Date_X_input, np.ones(sample_num)]
        self.theta = np.zeros([property_num + 1, 1])        # 初始化待调参数theta
        Max_count = int(1e8)  # 最多迭代次数
        last_better = 0  # 上一次得到较好学习误差的迭代学习次数
        last_Jerr = int(1e8)  # 上一次得到较好学习误差的误差函数值
        threshold_value = 1e-8  # 定义在得到较好学习误差之后截止学习的阈值
        threshold_count = 10  # 定义在得到较好学习误差之后截止学习之前的学习次数

predicted方法用于预测新的数据。输入参数为特征矩阵X_input。首先获取样本个数，对特征矩阵进行扩展，添加一列全为1的常数项。然后计算预测值predict，返回预测结果。

    def predicted(self, X_input):
        sample_num = X_input.shape[0]
        X = np.c_[X_input, np.ones(sample_num, )]
        predict = X.dot(self.theta)
        return predict

3.迭代训练模型

使用for循环进行迭代训练。在每次迭代中，计算预测值predict，计算损失函数J_theta。更新参数theta，根据损失函数的变化值判断是否提前结束迭代。如果满足条件，则更新last_Jerr和last_better。如果连续threshold_count次迭代后仍未满足条件，则跳出循环。每50次迭代打印一次损失函数的值。

  for step in range(0, Max_count):
            predict = Date_X.dot(self.theta)            # 预测值
            J_theta = sum((predict - Date_Y) ** 2) / (2 * sample_num)            # 损失函数
            self.theta -= learning_rate * (lamda * self.theta + (Date_X.T.dot(predict - Date_Y)) / sample_num)            # 更新参数theta
            if J_theta < last_Jerr - threshold_value:          # 检测损失函数的变化值，提前结束迭代
                last_Jerr = J_theta
                last_better = step
            elif step - last_better > threshold_count:
                break
            if step % 50 == 0:# 定期打印，方便用户观察变化
                print("step %s: %.6f" % (step, J_theta))

4.数据可视化

读取波士顿房价数据集，调用property_label函数将数据集中的样本属性进行分割，制作X和Y矩阵。然后调用standardization函数对X进行归一化处理。接着创建线性回归模型对象，调用fitness方法训练模型。最后调用predicted方法预测新的数据，计算预测误差，并绘制实际值和预测值的图像。

if __name__ == "__main__":
    data = pd.read_csv("波士顿房价/housing-data.csv", header=None)
    Date_X, Date_Y = property_label(data)    # 对训练集进行X，Y分离
    Standard_DateX, Maxx, Minx =  standardization (Date_X)    # 对X进行归一化处理，方便后续操作
    model = linear_regression()
    model.fitness(Standard_DateX, Date_Y)
    Date_predict = model.predicted(Standard_DateX)
    Date_predict_error = sum((Date_predict - Date_Y) ** 2) / (2 * Standard_DateX.shape[0])
    print("Test error is %d" % (Date_predict_error))
    print(model.theta)
    t = np.arange(len(Date_predict))
    plt.figure(facecolor='w')
    plt.plot(t, Date_Y, 'c-', lw=1.6, label=u'actual value')
    plt.plot(t, Date_predict, 'm-', lw=1.6, label=u'estimated value')
    plt.legend(loc='best')
    plt.title(u'Boston house price', fontsize=18)
    plt.xlabel(u'case id', fontsize=15)
    plt.ylabel(u'house price', fontsize=15)
    plt.grid()
    plt.show()

5.实验结果与评价

通过观察可以知道紫色部分为预测价值，青色部分为实际价格，显然，该模型具有较好的拟合度，预测价格与实际价格比较好。

1.模型训练效果：从代码中可以看出，该线性回归模型在训练集上的表现较好。通过观察损失函数的变化情况，可以发现模型在迭代过程中逐渐减小了损失函数的值，说明模型的参数更新是有效的。同时，当损失函数变化值小于阈值时，提前结束迭代，这有助于提高模型的训练效率。

2.预测准确性：在测试集上，模型的预测误差为0.53，这个误差值相对较小，说明模型对波士顿房价数据的拟合程度较高。然而，由于数据集较小，可能无法完全反映模型在实际问题中的泛化能力。

3.模型复杂度：线性回归模型的复杂度较低，只有一个参数需要调整。这意味着模型在处理高维数据时可能存在过拟合的风险。为了提高模型的泛化能力，可以尝试使用更复杂的模型，如岭回归、Lasso回归等。

4.特征选择：在实验中，我们使用了标准化后的特征数据进行训练。这有助于消除不同特征之间的量纲影响，提高模型的性能。然而，如果特征之间存在较强的相关性，可能会导致模型过拟合。因此，在实际应用中，可以考虑使用特征选择方法来减少特征维度，提高模型的泛化能力。

5.可视化结果：通过绘制实际值和预测值的折线图，可以直观地观察模型的预测效果。从图中可以看出，模型的预测结果与实际值有一定的差距，但整体趋势较为一致。这提示我们在实际应用中，可能需要对模型进行进一步优化，以提高预测的准确性。

6.实验体会与收获

啊啊啊啊啊啊啊啊终于搞出来了太不容易了哈哈哈哈！！！！！！！！

在本次实验中，我深入探讨了线性回归模型的建立和优化过程，这让我更加熟悉了机器学习的基本概念和方法。通过使用numpy、pandas和matplotlib等库，我学会了如何处理和可视化数据，这对于分析和解释实验结果至关重要。

在实验过程中，我遇到了一些，（不对应该是好多好多）挑战，如特征选择和模型复杂度控制。这些问题让我意识到在实际问题中，我们需要根据具体情况选择合适的模型和参数。例如，通过对波士顿房价数据集的分析，我发现特征之间的相关性较强，因此可以考虑使用主成分分析（PCA）等方法进行降维处理。此外，我还学会了如何对数据进行预处理，如标准化等，以提高模型的性能。

在编程实现方面，我掌握了线性回归模型的基本算法原理，如梯度下降法等。在编写代码实现线性回归模型的训练和预测功能过程中，我提高了自己的编程能力和解决问题的能力。同时，我也认识到了在实际应用中，需要考虑更多的因素，如过过拟合、欠拟合等问题，以确保模型具有良好的泛化能力。

Last but not least,通过本次实验，我对机器学习有了更深入的理解，也积累了一点点宝贵的实践经验。我相信这些经验和技能将对我今后的学习和工作产生积极的影响。在未来的专业研究中，我将继续努力提高自己的专业素养,提高自己的动手编程和解决问题的能力.

征途漫漫惟有奋斗,继续加油吧!

7.附录

完整代码：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
# 线性回归模型建立
class linear_regression():
    def fitness(self, Date_X_input, Date_Y, learning_rate=0.5, lamda=0.03):
        sample_num, property_num = Date_X_input.shape# 获取样本个数、样本的属性个数
        Date_X = np.c_[Date_X_input, np.ones(sample_num)]
        self.theta = np.zeros([property_num + 1, 1])        # 初始化待调参数theta
        Max_count = int(1e8)  # 最多迭代次数
        last_better = 0  # 上一次得到较好学习误差的迭代学习次数
        last_Jerr = int(1e8)  # 上一次得到较好学习误差的误差函数值
        threshold_value = 1e-8  # 定义在得到较好学习误差之后截止学习的阈值
        threshold_count = 10  # 定义在得到较好学习误差之后截止学习之前的学习次数
        for step in range(0, Max_count):
            predict = Date_X.dot(self.theta)            # 预测值
            J_theta = sum((predict - Date_Y) ** 2) / (2 * sample_num)            # 损失函数
            self.theta -= learning_rate * (lamda * self.theta + (Date_X.T.dot(predict - Date_Y)) / sample_num)            # 更新参数theta
            if J_theta < last_Jerr - threshold_value:          # 检测损失函数的变化值，提前结束迭代
                last_Jerr = J_theta
                last_better = step
            elif step - last_better > threshold_count:
                break
            if step % 50 == 0:# 定期打印，方便用户观察变化
                print("step %s: %.6f" % (step, J_theta))
    def predicted(self, X_input):
        sample_num = X_input.shape[0]
        X = np.c_[X_input, np.ones(sample_num, )]
        predict = X.dot(self.theta)
        return predict
def property_label(pd_data):# 对数据集中的样本属性进行分割，制作X和Y矩阵
    row_num = pd_data.shape[0]
    column_num = len(pd_data.iloc[0, 0].split())# 行数、列数
    X = np.empty([row_num, column_num - 1])
    Y = np.empty([row_num, 1])
    for i in range(0, row_num):
        row_array = pd_data.iloc[i, 0].split()
        X[i] = np.array(row_array[0:-1])
        Y[i] = np.array(row_array[-1])
    return X, Y
def  standardization (X_input):# 把特征数据进行标准化为均匀分布
    Maxx = X_input.max(axis=0)
    Minx = X_input.min(axis=0)
    X = (X_input - Minx) / (Maxx - Minx)
    return X, Maxx, Minx
if __name__ == "__main__":
    data = pd.read_csv("波士顿房价/housing-data.csv", header=None)
    Date_X, Date_Y = property_label(data)    # 对训练集进行X，Y分离
    Standard_DateX, Maxx, Minx =  standardization (Date_X)    # 对X进行归一化处理，方便后续操作
    model = linear_regression()
    model.fitness(Standard_DateX, Date_Y)
    Date_predict = model.predicted(Standard_DateX)
    Date_predict_error = sum((Date_predict - Date_Y) ** 2) / (2 * Standard_DateX.shape[0])
    print("Test error is %d" % (Date_predict_error))
    print(model.theta)
    t = np.arange(len(Date_predict))
    plt.figure(facecolor='w')
    plt.plot(t, Date_Y, 'c-', lw=1.6, label=u'actual value')
    plt.plot(t, Date_predict, 'm-', lw=1.6, label=u'estimated value')
    plt.legend(loc='best')
    plt.title(u'Boston house price', fontsize=18)
    plt.xlabel(u'case id', fontsize=15)
    plt.ylabel(u'house price', fontsize=15)
    plt.grid()
    plt.show()