【Python】成功处理`load_boston` has been removed from scikit-learn since version 1.2.

news2026/2/15 3:27:20

【Python】成功处理load_boston has been removed from scikit-learn since version 1.2.

下滑即可查看博客内容
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地！🎇

🎓 博主简介：985高校的普通本硕，曾有幸发表过人工智能领域的 中科院顶刊一作论文，熟练掌握PyTorch框架。

🔧 技术专长：在CV、NLP及多模态等领域有丰富的项目实战经验。已累计提供近千次定制化产品服务，助力用户少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于深度学习、PyTorch、Python相关的实用内容。已发表原创文章600余篇，代码分享次数逾七万次。

💡 服务项目：包括但不限于科研辅导、知识付费咨询以及为用户需求提供定制化解决方案。

🌵文章目录🌵

🤔 一、初遇困惑：`load_boston` 的消失
- - - 原因解析
🔍 二、寻找替代方案
- - - 1. 加利福尼亚房屋数据集 (`fetch_california_housing`)
    - 2. 其他数据集
🚀 三、代码改造与迁移
📚 四、数据集选择的艺术
🤔 五、伦理与数据质量：不可忽视的问题
💡 六、总结与展望

下滑即可查看博客内容

🤔 一、初遇困惑：`load_boston` 的消失

在Python的数据科学世界里，scikit-learn（简称sklearn）无疑是最受欢迎的机器学习库之一。然而，在帮助一位粉丝解决代码问题时，我遇到了一个令人头疼的bug。这位粉丝的代码中使用了sklearn.datasets模块中的load_boston函数来加载波士顿房价数据集，但运行时却抛出了ImportError，提示load_boston自scikit-learn 1.2版本起已被移除。

这个消息让我和粉丝都感到有些措手不及，毕竟波士顿房价数据集是许多机器学习初学者入门时接触的第一个数据集。那么，为什么scikit-learn要移除这样一个经典的数据集呢？

原因解析

原来，load_boston数据集因存在一些伦理和数据完整性的问题而被官方移除。这些问题包括数据集的公平性争议以及数据中的某些特征可能与目标变量（房价）无关或存在误导性。为了保持scikit-learn库的高质量和伦理标准，开发者们决定移除该数据集。

🔍 二、寻找替代方案

面对load_boston的移除，我们不得不寻找其他数据集作为替代。幸运的是，scikit-learn提供了多个其他数据集供我们使用，其中一些与波士顿房价数据集在结构和复杂性上相似。

1. 加利福尼亚房屋数据集 (`fetch_california_housing`)

加利福尼亚房屋数据集是一个很好的替代品，它包含了加利福尼亚州不同地区房屋的中位数价格，以及影响这些价格的多个因素。这个数据集不仅与波士顿房价数据集在用途上相似，而且数据量更大，特征更丰富。

from sklearn.datasets import fetch_california_housing

# 加载加利福尼亚房屋数据集
data = fetch_california_housing()
X = data.data
y = data.target

print(X.shape)  # 查看特征矩阵的形状
print(y.shape)  # 查看目标变量的形状

2. 其他数据集

除了加利福尼亚房屋数据集，scikit-learn还提供了许多其他数据集，如鸢尾花数据集（load_iris）、手写数字数据集（load_digits）等，这些数据集虽然与房价预测不直接相关，但可以作为学习机器学习算法和模型评估的宝贵资源。

🚀 三、代码改造与迁移

既然找到了替代数据集，接下来就是将原有的代码迁移到新的数据集上。这通常涉及修改数据加载部分，并可能需要对特征工程、模型选择和参数调优等环节进行相应调整。

以下是一个使用加利福尼亚房屋数据集进行房价预测的简单示例：

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 初始化线性回归模型
model = LinearRegression()

# 训练模型
model.fit(X_train, y_train)

# 预测测试集
y_pred = model.predict(X_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"Mean Squared Error: {mse}")