机器学习入门实例-加州房价预测-2(数据整理)

news2025/1/16 1:34:25

计算相关性

使用corr()计算standard correlation coefficient(Pearson’s r)。矩阵不是很方便观察,可以直接排序median_house_value列,可以看出median_house_value与median_income的相关性挺大的。

	corr_matrix = visual_data.corr()
    print(corr_matrix)
    # 这句是直接排序了,降序
    print(corr_matrix["median_house_value"].sort_values(ascending=False))

[9 rows x 9 columns]
median_house_value    1.000000
median_income         0.687151
total_rooms           0.135140
housing_median_age    0.114146
households            0.064590
total_bedrooms        0.047781
population           -0.026882
longitude            -0.047466
latitude             -0.142673
Name: median_house_value, dtype: float64

绘图也可以看到这种相关性:

	from pandas.plotting import scatter_matrix
	# 因为其它属性的相关性值比较小,同时因为空间有限,所以只选4个绘制图像
    attributes = ["median_house_value", "median_income", "total_rooms",
                  "housing_median_age"]
    scatter_matrix(visual_data[attributes], figsize=(12, 8))
    plt.show()

在这里插入图片描述
因为total_rooms相关性不太显著,考虑引入几个新特性:

	visual_data["rooms_per_household"] = visual_data["total_rooms"] / visual_data["households"]
    visual_data["bedrooms_per_room"] = visual_data["total_bedrooms"] / visual_data["total_rooms"]
    visual_data["population_per_household"] = visual_data["population"] / visual_data["households"]
    corr_matrix = visual_data.corr()
    print(corr_matrix["median_house_value"].sort_values(ascending=False))

median_house_value          1.000000
median_income               0.687151
rooms_per_household         0.146255
total_rooms                 0.135140
housing_median_age          0.114146
households                  0.064590
total_bedrooms              0.047781
population_per_household   -0.021991
population                 -0.026882
longitude                  -0.047466
latitude                   -0.142673
bedrooms_per_room          -0.259952
Name: median_house_value, dtype: float64

可以看到rooms_per_household比total_rooms和households的相关性都要高一点,bedrooms_per_room也是,但是population_per_household反而变差了,大概是不适合这种特征组合方式。

数据整理

取得数据和标签

housing = train_set.drop("median_house_value", axis=1)
housing_labels = train_set["median_house_value"].copy()

处理有空缺值的列
三种常见方法:

# 第一种,去掉有空缺值的行
housing.dropna(subset=["total_bedrooms"])

# 第二种,去掉有空缺值的列
housing.drop("total_bedrooms", axis=1)

# 第三种,使用某种方法获得一个值,填入空缺位置。这里使用中位数
median = housing["total_bedrooms"].median()
housing["total_bedrooms"].fillna(median, inplace=True)

使用scikit learn的方法:

	from sklearn.impute import SimpleImputer
    imputer = SimpleImputer(strategy="median")
    # median不能计算非数据列,ocean_p是字符串
    housing_num = housing.drop("ocean_proximity", axis=1)
    imputer.fit(housing_num)
    # 此时imputer会计算每一列的中位数。因为实时运行时可能不止total_bedrooms列有空缺,所以最好直接全部计算
    # imputer.statistics_中存放了各列的中位数,与housing_num.median().values是完全一致的
    # print(imputer.statistics_)
    # print(housing_num.median().values)
    X = imputer.transform(housing_num)
    housing_tr = pd.DataFrame(X, columns=housing_num.columns, index=housing_num.index)

Imputer的说明

  • Estimators
    基于某个数据集估算参数的对象称为estimator,使用时用fit()函数进行估算,它本身的参数称为hyperparameter。比如SimpleImputer就是estimator,strategy就是它的hyperparameter。
  • Transformers
    某些estimator可以修改数据集,所以也叫transformer,使用时用transform()进行修改。比如SimpleImputer就是。Transformer有一个函数fit_transform(),等于先fit()再transform(),有时候比俩函数写在一起更快。
  • Predictiors
    某些estimator可以进行预测,使用predict()进行预测,使用score()计算预测质量。
  • 规定
    所有estimator的超参数都是公共属性,比如imputer.strategy,所有估算完的参数也是公共属性,以下划线结尾,比如imputer.statistics_

处理字符串类型列
ocean_proximity这列只包含几个有限字符串值,为了进行处理,需要把字符串转换为数字,比如0,1,2…

	housing_cat = housing[["ocean_proximity"]]
    from sklearn.preprocessing import OrdinalEncoder
    ordinal_encoder = OrdinalEncoder()
    housing_cat_encoded = ordinal_encoder.fit_transform(housing_cat)
    print(ordinal_encoder.categories_)

[array(['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN'],
      dtype=object)]

one-hot encoding:其实就是二进制表示。比如INLAND就是01000,ISLAND是00100,这样把原本1列变成5列,新属性也被称为dummy attributes。scikit learn也提供了这种方法:

	from sklearn.preprocessing import OneHotEncoder
    cat_encoder = OneHotEncoder()
    housing_cat_1hot = cat_encoder.fit_transform(housing_cat)
    print(housing_cat_1hot)
    # (0, 1)	1.0
    # (1, 4)	1.0
    # ... 该类型是稀疏矩阵,因为里面大部分是0,所以只存储了1的位置。(row, col)
    # toarray()可以转为二维数组
    print(housing_cat_1hot.toarray())

但如果这列有非常多种标签,one-hot方式就会引入大量数据。此时应该改为数字型编号,或者干脆改成数字型的列,比如ocean_proximity就可以改成与海洋之间的距离。

自定义Estimator

rooms_ix, bedrooms_ix, population_ix, households_ix = 3, 4, 5, 6

class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedrooms_per_room=True):
        self.add_bedrooms_per_room = add_bedrooms_per_room

    def fit(self, X, y=None):
        return self
	    
	def transform(self, X):
        return self

    def fit_transform(self, X, y=None):
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix]
        population_per_household = X[:, population_ix] / X[:, households_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]
        else:
            return np.c_[X, rooms_per_household, population_per_household]
...
#使用:
attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)
housing_extra_attrs = attr_adder.fit_transform(housing.values)

注意

  1. fit和transform虽然没有实现,但也要写,不然后面组装成pipeline运行时会报错:
    TypeError: All intermediate steps should be transformers and implement fit and transform or be the string ‘passthrough’ ‘CombinedAttributesAdder()’
  2. fit_transform要写y参数,不然pipeline中也会报错:
    TypeError: fit_transform() takes 2 positional arguments but 3 were given

当然,如果不组装pipeline,只是单独调用的话,这两点可以忽略掉。

特征缩放
Feature Scaling:如果两列的数据范围差距很大(比如total_rooms在6~39320之间,但income_median只在0 ~ 15之间),机器学习算法的表现可能受影响。

  1. min-max scaling:也叫normalization,指将数据压缩到0-1之间,原理是减去最小值,再除以最大值与最小值的差。scikit learn提供了一个transformer叫MinMaxScaler,其超参数feature_range可以指定非0-1的范围。
  2. standardization:原理是减去均值,然后除以标准差。scikit learn提供一个transformer叫StandardScaler

组装pipeline
如果很多列需要相似的处理流程,那可以组装成一个pipeline,然后把数据整个扔进去。

    from sklearn.pipeline import Pipeline
    from sklearn.preprocessing import StandardScaler

    # 每个元组的格式为:(name, estimator object),最后一个必须是transformer,即要有fit_transform()
    # name要求唯一且不能包含双下划线__。要求有名称是为了后期可以调整超参数
    num_pipeline = Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('attribs_adder', CombinedAttributesAdder()),
        ('std_scaler', StandardScaler()),
    ])
    housing_num_tr = num_pipeline.fit_transform(housing_num)
    #print(housing_num_tr)

其中housing_num = housing.drop(“ocean_proximity”, axis=1),就是纯数据列。

更高级的pipeline则可以包含Pipeline对象和estimator。

    from sklearn.compose import ColumnTransformer
	
	# 这实际是列名list
    num_attribs = list(housing_num)
    cat_attribs = ["ocean_proximity"]
    drop_attribs = ["longitude"]
    # 每行指定name、pipeline或者estimator对象和列名
    # 也可以使用drop或passthrough处理某些列。drop表示直接删除,passthrough是不做处理
    # 对于没有经过full_pipeline处理的列,默认是会被删除的,但是可以给任意transformer
    # 设置超参数 remainder="passthrough"
    full_pipeline = ColumnTransformer([
   		# ("dr", "drop", drop_attribs),
        # ("pass", "passthrough", drop_attribs),
        ("num", num_pipeline, num_attribs),
        ("cat", OneHotEncoder(), cat_attribs),
    ])
    housing_prepared = full_pipeline.fit_transform(housing)
    print(housing_prepared)

总结数据整理:

def transform_data(housing):
    from sklearn.pipeline import Pipeline
    from sklearn.impute import SimpleImputer
    from sklearn.preprocessing import StandardScaler
    from sklearn.compose import ColumnTransformer
    from sklearn.preprocessing import OneHotEncoder
    # 自定义pipeline
    num_pipeline = Pipeline([
        ('imputer', SimpleImputer(strategy='median')),
        ('attribs_adder', CombinedAttributesAdder()),
        ('std_scaler', StandardScaler()),
    ])
    # 制作列名list
    housing_num = housing.drop("ocean_proximity", axis=1)
    num_attribs = list(housing_num)
    cat_attribs = ["ocean_proximity"]
    # 构造总pipeline
    full_pipeline = ColumnTransformer([
        ("num", num_pipeline, num_attribs),
        ("cat", OneHotEncoder(), cat_attribs),
    ])
    housing_prepared = full_pipeline.fit_transform(housing)
    return housing_prepared

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/423283.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pdf 批量翻译-批量翻译照片

实现英语批量翻译通常需要使用机器翻译技术和程序编程知识。 下面是一些主要步骤&#xff1a; 选择机器翻译API&#xff1a;选择一种适合你的需求的机器翻译API&#xff0c;比如Google Translate API、Microsoft Translate API或者百度翻译API等。 注册API服务&#xff1a; 注…

721 Chapter3 MVCC(设计trade-off)

MVCC核心概念 1.读写互相不阻塞对方 2.读事务可以读一致性快照 3.支持时间旅行&#xff0c;也就是读过去的快照 但是存在写倾斜的问题。Write Skew Anomaly. 所以就MVCC到达不了serizable MVCC实现 MVCC time order 就靠原子操作CAS来check是否有人在写入&#xff0c;同时…

【Docker】通过dockerfile构建Nginx镜像部署多Web应用

【Docker】Docker安装 docker打包镜像Dockerfile构建镜像编写Dockerfile脚本构建镜像前的准备执行Dockerfile脚本 构建镜像镜像导入配置nginx.conf文件Docker操作查询index.html的路径修改web1下ProjectConfig-72e0c4f7dd.json配置文件修改nginx配置文件nginx.confDockerfile构…

GIS空间数据格式简介

Gis数据存储零、前言一、基础概念二、矢量数据1、定义2、基础3、WBT/WKB4、坐标系5、Geometry6、要素 / 要素集7、存储格式8、图层三、栅格数据1、定义2、基础3、存储格式零、前言 1、首先该篇文档主要是针对刚入坑的朋友&#xff0c;如果你对gis的存储结构谙熟于心&#xff0…

【python】计算机视觉~舌象图片中舌体倾斜判别(四)

返回至系列文章导航博客 1 简介 在智能舌诊时&#xff0c;需要判断舌头的胖瘦&#xff0c;这需要舌头在图片中处于近似垂直的位置才方便判断&#xff0c;不能过于倾斜。那么如何让计算机智能地知道舌体是否倾斜呢&#xff1f;这是这篇文章讨论的重点&#xff01; 首先也是最重…

一种轻量的“虚拟机”——Windows 沙盒模式

Windows 沙盒模式Windows沙盒的好处操作步骤Windows沙盒的好处 相比虚拟机和第三方的沙盒软件&#xff0c;Windows Sandbox启用后仅占用100MB硬盘空间&#xff0c;还能与物理机安全地共享部分内存空间。简单来说就是易用、免费、不卡机&#xff01; 由于要保证沙盒内的数据不…

表面弛豫、重构以及覆盖效应

目录 1表面弛豫 2表面能的计算 3对称和非对称板块模型 4 表面重构 5表面上的吸附质 6表面覆盖效应 1表面弛豫 在上述例子中,为了建立五层原子的板块模型,将原子放置在了板块模型中。原子的位置是理想的,是 材料中的体相原子位置。在体相的 金属中,任何两个相邻原子的间…

burpsuite 插件编写基础

文章目录一、什么是扩展 / 插件&#xff1f;二、burp 的扩展三、开发步骤一、什么是扩展 / 插件&#xff1f; 关于这个话题&#xff0c;知乎有一个回答题不错&#xff0c;主要也是引用了wikipedia 插件/扩展&#xff0c;是向现有的计算机程序添加特定功能的软件组件。 主程序…

3.2.2队列的顺序存储实现

队列是一种操作受限的顺序表&#xff08;只能在队头删除&#xff0c;在队尾插入&#xff09;。 所以依旧使用静态数组的形式去存储队列。 &#xff08;1&#xff09;创建&#xff08;初始化&#xff09; 现定于&#xff08;顺序队列&#xff09;的结构体 初始化队列时&#x…

CentOS7---Nginx安装并配置虚拟主机

1、源码安装nginx&#xff0c;并提供服务脚本 源码包的获取&#xff1a;官网下载 实验环境&#xff1a;和企业环境类似&#xff0c;关闭防火墙&#xff0c;禁用selinux&#xff0c;使用静态IP地址 安装步骤&#xff1a; 步骤一&#xff1a;安装Nginx所需的pcre库 [rootnode01 ~…

openvpn (用户名密码模式)

目录 一、介绍 1、定义 2、原理 3、加密和身份验证 二、在centos 7.5上搭建openvpn 1、安装openvpn 和easy-rsa&#xff08;该包用来制作ca证书&#xff09; 2、配置/etc/openvpn/ 目录 3、创建服务端证书及key 4、创建客户端证书 5、把服务器端必要文件放到etc/openvpn/ 目录下…

LeetCode 785. Is Graph Bipartite【DFS,二分图】中等

本文属于「征服LeetCode」系列文章之一&#xff0c;这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁&#xff0c;本系列将至少持续到刷完所有无锁题之日为止&#xff1b;由于LeetCode还在不断地创建新题&#xff0c;本系列的终止日期可能是永远。在这一系列刷题文章…

[牛客101] 二叉树的层序遍历

这道题会考察很多知识点,这里专门进行详解 文章目录题目描述二. 题目分析完整代码题目描述 二. 题目分析 首先,我们会想到存储方式为二维数组.数组每一行存储一层的结点.怎么确定每一行要存储几个结点呢.由于节点与节点之间存在父子关系,所以,在存储某一层的结点时,就可以通过…

使用Process Explorer和Dependency Walker排查C++程序中dll库动态加载失败问题

目录 1、exe主程序启动时的库加载流程说明 2、加载dll库两种方式 2.1、dll库的隐式引用 2.2、dll库的动态加载 3、本案例中的问题描述 4、使用Process Explorer和Dependency Walker分析dll库加载失败的原因 4.1、Process Explorer工具介绍 4.2、使用Process Explorer工…

Mysql日志系统-mysql serve层

Mysql日志系统-服务层的日志 mysql给我们提供了很多有用的日志有mysql服务层提供的&#xff0c;有innodb引擎层提供的&#xff0c;下表是mysql服务层给我们提供的&#xff1a; 日志类型写入日志的信息二进制日志记录了对MySQL数据库执行更改的所有操作慢查询日志记录所有执行…

【JavaScript】2.JavaScript函数

JavaScript 函数 1. 函数的概念 函数&#xff1a;就是封装了一段可被重复调用执行的代码块 通过此代码块可以实现大量代码的重复使用 2. 函数的使用 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta na…

定点乘法器优化---华为杯

一. 简介 在本篇文章开始之前&#xff0c;先对上篇文章中的一个错误进行指正一下。在部分积生成的时候&#xff0c;需要计算-2A和2A的值&#xff0c;我的做法就是直接左移了一位&#xff0c;这样就会有一个问题&#xff0c;符号位被移掉了&#xff0c;为什么我的计算结果还是对…

Java Stream API 操作完全攻略:让你的代码更加出色 (三)

前言 Java Stream 是一种强大的数据处理工具&#xff0c;可以帮助开发人员快速高效地处理和转换数据流。使用 Stream 操作可以大大简化代码&#xff0c;使其更具可读性和可维护性&#xff0c;从而提高开发效率。本文将为您介绍 Java Stream 操作的所有方面&#xff0c;包括 gro…

c++中的类继承

面向对象编程的主要目的是之一是提供可重用的代码。开发新项目&#xff0c;尤其是当项目十分庞大时&#xff0c;重用经过测试的代码比重新编写代码要好得多。使用已有的代码可以节省时间&#xff0c;由于已有的代码已被使用和测试过&#xff0c;因此有助于避免在程序中引入错误…

在Github中77k星的王炸AutoGPT,会独立思考,直接释放双手

文章目录1 前言1.1 什么是AutoGPT1.2 为什么是AutoGPT2 AutoGPT部分实例2.1 类似一个Workflow2.2 市场调研2.3 自己写播客2.4 接入客服3 安装和使用AutoGPT3.1 安装3.2 基础用法3.3 配置OpenAI的API3.4 配置谷歌API3.5 配置Pinecone API4.讨论1 前言 迄今为止&#xff0c;Gith…