线性回归算法-实战-房价预测

news2024/11/24 5:39:20

线性回归算法-实战-房价预测

波士顿房价
本次使用线性回归的算法和knn算法进行对比

  • 加载并处理数据
  • 对数据进行归一化处理
  • 数据拆分
  • knn模型对象创建和训练
  • 线性回归建模和训练

加载并且处理数据

import numpy as np
import pandas as pd
from sklearn.neighbors import KNeighborsRegressor
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV

记载数据

# 加载数据
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]
display(data.shape, target.shape)

对数据进行归一化处理

# 数据的归一化处理   正态分布
from sklearn.preprocessing import StandardScaler

# 创建对象
scaler = StandardScaler()
X = scaler.fit_transform(data)
X

数据拆分

# 数据拆分
x_train, x_test, y_train, y_test = train_test_split(X, target, test_size=0.2, random_state=1024)

knn模型对象创建和训练

%%time
knn = KNeighborsRegressor()
params = {'n_neighbors': [3, 5, 7, 9, 11, 15, 19, 23, 31],
          'weights': ["uniform", 'distance'],
          'p': [1, 2]}
gCV = GridSearchCV(knn, params, cv=5, scoring="neg_root_mean_squared_error")
gCV.fit(x_train,y_train)

在这里插入图片描述
获取knn算法决定性参数和训练参数

gCV.best_params_
gCV.score(x_test,y_test)

在这里插入图片描述

线性回归建模和训练

# 正规方程
model = LinearRegression()

model.fit(x_train,y_train)
# 决定系数最大值为1 ,最小可以是负数
model.score(x_test,y_test)
0.7259630925033402

这组波士顿房价的数据,形状偏向于正态分布所以使用线性回归的算法比较合适

The coefficient of determination :math: R 2 R^2 R2 is defined as
:math: ( 1 − u v ) (1 - \frac{u}{v}) (1vu), where :math:u is the residual
sum of squares ( ( y t r u e − y p r e d ) ∗ ∗ 2 ) . s u m ( ) ((y_true - y_pred)** 2).sum() ((ytrueypred)2).sum() and :math:v
is the total sum of squares ( ( y t r u e − y t r u e . m e a n ( ) ) ∗ ∗ 2 ) . s u m ( ) ((y_true - y_true.mean()) ** 2).sum() ((ytrueytrue.mean())2).sum().
The best possible score is 1.0 and it can be negative (because the
model can be arbitrarily worse). A constant model that always predicts
the expected value of y, disregarding the input features, would get
a :math: R 2 R^2 R2 score of 0.0.
我给百度翻译了一下子

决定系数 :math: R 2 R^2 R2 定义为
:math: ( 1 − u v ) (1 - \frac{u}{v}) 1vu,其中 :math:‘u’ 是残差
平方和 (( y t r u e − y p r e d ) ∗ ∗ 2 ) . s u m () ((y_true - y_pred)** 2).sum() ((ytrueypred2.sum() 和 :math:‘v’
是平方 (( y t r u e − y t r u e . m e a n ()) ∗ ∗ 2 ) . s u m () ((y_true - y_true.mean()) ** 2).sum() ((ytrueytrue.mean())2.sum() 的总和。
最好的分数是 1.0,它可以是负数(因为
模型可以任意更差)。始终预测的常量模型
“y”的期望值,不考虑输入要素,将得到
A :math: R 2 R^2 R2 得分为 0.0。

坚持学习,整理复盘
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1297296.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

kennard-stone算法实现样本集划分(ks算法)

目录 一、 Kennard-Stone算法原理(KS算法) 二、Kennard-Stone算法作用 三、代码 四、对选出来的train样本使用T-SNE算法进行绘制 五、参考链接 一、 Kennard-Stone算法原理(KS算法) KS算法原理:把所有的样本都看…

UE4 .ini文件使用

在需要给配置文件的类中加上config标签,当然变量也要加 在项目的Config下,新建一个Default类的UCLASS中config等于的名字,这里结合上面截图就是DefaultTest 在下面写入 [/Script/项目名/类名] 然后写变量以及对应的值即可

机器学习-SVM(支持向量机)

推荐课程:【机器学习实战】第5期 支持向量机 |数据分析|机器学习|算法|菊安酱_哔哩哔哩_bilibili 赞美菊神ヾ ( ゜ⅴ゜)ノ 一、什么是支持向量机? 支持向量机(Support Vector Machine, SVM)是一类按监督学习&#xff0…

python学习——对大疆御3E拍摄照片赋予坐标系并旋转

对大疆御3E拍摄照片赋予坐标系并旋转 问题描述 进行植被覆盖度验证时,需采集验证点的植被覆盖情况,但无人机拍摄的照片缺少坐标系,无法进行对比验证。 解决方案 赋予照片坐标系 在gdal中对影像赋予坐标系主要参数为仿射六参数&#xff1…

深度解析TCP协议:特点、应用场景及市面上常见软件案例

目录 引言 TCP的特点 TCP的应用场景 市面上使用TCP的软件案例 引言 TCP(Transmission Control Protocol)是计算机网络中一种基于连接的、可靠的传输层协议。它具有一系列独特的特点,适用于广泛的应用场景。本文将深入研究TCP的特点、应用…

VSCode SSH登录服务器 提示XHR failed

设置->搜索“代理” 把图中的√去掉 重启 即可

全面覆盖,无所不包:C++ 编程必备指南 | 开源日报 No.99

fffaraz/awesome-cpp Stars: 51.0k License: MIT 这个项目是一个精心策划的 C(或者 C) 框架、库、资源和其他有趣东西的列表。它收集了各种标准库,如 STL 容器和算法;不同领域的框架,比如人工智能、异步事件循环等;以及一系列功…

【Linux】cat 命令使用

cat 命令 cat(英文全拼:concatenate)命令用于连接文件并打印到标准输出设备上。 可以使用cat连接多个文件、创建新文件、将内容附加到现有文件、查看文件内容以及重定向终端或文件中的输出。 cat可用于在不同选项的帮助下格式化文件的输出…

应用商店ASO优化提升APP排名的6大策略

ASO优化基操你了解多少? ASO优化对于APP推广运营来说是必不可少的一个方法。在当今竞争激烈的应用程序市场中,ASO(App Store Optimization)优化已成为提升APP排名和曝光度的关键因素。 一、ASO优化的重要性 ASO优化有助于提高AP…

如何为 3D 模型制作纹理的最佳方法

在线工具推荐: 3D数字孪生场景编辑器 - GLTF/GLB材质纹理编辑器 - 3D模型在线转换 - Three.js AI自动纹理开发包 - YOLO 虚幻合成数据生成器 - 三维模型预览图生成器 - 3D模型语义搜索引擎 您可以通过不同的方式为 3D 模型创建 3D 纹理。下面我们将介绍为 3D …

UML图的各种类型以及软件设计师考试考察的方式

UML建模 前言 常见的UML的类型 UML 比前两题是更难的(略高,但是学会就可以了。前两题是:数据流图,数据库的设计),因为UML图有很多类型:用例图,类图与对象图,顺序图&…

免费网页抓取工具大全【附下载和工具使用教程】

在当今信息爆炸的时代,获取准确而丰富的数据对于企业决策和个人研究至关重要。而网页抓取工具作为一种高效获取互联网数据的方式,正逐渐成为大家解决数据需求的得力助手。本文将深入探讨网页抓取工具的种类,并为大家提供简单实用的页面采集教…

springboot3 liquibase SQL执行失败自动回滚,及自动打tag

一&#xff1a; 自动执行回滚&#xff0c; 已执行成功的忽略&#xff0c;新sql执行失败则执行新sql文件中的回滚sql pom.xml <dependency> <groupId>org.liquibase</groupId> <artifactId>liquibase-core</artifactId> <version>4.25.0&…

2023.2版idea安装教程,现在jdk8已经过去式了,不同idea支持的jdk不同。升级jdk后idea也要随之升级

下载idea2023.2版本&#xff0c;下载之前需要删除之前的版本&#xff0c;一定要删除干净&#xff0c;删除程序要勾选那两个delete 下载路径&#xff1a;其他版本 - IntelliJ IDEA (jetbrains.com.cn) 选择2023.2版本 下载后进入安装程序&#xff0c;选择安装目录&#xff0c;然…

关于我自己搭建了一个完整的 网站 - 从零开始(服务器购买选型,域名备案,wordpress 主题,各种支付插件)

这篇博客主要介绍是如何在华为云上搭建一个 WordPress 网站。我将详细介绍从购买服务器到推广网站的整个过程&#xff0c;包括域名主机的备案。无论您是技术新手还是有一定经验的开发者&#xff0c;这篇文章都能为您提供有价值的指导。 第一步&#xff1a;选择云服务器 我选择…

计算一组x和y(一维数组)

输入30个整数a1,a2,a3,…,a30&#xff0c;计算所有的x与y。已知&#xff1a; 输入格式: 30个整数 输出格式: 计算得到的x1, x2,.......,x10 计算得到的y1, y2,.......,y10 所有输出精确到小数点后3位。 注意&#xff1a; 1、输出的每个“”左右各有一个空格&#xff0c;输出…

TrustZone之Translation Look aside Buffer(TLB)

TLB缓存最近使用的地址转换。处理器具有多个独立的translation regimes。TLB记录了一个条目表示的translation regime&#xff0c;包括安全状态。虽然TLBs的结构是由实现定义的&#xff0c;但以下图表显示了一个示例&#xff1a; 当软件在EL1或EL2中发出TLB失效操作&#xff08…

亚马逊运营推荐数仓项目实战

亚马逊运营推荐数仓项目实战 项目技术栈 HadoopSpark (Python)Scala SparkSQLSparkStreaming MongoDB Redis Kafka Flume ( SpringMVC vue) 1 项目介绍 1.1 项目系统架构 项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托&#xff0c;以某电商…

设置网络发现,合理利用共享,让自己在准确的地方出现或隐藏

本文介绍如何在Windows 11中打开或关闭网络发现。它还解释了网络发现的用途以及你可能想使用&#xff08;或不使用&#xff09;它的时间。 如何在Windows 11中切换网络发现 可以在“设置”中打开和关闭网络发现。 1、使用WINI快捷方式打开“设置”或从任务栏中搜索。 2、选…

【数据结构】——队列实现二叉树的功能

前言&#xff1a;二叉树的实现方式多种多样&#xff0c;有数组实现满二叉树&#xff0c;有链表实现完全二叉树&#xff0c;今天我们就用队列来实现二叉树。 创建二叉树&#xff1a; typedef int BTDataType; typedef struct BinaryTreeNode {BTDataType data;struct BinaryTre…