机器学习基础(三)监督学习的进阶探索

news2024/12/26 11:43:47

         导语:上一节我们深入地探讨监督学习和非监督学习的知识,重点关注它们的理论基础、常用算法及实际应用场景,详情可见:

机器学习基础(二)监督与非监督学习-CSDN博客文章浏览阅读769次,点赞15次,收藏8次。更深入地探讨监督学习和非监督学习的知识,重点关注它们的理论基础、常用算法及实际应用场景。https://blog.csdn.net/qq_52213943/article/details/136163917?spm=1001.2014.3001.5501        这一节,我们将详细探索监督学习的进阶应用。

目录

监督学习

数据集的构成与模型学习

损失函数的选择与应用

分类与回归的深入应用

线性回归实战案例:房价预测

决策树的构建与应用

支持向量机(SVM)的高效应用

股票市场预测实战

应用概述

数据加载

特征工程

模型选择

性能评估


监督学习

        监督学习作为机器学习的一个主要分支,专注于从带有标签的数据中学习和建立预测模型。这些模型可以预测新数据的标签,广泛应用于各种行业和领域,从简单的邮件分类到复杂的医疗诊断。

数据集的构成与模型学习

        在监督学习中,数据集包含输入(特征)和输出(标签),这种结构使得模型能够学习输入与输出之间的关系。通过分析训练数据集中的模式,监督学习模型学习如何将输入映射到正确的输出。例如,在邮件分类中,模型学习识别垃圾邮件和正常邮件的特征。

损失函数的选择与应用

        损失函数是衡量模型预测准确度的关键,它计算了模型预测结果和实际结果之间的差异,不同类型的任务需选择不同的损失函数。例如,回归任务常用均方误差(MSE),而分类任务常用交叉熵损失。

        除此之外,常用的损失函数还有:平均绝对误差 (MAE):也用于回归任务,衡量模型预测值与真实值的绝对差异,对异常值不敏感;对数损失 (Log Loss):用于二元分类任务,评估模型的概率估计与真实标签之间的关系;希望风险损失 (Hinge Loss):用于支持向量机的二元分类任务,最大化分类边界的间隔。

分类与回归的深入应用

        分类任务的实际案例很丰富,例如,电子邮件分类器通过学习标记为垃圾邮件和非垃圾邮件的电子邮件的特征,来预测新邮件的类别。而回归任务的实际案例,如房价预测,模型通过学习房屋的特征如面积、位置等数据和历史价格数据,来预测新房屋的市场价值。

        在实际应用中,选择分类或回归方法取决于问题的性质:回归适用于连续数值预测,如股票价格,而分类适用于二元或多类别分类,如垃圾邮件检测。正确选择方法有助于模型更准确地满足任务需求,提高预测结果的可信度。

线性回归实战案例:房价预测

        线性回归是一个基本的预测模型,适用于预测与多个变量有线性关系的输出。在房价预测的例子中,开发者将看到如何将这个理论应用于实际数据。

        延续上一节关于房价预测的讨论,本节将更深入地探讨如何使用房屋的特征(如面积、位置和房龄)来预测其市场价格。本节案例展示了如何从实际数据中提取特征,以及这些特征如何影响预测结果。

        这个代码示例展示了如何使用标准的Python库来加载数据、划分数据集、训练线性回归模型以及评估模型效果。图表中展示了模型预测价格与实际价格之间的关系,从而直观地评估模型性能。线性回归房价预测代码如下:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
# 加载数据
data = pd.read_csv('housing_data.csv')
X = data[['size', 'location', 'age']]
y = data['price']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,random_state=42)

# 创建线性回归模型并训练
model = LinearRegression()
model.fit(X_train, y_train)

# 预测和评估
y_pred = model.predict(X_test)
plt.scatter(y_test, y_pred)
plt.xlabel("Actual Prices")
plt.ylabel("Predicted Prices")
plt.title("Actual Prices vs Predicted Prices")
plt.show()

        首先,通过pd.read_csv('housing_data.csv')加载名为'housing_data.csv'的数据集。数据集包括了各个房屋的特征,如尺寸、地理位置、房龄等,以及相应的价格信息;其次,从数据集中选择了三个特征:'size'(房屋尺寸)、'location'(地理位置)和'age'(房龄),以及一个目标列'price'(房价)。这些特征将被用于训练和测试模型。

        使用train_test_split函数将数据集划分为训练集和测试集,其中测试集占总数据的30%。这个步骤是为了在模型训练完成后,能够用独立的数据来评估模型的性能,以检验其泛化能力。创建一个线性回归模型,通过model = LinearRegression()实例化,并使用训练集数据进行训练,即model.fit(X_train, y_train)。在训练过程中,模型将学习如何根据给定的特征来预测房价。使用训练好的模型对测试集进行预测,将预测结果存储在y_pred中。这一步骤将生成模型对每个测试样本的房价预测值。

        最后,通过使用plt.scatter()和matplotlib库,创建一个散点图,将实际房价(y_test)与模型预测的房价(y_pred)进行可视化比较。这个图表有助于直观地了解模型的性能,以及模型是否能够准确地预测房价。如果点在一条对角线上分布,表示模型的预测与实际值非常接近,而点的偏离则代表了预测误差。

决策树的构建与应用

        决策树通过一系列规则对数据进行分类。例如,使用决策树对患者数据进行分类,预测疾病类型,代码如下:

from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

# 加载数据
# 假设data是Pandas DataFrame,包含特征和标签
X = data.drop('disease', axis=1)
y = data['disease']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# 创建决策树模型并训练
tree_model = DecisionTreeClassifier()
tree_model.fit(X_train, y_train)

# 进行预测和评估
y_pred = tree_model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred)

        这段代码使用了Scikit-Learn库中的决策树分类器(DecisionTreeClassifier)来构建一个疾病预测模型。首先,从Pandas DataFrame中加载数据,将特征存储在X中,将标签存储在y中。然后,使用train_test_split函数将数据集分成训练集和测试集,其中测试集占总数据的30%。接下来,通过DecisionTreeClassifier()创建一个决策树模型,并使用训练集对其进行训练。最后,使用训练好的模型对测试集进行预测,计算模型的准确性(Accuracy)作为评估指标,并将结果打印出来。

支持向量机(SVM)的高效应用

        SVM通过找到最佳超平面来区分不同类别的数据。在文本分类或图像识别等高维数据中应用SVM。使用支持向量机(SVM)进行分类任务的基本步骤代码如下:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
# 假设data是含有特征和标签的DataFrame
# 请确保data已经被正确加载和准备好
# 分离特征和标签
X = data.drop('label', axis=1)
y = data['label']
# 数据划分
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 创建SVM模型并训练
svm_model = SVC(kernel='linear')
svm_model.fit(X_train, y_train)
# 预测和评估
y_pred = svm_model.predict(X_test)
print("Accuracy:", accuracy_score(y_test, y_pred))

        这段代码演示了使用Scikit-Learn中的SVM分类器构建分类模型的过程。首先,从DataFrame中提取特征和标签,然后将数据集分为训练集和测试集。接着,创建SVM模型,使用线性核函数进行训练,并对测试集进行预测。最后,计算并打印出模型的准确性,以评估模型性能。这段代码涵盖了典型的机器学习任务步骤。

股票市场预测实战

        金融领域中,股票市场预测一直是一个富有挑战性的课题,因为它受到多种不可预测因素的影响,如政治事件、经济数据发布、公司业绩报告以及市场情绪等。然而,借助监督学习的方法,我们可以通过分析历史股票价格数据和相关因素,构建模型来预测未来的股票走势

应用概述

        使用历史数据来预测股票市场的未来趋势是一个典型的监督学习应用场景,其中涉及到复杂的数据分析和特征工程。我们首先需要收集历史股票价格数据,这些数据通常包括开盘价、最高价、最低价、收盘价以及成交量等。此外,还可以包括一些宏观经济指标、公司财报数据等,以提供更全面的分析视角。可以从数据文件夹下stock_market_data.csv获得模拟数据集。

数据加载

        分析历史股价数据,包括开盘价、收盘价、最高价、最低价以及交易量等。从数据文件夹下stock_market_data.csv加载数据集,使用Pandas库的read_csv()函数读取CSV文件,代码如下:

 import pandas as pd    #导入Pandas模块
 # 加载股票市场数据
 stock_data = pd.read_csv('stock_market_data.csv')  #加载数据集
 print(stock_data.head())   #打印数据集的前5行

特征工程

        从原始数据中提取有用的特征,例如移动平均线、相对强弱指数(RSI)等技术指标。提取特征数据的代码如下:

 # 计算简单移动平均线(SMA)和相对强弱指数(RSI)
 stock_data['SMA'] = stock_data['Close'].rolling(window=15).mean()
 stock_data['RSI'] = compute_RSI(stock_data['Close'], 14) 
 # 假设compute_RSI是一个计算RSI的函数

模型选择

        讨论不同的预测模型,如线性回归、时间序列分析(如ARIMA模型)和机器学习方法(如随机森林和神经网络)。由于股票价格预测是一个时间序列问题,我们选择使用线性回归模型作为起始点。这是一个简单但有效的模型,适合初步尝试和基线建立。代码如下:

from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 使用开盘价、高、低、交易量以及计算的SMA和RSI作为特征
X = stock_data[['Open', 'High', 'Low', 'Volume', 'SMA', 'RSI']]
y = stock_data['Close']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=0)

# 创建线性回归模型
model = LinearRegression()
model.fit(X_train, y_train)

# 进行预测
y_pred = model.predict(X_test)

        这段代码利用Scikit-Learn库中的线性回归模型,使用开盘价、最高价、最低价、交易量、SMA和RSI等多个特征,构建了一个股票价格预测模型。它将数据分为训练集和测试集,通过线性回归模型对训练集进行训练,并使用该模型对测试集进行预测,最终可用于评估模型的性能表现

性能评估

        使用诸如均方误差(MSE)、绝对平均误差(MAE)等指标来评估模型的准确性。在这个例子中,我们使用均方误差(MSE)作为评估指标。它可以衡量预测值与实际股价之间的平均差异。

 mse = mean_squared_error(y_test, y_pred)
 print(f'Mean Squared Error: {mse}')

下一节我们将进行非监督学习的进阶探索

机器学习基础(四)非监督学习的进阶探索-CSDN博客非监督学习像一位探险家,挖掘未标记数据的未知领域。它不依赖预先定义的类别或标签,而是试图揭示数据自身的结构和关系。这种学习方式在处理复杂数据集时尤其有价值,因为它能发现人类可能未曾预见的模式和联系。https://blog.csdn.net/qq_52213943/article/details/136188233?spm=1001.2014.3001.5502-----------------

以上,欢迎点赞收藏、评论区交流

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1460485.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

明御运维审计与风险控制系统漏洞复现

简介 明御运维审计与风险控制系统是安恒信息在多年运维安全管理的理论和实践经验积累的基础上,采用B/S架构,集“身份认证、账户管理、控制权限、日志审计”于一体,支持多种字符终端协议、文件传输协议、图形终端协议、远程应用协议的安全监控与历史查询,具备全方位运维风险…

springboot+vue的飘香水果购物网站(前后端分离)

博主主页:猫头鹰源码 博主简介:Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战,欢迎高校老师\讲师\同行交流合作 ​主要内容:毕业设计(Javaweb项目|小程序|Pyt…

JavaScript 设计模式之组合模式

组合模式 在我们日常中肯呢个会将一个表单用这种模式来创建 const Car function () { } Car.prototype.getName function () { throw new Error("需要重写该方法") } Car.prototype.getPrice function () {throw new Error("需要重写该方法") } const…

05_i2c_controller内核模块

01_basicLinux内核模块-CSDN博客文章浏览阅读304次,点赞3次,收藏3次。环境IDubuntuMakefilemodules:clean:basic.creturn 0;运行效果。https://blog.csdn.net/m0_37132481/article/details/136157384i2c_controller.c rootT:/media/sf_D_DRIVE/kmodule/…

书生·浦语大模型实战营第五节课作业

基础作业 本地部署300字的小故事在这里插入图片描述

Easyx的学习1

使用easys的相关函数需要包含头文件#include<easyx.h>或#include<graphics.h>&#xff08;#include<graphics.h>包含了<easyx.h>和一些不推荐使用的函数&#xff09; 目录 窗口创建背景颜色 基本图形绘制 1.点 2.线 3.矩形 圆角矩形 4. 圆形 椭圆…

一文彻底搞懂Java对象什么时候被垃圾器回收

文章目录 1. 简介2. 引用计数法2.1 优点2.2 缺点 3. 可达性分析算法3.1 虚拟机栈&#xff08;栈帧中的本地变量表&#xff09;中引用的对象3.2 方法区中静态属性引用的对象3.3 方法区中常量引用的对象3.4 本地方法栈中 JNI&#xff08;即一般说的 Native 方法&#xff09;引用的…

Day23--learning English

一、积累 1.straw 2.umami | tangy | bland 3.lactose dairy 4.fatigue 5.stumble | curb 6.pore 7.toll 8.arrear 9.robe 10.stylish 11.dash 12.mischief 13.ranch 14.sponsorship 15.podcast 16.villian 17.clutch 18.envision 二、练习 1.牛津原译 1.straw /strɔː/ 1…

ngnix网站服务详解

一 Nginx的简介 1 Nginx&#xff1a; ①Nginx 是开源、高性能、高可靠的 Web 和反向代理服务器&#xff0c;而且支持热部署&#xff0c;几乎可以做到 7 * 24 小时不间断运行&#xff0c;即使运行几个月也不需要重新启动&#xff0c;还能在不间断服务的情况下对软件版本进行热…

11 个适用于 Windows电脑的最佳免费录制屏幕软件(2024)

屏幕录制软件可让您捕获屏幕以与他人共享并创建与产品相关的视频、教程、课程、演示、网络视频等。该软件使您能够从网络摄像头和屏幕录制视频。 11 个适用于 Windows电脑的最佳免费屏幕录像机 以下是精心挑选的顶级屏幕录像机列表&#xff0c;及其受欢迎的功能和网站链接。该…

Spring Boot与Feign:微服务架构下的优雅通信

1. 前言 本文将详细介绍在Spring Boot框架中如何使用Feign进行微服务之间的优雅通信。我们将从Feign的基本原理讲起&#xff0c;然后逐步展开使用Feign的完整流程和步骤&#xff0c;包括代码示例和详细注释。通过本文&#xff0c;读者将能够轻松掌握Feign在Spring Boot微服务架…

为什么发明个红黑树,这么设计的意义是什么?

1、红黑树是一种自平衡二叉树&#xff0c;查找时算法时间复杂度为O(log n)。 2、 假设你计算机里存有十亿个身份证信息&#xff0c;你要用计算机在这些身份证信息里进行增加、删除、查找等操作&#xff0c;应该怎样设计程序实现这些功能&#xff1f; 最简单的笨办法&#xf…

基于JAVA的智慧社区业务综合平台 开源项目

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 业务类型模块2.2 基础业务模块2.3 预约业务模块2.4 反馈管理模块2.5 社区新闻模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 业务类型表3.2.2 基础业务表3.2.3 预约业务表3.2.4 反馈表3.2.5 社区新闻表 四、系统展…

超详细shell脚本小练...

1 、判断当前磁盘剩余空间是否有30G&#xff0c;如果小于30G&#xff0c;则将报警邮件发送给管理员&#xff0c;每天检查-次磁盘剩余空间。 1.1.安装邮件服务 [rootnode ~]# df -m 文件系统 1M-块 已用 可用 已用% 挂载点 devtmpfs 7…

el-button 选择与非选择按钮批量处理

el-button 选择与非选择按钮批量处理 <el-button v-for"(voyage,i) in data[voyages][nowVoyage]":key"i"class"c-work-bts"type"primary":plain"nowWorkSpace!i"click"chooseWorkSpace(i)"size"small&qu…

week04day01(爬虫)

一. 爬虫 只爬取公开的信息&#xff0c;不能爬取未公开的后台数据 1.爬虫的合法性 法无禁止皆可为 -- 属于法律的灰色地带https://www.tencent.com/robots.txt -- 网站/robots.txt 可以查看禁止爬取的内容 2. URL Uniform Resource Locator 统一资源定位符https://www.…

小程序红包服务端请求一直是签名错误如何解决

当小程序红包服务端请求一直显示签名错误时&#xff0c;这可能是由于多种原因导致的&#xff0c;包括密钥错误、参数错误、签名算法错误、时间戳问题以及网络请求问题等。解决这个问题需要细心检查和分析&#xff0c;下面将简单的介绍一下如何针对这些可能的原因进行排查和解决…

获批上市:国产新一代长期型超小人工心脏

文章来源&#xff1a;心未来&#xff1b;编辑&#xff1a;白晓菲 近日&#xff0c;重庆永仁心医疗器械有限公司&#xff08;简称&#xff1a;"永仁心医疗"&#xff09;的新一代人工心脏产品EVA-Pulsar™左心室辅助装置正式获得NMPA医疗器械注册证&#xff0c;成为国…

【C语言】面试常考----- 内存函数memcpy和memmove的功能区别与模拟实现

1.memcpy 功能&#xff1a;把source指向的前num个字节内容拷贝到destination指向的位置去&#xff0c;可以拷贝任意类型的数据。 注&#xff1a;1.memcpy并不关心\0&#xff0c;毕竟传的也不一定是字符串&#xff0c;因此拷贝过程中遇到\0也不会停下来。 2.num的单位是字节&a…

(二十)springboot实战——springboot使用redis的订阅发布机制结合SSE实现站内信的功能

前言 在前面的章节内容中&#xff0c;我们介绍了如何使用springboot项目实现基于redis订阅发布机制实现消息的收发&#xff0c;同时也介绍了基于SSE机制的单通道消息推送案例&#xff0c;本节内容结合redis和sse实现一个常用的实战案例——站内信。实现系统消息的实时推送。 …