动手学深度学习18 预测房价竞赛总结

news2024/11/26 5:43:53

动手学深度学习18 预测房价竞赛总结

  • 李沐老师代码
  • AutoGluon
  • h2o
  • 集成学习
  • automl
  • QA

视频: https://www.bilibili.com/video/BV15Q4y1o7vc/?vd_source=eb04c9a33e87ceba9c9a2e5f09752ef8
代码: https://www.bilibili.com/video/BV1rh411m7Hb/?vd_source=eb04c9a33e87ceba9c9a2e5f09752ef8

在这里插入图片描述

李沐老师代码

第一部分代码是kaggle预测泰坦尼克号人生还。

conda create -y --force -n ag python=3.8 pip
conda activate ag
pip install 'mxnet<2.0.0'
pip install autogluon
pip install kaggle 
# 配置kaggle秘钥 下载数据集
kaggle c doenload titanic
unzip -o titanic.zip

from autogluon.tabular import TabularDataset, TabularPredictor
# 训练
train_data = TabularDataset('train.csv')
# id, label = 'PassengerId', 'Survived'
id, label = 'ID', 'Sold Price'
# 数据预处理
large_val_cols = ['Lot', 'Total interior livabel area', 'Tax assessed value',
          'Listed Price', 'Last Sold Price']
# 对字符串较长的列取log操作
for c in large_val_cols + [label]:
  train_data[c] = np.log(train_data[c]+1)
# 把pandas自动生成的id列去掉 不参与训练  label列做label
# predictor = TabularPredictor(label=label).fit(train_data.drop(columns=[id]))
# 更好的模型 multimodal选项用transformer抽取特征+多模型融合
predictor = TabularPredictor(label=label).fit(train_data.drop(columns=[id]), 
                        hyperparameters='multimodal',
                        num_stack_levels=1, num_baf_folds=5)

# 预测
import pandas as pd
test_data = TabularDataset('test.csv')
preds = predictor.predict(test_data.drop(columns=[id]))
submission = pd.DataFrame({id:test_data[id], label:preds})
# 生成提交的csv文件
submission.to_csv('submission.csv', index=False)

# 1. autogluon在合理的计算开销下模型还不错
# 2. 虽然可以做自动特征抽取,但是人为数据预处理可能效果更好
# 3. 对于比较大的数据集,计算开销仍旧是瓶颈 gpu或者多台gpu分布式训练。

AutoGluon

代码: https://github.com/autogluon/autogluon
文档: https://auto.gluon.ai/stable/index.html

AutoGluon是一个开源的自动化机器学习(AutoML)工具包,旨在使机器学习变得更加易于使用和普及。它提供了高度自动化的机器学习管道,可以帮助开发者和数据科学家快速构建和部署高性能的机器学习模型,而无需深入了解每个模型的细节。

以下是AutoGluon的一些主要特点和功能:

  1. 自动化调参:AutoGluon能够自动搜索最佳的超参数配置,包括模型选择、特征工程、调参等,从而提高模型的性能和泛化能力。

  2. 多模型支持:支持多种机器学习模型,包括集成学习、神经网络、决策树等,可以根据数据集自动选择合适的模型进行训练。

  3. 高性能:AutoGluon针对大规模数据和高维特征进行了优化,具有较高的训练速度和效率。

  4. 易于使用:提供简洁的API和命令行界面,使用户可以轻松地进行模型训练、评估和部署。

  5. 自动化特征工程:自动处理数据预处理和特征工程,包括缺失值处理、数据标准化、特征选择等。

  6. 模型解释性:提供模型解释性功能,可以帮助用户理解模型的预测结果和特征重要性。

AutoGluon适用于各种机器学习任务,包括分类、回归、聚类等,可以在不同的领域和应用中使用,如金融、医疗、电子商务等。它为机器学习的开发和应用提供了更高的效率和便利性,使更多的开发者和科学家可以利用机器学习技术解决实际问题。

h2o

https://zhuanlan.zhihu.com/p/638874401

集成学习

集成学习会让模型更稳定。

automl

80%的时间去处理数据。
怎么搜集数据,搜集什么样的数据,怎么做数据清洗,搭建数据pipeline, 怎么低成本的获取存储数据。

QA

1: 避免overfit, 调参是必要的,要有一个比较好的验证集。当找到一个很好的超参数效果特别好,就在这个超参数附近调一下看看效果是否会有很大变化。实际应用中调参没那么重要。
2:kaggle比赛 公榜数据是测试数据前半部分,私榜是测试数据后半部分。
3:数据处理,难的是要预测一个任务,机器学习能不能做,要什么样的数据,历史数据是否有用,从哪里找数据,数据怎么获取,噪音数据怎么处理【90%的数据可能都是噪音】,哪些数据是对模型有用的。第一步:思考世界。
4:神经网络调参方法和需要调的参数。
5:nas 搜整个网络的架构【烧钱,还不成熟】,autogulon和pytorch结合做NAS?
Autogluon 和 PyTorch 结合起来进行 NAS(神经架构搜索)是指使用 Autogluon 框架与 PyTorch 深度学习库结合,进行神经网络架构的自动搜索和优化。这种方法旨在通过自动化技术来发现和优化深度学习模型的架构,以提高模型的性能和效率。

Autogluon 是一个自动机器学习工具包,它可以帮助开发者在各种机器学习任务中自动搜索和选择最佳的模型和超参数配置。PyTorch 则是一个流行的深度学习框架,提供了丰富的工具和功能,使得在构建、训练和部署深度学习模型时更加便捷。

因此,将 Autogluon 与 PyTorch 结合使用进行 NAS,意味着利用 Autogluon 提供的自动化搜索技术,结合 PyTorch 提供的深度学习能力,来寻找最优的神经网络结构和超参数配置,以达到更好的模型性能和效果。
6:AutoML是自动机器学习,给一个处理过,样本处理过但是特征没有抽取好的数据,能自动做特征提取训练模型,是ML的一个算法。
7:层数深预测输出的房价都是一样的,说明数值稳定性出了问题,可能把bias弄出来了。或者梯度爆炸或者梯度为0.
8:autogluon有用树模型,DeepLearning大部分模型,autogluon可以理解为一个大容器,里面塞了好多模型。
9:MLP有精细调参的价值。bert transformer也有MLP的实现。
10:xgboost训练房价预测.
11:看数据看那些数据是有用的。可以尝试把单词逐一创建特征项,看看是否有效果,没有的话不要浪费时间。
12:第一版kaggle竞赛,MLP比赛经验。
13:AutoGluon从最简单最快的模型开始,继续往下训练,一直试不同的模型。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1671576.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

[C++核心编程-09]----C++类和对象之继承

&#x1f3a9; 欢迎来到技术探索的奇幻世界&#x1f468;‍&#x1f4bb; &#x1f4dc; 个人主页&#xff1a;一伦明悦-CSDN博客 ✍&#x1f3fb; 作者简介&#xff1a; C软件开发、Python机器学习爱好者 &#x1f5e3;️ 互动与支持&#xff1a;&#x1f4ac;评论 &…

python内置函数exec()和eval()区别

在Python中&#xff0c;eval() 和 exec() 都是内置函数&#xff0c;用于执行存储在字符串或对象中的Python代码&#xff0c;但它们之间也有一些区别。 eval() 语法&#xff1a;eval(expression, globalsNone, localsNone) expression&#xff1a;需要求值的字符串表达式。可…

【C++】 string类:应用与实践

&#x1f49e;&#x1f49e; 前言 hello hello~ &#xff0c;这里是大耳朵土土垚~&#x1f496;&#x1f496; &#xff0c;欢迎大家点赞&#x1f973;&#x1f973;关注&#x1f4a5;&#x1f4a5;收藏&#x1f339;&#x1f339;&#x1f339; &#x1f4a5;个人主页&#x…

自定义类型——结构体、枚举和联合

自定义类型——结构体、枚举和联合 结构体结构体的声明匿名结构体结构体的自引用结构体的初始化结构体的内存对齐修改默认对齐数结构体传参 位段枚举联合 结构体 结构是一些值的集合&#xff0c;这些值被称为成员变量&#xff0c;结构的每个成员可以是不同类型的变量。 数组是…

Python爬虫入门:网络世界的宝藏猎人

今天阿佑将带你踏上Python的肩膀&#xff0c;成为一名网络世界的宝藏猎人&#xff01; 文章目录 1. 引言1.1 简述Python在爬虫领域的地位1.2 阐明学习网络基础对爬虫的重要性 2. 背景介绍2.1 Python语言的流行与适用场景2.2 网络通信基础概念及其在数据抓取中的角色 3. Python基…

线性表(2)

第二章、线性表&#xff08;linear list&#xff09; 线性表是第一个数据结构&#xff0c;再提一遍&#xff0c;学习一个具体的数据结构需要关注它的逻辑结构&#xff0c;物理结构和数据的运算&#xff0c;即三要素。 2.1、线性表的定义和基本操作 线性表的定义 需要注意的是…

如文所示:

影响 ConnectWise 的 ScreenConnect 远程桌面访问产品的严重漏洞已被广泛利用来传播勒索软件和其他类型的恶意软件。 ConnectWise 于 2 月 19 日通知客户&#xff0c;它已发布针对关键身份验证绕过缺陷和高严重性路径遍历问题的补丁。该安全漏洞当时没有 CVE 标识符。第二天&am…

Windows2016系统禁止关闭系统自动更新教程

目录 1.输入cmd--适合系统2016版本2.输入sconfig&#xff0c;然后按回车键3.输入5&#xff0c;然后按回车键4.示例需要设置为手动更新&#xff0c;即输入M&#xff0c;然后按回车键 1.输入cmd–适合系统2016版本 2.输入sconfig&#xff0c;然后按回车键 3.输入5&#xff0c;然后…

前端铺子-uniapp移动端:跨平台开发新篇章

一、引言 在移动应用开发领域&#xff0c;随着技术的不断进步&#xff0c;用户对应用的需求也日益多样化。如何快速、高效地开发跨平台应用成为了前端开发者面临的一大挑战。uni-app作为一款使用Vue.js开发所有前端应用的框架&#xff0c;凭借其一次编写、多端运行的特性&…

栈和队列的基础知识,C语言实现及经典OJ题

基础知识 一.栈 1.栈的概念 定义&#xff1a;堆栈又名栈&#xff08;stack&#xff09;&#xff0c;它是一种运算受限的线性表。限定仅在表尾进行插入和删除操作的线性表。这一端被称为栈顶&#xff0c;相对地&#xff0c;把另一端称为栈底。 压栈&#xff1a;向一个栈插入新…

爆款小红书免费流量体系课程(两周变现),小红书电商教程

课程下载&#xff1a;小红书电商教程-课程网盘链接提取码下载.txt资源-CSDN文库 更多资源下载&#xff1a;关注我。 课程内容&#xff1a; 10-爆款标题(三段式取标题).mp3 11-爆款封面怎么作图.mp3 12-爆款内容的模板(三段式模板).mp3 13-小红书流量推荐背后的秘密(四大流…

【深度学习】探秘PSD:合成到真实去雾框架的实例解析

揭秘PSD&#xff1a;合成到真实去雾框架的革新 一、PSD框架的提出背景二、PSD框架的原理与网络结构三、PSD框架的实现与代码示例四、结论与展望 在图像处理领域&#xff0c;去雾技术一直是一个备受关注的研究热点。然而&#xff0c;传统的去雾方法在面对真实世界的模糊图像时&a…

UDP和TCP协议比较,TOE技术

如今在某些方面TCP超越UDP的主要原因如下 在硬件层面的TOE(TCP Offload Engine)功能&#xff0c;将越来越多的TCP功能卸载到网卡上。它极大地提升了TCP的性能&#xff0c;使其在高吞吐量场景下的表现更为出色。近年TCP的拥塞控制算法实现了显著进步。这些新算法显著提高了TCP在…

设计模式3——简单工厂模式

简单工厂模式 简单工厂模式是工厂方法模式的衍生&#xff0c;实现起来较容易&#xff0c;也是一种创建型模式。 目录 一、简短概述 二、优缺点 三、使用过程 四、举例 一、简短概述 当有一堆相似的对象需要被创建时&#xff0c;可以使用一个简单工厂去管理如何创建它们&…

到底考不考CISP?纠结的看过来

专业认证如CISP&#xff08;注册信息安全专业人员&#xff09;成为了衡量专业水平的重要标准。 CISP的含金量懂的都懂&#xff0c;然而&#xff0c;是否要投入时间、精力和金钱去追求这样一个认证&#xff0c;对于许多人来说&#xff0c;依然是一个值得深思的问题。 那么到底…

Spirng-IOC零碎知识点

Spirng IOC 依赖注入 根据名称注入 <?xml version"1.0" encoding"UTF-8"?> <beansxmlns"http://www.springframework.org/schema/beans"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xmlns:util"http://w…

鸿蒙ArkUI开发:常用布局【弹性布局方向图】

弹性布局方向图 Flex({ direction: FlexDirection.Row }) FlexDirection.Row&#xff08;默认值&#xff09;&#xff1a;主轴为水平方向&#xff0c;子组件从起始端沿着水平方向开始排布FlexDirection.RowReverse&#xff1a;主轴为水平方向&#xff0c;子组件从终点端沿着F…

Hystrix服务熔断

服务熔断 熔断机制是应对雪崩效应的一种微服务链路保护机制。当某个微服务不可用或者响应时间太长时&#xff0c; 会进行服务降级&#xff0c;进而熔断该节点微服务的调用&#xff0c;快速返回“错误”的响应信息。当检测到该节点微 服务调用响应正常后恢复调用链路。 在Spri…

NCL绘制WRF domain区域并添加气象站点

读取文件 根据官网例子Using gsn_csm_contour_map to plot WRF-ARW data绘制&#xff1a; ; It shows how to use gsn_csm_xxxx scripts to do the plotting. ; ; You can use the map projection settings on the WRF file, or you ; can use your own map projection. See …

在excel的内置瀑布图模板中,能在数据标签里同时显示数值和百分比吗?

瀑布图是由麦肯锡顾问公司所创的图表类型&#xff0c;因为形似瀑布流水而称之为瀑布图( Waterfall Plot)。这种图表常用于表达数个特定数值之间的数量增减变化关系。 在Excel中&#xff0c;瀑布图是可以通过簇状柱形图来完成创建。从excel2016版起&#xff0c;excel添加了内置…