【免费分享 图书】《阿里云天池大赛赛题解析——机器学习篇》-PDF电子书-百度云...

news2025/1/23 14:54:22

找这本书的资源简直要把我找吐了,各种网站压缩包一下下来就开始各种套路(比如要你充钱)

为了防止还有我这样的受害者,这就把找到的PDF给大家分享一下。

链接在文章最后

如果这篇文章能够帮到您,麻烦帮我点个赞,并关注一下我,我将有更多动力,持续分享更多有用图书给您!非常感谢,不胜感激!(点关注,不迷路💖)

书箱介绍

出版社: 电子工业出版社
ISBN:9787121393501
版次:1
出版时间:2020-09-01
页数:376
字数:556000

书籍图片

image

内容简介

《阿里云天池大赛赛题解析——机器学习篇》聚焦机器学习算法建模及相关技术,以工业蒸汽量预测、天猫用户重复购买预测、O2O优惠券预测和阿里云安全恶意程序检测等四个天池经典赛题作为实战案例,针对实际赛题按照赛题理解、数据探索、特征工程、模型训练、模型验证、特征优化、模型融合等步骤,将赛题的解决方案从0到1层层拆解、详细说明,在展现专业选手解题过程的同时,配以丰富的相关技术知识作为补充。

《阿里云天池大赛赛题解析——机器学习篇》从经典商业案例出发,内容由浅入深、层层递进,既可以作为专业开发者的参考用书,也可以作为参赛新手研读专业算法的实战手册。

作者简介

本书由阿里云天池平台编写。

天池平台已经举办了超过 200 场来自真实业务场景的竞赛,每场赛事沉淀的课题和数据集,将在天池保留和开放。天池平台已成为在校学生踏入职场前的虚拟实践基地,也成为聚集40万数据人才,孵化2000余家数据创新工作室的数据智能大社区。

目录

可折叠目录
赛题一 工业蒸汽量预测

1 赛题理解 2

1.1 赛题背景 2

1.2 赛题目标 2

1.3 数据概览 2

1.4 评估指标 3

1.5 赛题模型 4

2 数据探索 6

2.1 理论知识 6

2.1.1 变量识别 6

2.1.2 变量分析 6

2.1.3 缺失值处理 10

2.1.4 异常值处理 11

2.1.5 变量转换 14

2.1.6 新变量生成 15

2.2 赛题数据探索 16

2.2.1 导入工具包 16

2.2.2 读取数据 16

2.2.3 查看数据 16

2.2.4 可视化数据分布 18

2.2.5 查看特征变量的相关性 26

3 特征工程 33

3.1 特征工程的重要性和处理 33

3.2 数据预处理和特征处理 33

3.2.1 数据预处理 33

3.2.2 特征处理 34

3.3 特征降维 38

3.3.1 特征选择 39

3.3.2 线性降维 44

3.4 赛题特征工程 45

3.4.1 异常值分析 45

3.4.2 最大值和最小值的

归一化 46

3.4.3 查看数据分布 47

3.4.4 特征相关性 48

3.4.5 特征降维 48

3.4.6 多重共线性分析 49

3.4.7 PCA处理 50

4 模型训练 52

4.1 回归及相关模型 52

4.1.1 回归的概念 52

4.1.2 回归模型训练和预测 52

4.1.3 线性回归模型 52

4.1.4 K近邻回归模型 54

4.1.5 决策树回归模型 55

4.1.6 集成学习回归模型 58

4.2 赛题模型训练 61

4.2.1 导入相关库 61

4.2.2 切分数据 62

4.2.3 多元线性回归 62

4.2.4 K近邻回归 62

4.2.5 随机森林回归 63

4.2.6 LGB模型回归 63

5 模型验证 64

5.1 模型评估的概念和方法 64

5.1.1 欠拟合与过拟合 64

5.1.2 模型的泛化与正则化 68

5.1.3 回归模型的评估指标和

调用方法 70

5.1.4 交叉验证 72

5.2 模型调参 75

5.2.1 调参 75

5.2.2 网格搜索 76

5.2.3 学习曲线 77

5.2.4 验证曲线 78

5.3 赛题模型验证和调参 78

5.3.1 模型过拟合与欠拟合 78

5.3.2 模型正则化 81

5.3.3 模型交叉验证 82

5.3.4 模型超参空间及调参 85

5.3.5 学习曲线和验证曲线 89

6 特征优化 93

6.1 特征优化的方法 93

6.1.1 合成特征 93

6.1.2 特征的简单变换 93

6.1.3 用决策树创造新特征 94

6.1.4 特征组合 94

6.2 赛题特征优化 96

6.2.1 导入数据 96

6.2.2 特征构造方法 96

6.2.3 特征构造函数 96

6.2.4 特征降维处理 96

6.2.5 模型训练和评估 97

7 模型融合 100

7.1 模型优化 100

7.1.1 模型学习曲线 100

7.1.2 模型融合提升技术 100

7.1.3 预测结果融合策略 102

7.1.4 其他提升方法 105

7.2 赛题模型融合 106

7.2.1 导入工具包 106

7.2.2 获取训练数据和测试

数据 106

7.2.3 模型评价函数 107

7.2.4 采用网格搜索训练

模型 107

7.2.5 单一模型预测效果 109

7.2.6 模型融合Boosting方法 115

7.2.7 多模型预测Bagging

方法 118

7.2.8 多模型融合Stacking

方法 119

7.2.9 模型验证 127

7.2.10 使用lr_reg和lgb_reg

进行融合预测 127

赛题二 天猫用户重复购买预测

1 赛题理解 130

1.1 赛题背景 130

1.2 数据介绍 131

1.3 评估指标 133

1.4 赛题分析 134

2 数据探索 137

2.1 理论知识 137

2.1.1 缺失数据处理 137

2.1.2 不均衡样本 138

2.1.3 常见的数据分布 141

2.2 赛题数据探索 144

2.2.1 导入工具包 145

2.2.2 读取数据 145

2.2.3 数据集样例查看 145

2.2.4 查看数据类型和数据

大小 146

2.2.5 查看缺失值 147

2.2.6 观察数据分布 148

2.2.7 探查影响复购的各种

因素 150

3 特征工程 155

3.1 特征工程介绍 155

3.1.1 特征工程的概念 155

3.1.2 特征归一化 155

3.1.3 类别型特征的转换 156

3.1.4 高维组合特征的处理 156

3.1.5 组合特征 157

3.1.6 文本表示模型 157

3.2 赛题特征工程思路 158

3.3 赛题特征工程构造 160

3.3.1 工具导入 160

3.3.2 数据读取 160

3.3.3 对数据进行内存压缩 161

3.3.4 数据处理 163

3.3.5 定义特征统计函数 164

3.3.6 提取统计特征 166

3.3.7 利用Countvector和

TF-IDF提取特征 170

3.3.8 嵌入特征 170

3.3.9 Stacking分类特征 171

4 模型训练 179

4.1 分类的概念 179

4.2 分类相关模型 179

4.2.1 逻辑回归分类模型 179

4.2.2 K近邻分类模型 180

4.2.3 高斯贝叶斯分类模型 182

4.2.4 决策树分类模型 182

4.2.5 集成学习分类模型 183

5 模型验证 186

5.1 模型验证指标 186

5.1.1 准确度 186

5.1.2 查准率和查全率 188

5.1.3 F1值 189

5.1.4 分类报告 189

5.1.5 混淆矩阵 189

5.1.6 ROC 190

5.1.7 AUC曲线 190

5.2 赛题模型验证和评估 190

5.2.1 基础代码 190

5.2.2 简单验证 191

5.2.3 设置交叉验证方式 192

5.2.4 模型调参 194

5.2.5 混淆矩阵 195

5.2.6 不同的分类模型 198

5.2.7 自己封装模型 205

6 特征优化 211

6.1 特征选择技巧 211

6.2 赛题特征优化 213

6.2.1 基础代码 213

6.2.2 缺失值补全 213

6.2.3 特征选择 213

赛题三 O2O优惠券预测

1 赛题理解 222

1.1 赛题介绍 222

1.2 赛题分析 223

2 数据探索 225

2.1 理论知识 225

2.1.1 数据探索的定义 225

2.1.2 数据探索的目的 226

2.1.3 相关Python包 226

2.2 初步的数据探索 226

2.2.1 数据读取 226

2.2.2 数据查看 227

2.2.3 数据边界探索 231

2.2.4 训练集与测试集的

相关性 232

2.2.5 数据统计 236

2.3 数据分布 238

2.3.1 对文本数据的数值化

处理 238

2.3.2 数据分布可视化 242

3 特征工程 246

3.1 赛题特征工程思路 246

3.2 赛题特征构建 248

3.2.1 工具函数 248

3.2.2 特征群生成函数 250

3.2.3 特征集成函数 256

3.2.4 特征输出 257

3.3 对特征进行探索 260

3.3.1 特征读取函数 260

3.3.2 特征总览 261

3.3.3 查看特征的分布 262

3.3.4 特征相关性分析 265

4 模型训练 266

4.1 模型训练与评估 266

4.2 不同算法模型的性能对比 271

4.2.1 朴素贝叶斯 271

4.2.2 逻辑回归 271

4.2.3 决策树 272

4.2.4 随机森林 272

4.2.5 XGBoost 273

4.2.6 LightGBM 274

4.2.7 不同特征效果对比 274

4.3 结果输出 274

5 模型验证 276

5.1 评估指标 276

5.2 交叉验证 276

5.3 模型比较 279

5.4 验证结果可视化 282

5.5 结果分析 289

5.6 模型调参 290

5.7 实际方案 292

6 提交结果 299

6.1 整合及输出结果 299

6.2 结果提交及线上验证 302

赛题四 阿里云安全恶意程序检测

1 赛题理解 306

1.1 赛题介绍 306

1.2 赛题分析 307

2 数据探索 310

2.1 训练集数据探索 310

2.1.1 数据特征类型 310

2.1.2 数据分布 311

2.1.3 缺失值 312

2.1.4 异常值 312

2.1.5 标签分布 313

2.2 测试集数据探索 314

2.2.1 数据信息 314

2.2.2 缺失值 315

2.2.3 数据分布 315

2.2.4 异常值 315

2.3 数据集联合分析 316

2.3.1 file_id分析 316

2.3.2 API分析 317

3 特征工程与基线模型 318

3.1 特征工程概述 318

3.1.1 特征工程介绍 318

3.1.2 构造特征 318

3.1.3 特征选择 319

3.2 构造线下验证集 319

3.2.1 评估穿越 319

3.2.2 训练集和测试集的特征

差异性 320

3.2.3 训练集和测试集的分布

差异性 320

3.3 基线模型 320

3.3.1 数据读取 320

3.3.2 特征工程 321

3.3.3 基线构建 322

3.3.4 特征重要性分析 324

3.3.5 模型测试 325

4 高阶数据探索 326

4.1 变量分析 326

4.2 高阶数据探索实战 329

4.2.1 数据读取 329

4.2.2 多变量交叉探索 329

5 特征工程进阶与方案优化 343

5.1 pivot特征构建 343

5.1.1 pivot特征 343

5.1.2 pivot特征构建时间 343

5.1.3 pivot特征构建细节和

特点 343

5.2 业务理解和结果分析 344

5.2.1 结合模型理解业务 344

5.2.2 多分类问题预测结果

分析 344

5.3 特征工程进阶实践 344

5.3.1 特征工程基础部分 344

5.3.2 特征工程进阶部分 348

5.3.3 基于LightGBM的模型

验证 349

5.3.4 模型结果分析 351

5.3.5 模型测试 354

6 优化技巧与解决方案升级 355

6.1 优化技巧:Python处理大数据

的技巧 355

6.1.1 内存管理控制 355

6.1.2 加速数据处理的技巧 356

6.1.3 其他开源工具包 356

6.2 深度学习解决方案:TextCNN

建模 358

6.2.1 问题转化 358

6.2.2 TextCNN建模 358

6.2.3 数据预处理 360

6.2.4 TextCNN网络结构 361

6.2.5 TextCNN训练和测试 362

6.2.6 结果提交 364

7 开源方案学习 365
百度云链接:

链接:百度网盘 请输入提取码
提取码:nsuv

如果这篇文章能够帮到您,麻烦帮我点个赞,并关注一下我,我将有更多动力,持续分享更多有用图书给您!非常感谢,不胜感激!(点关注,不迷路💖)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/883259.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【uniapp】中 微信小程序实现echarts图表组件的封装

插件地址:echarts-for-uniapp - DCloud 插件市场 图例: 一、uniapp 安装 npm i uniapp-echarts --save 二、文件夹操作 将 node_modules 下的 uniapp-echarts 文件夹复制到 components 文件夹下 当前不操作此步骤的话,运行 -> 运行到小…

动手学深度学习—卷积神经网络LeNet(代码详解)

1. LeNet LeNet由两个部分组成: 卷积编码器:由两个卷积层组成;全连接层密集块:由三个全连接层组成。 每个卷积块中的基本单元是一个卷积层、一个sigmoid激活函数和平均汇聚层;每个卷积层使用55卷积核和一个sigmoid激…

基于libevent的tcp服务器

libevent使用教程_evutil_make_socket_nonblocking_易方达蓝筹的博客-CSDN博客 一、准备 centos7下安装libevent库 yum install libevent yum install -y libevent-devel 二、代码 server.cpp /** You need libevent2 to compile this piece of code Please see: http://li…

分类预测 | MATLAB实现MTBO-CNN多输入分类预测

分类预测 | MATLAB实现MTBO-CNN多输入分类预测 目录 分类预测 | MATLAB实现MTBO-CNN多输入分类预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.MATLAB实现MTBO-CNN多输入分类预测 2.代码说明:基于登山队优化算法(MTBO)、卷积神经…

android 12系统加上TTS引擎

系统层修改&#xff1a; 1.frameworks/base/packages/SettingsProvider/res/values/defaults.xml <string name"def_tts"></string> 2.frameworks/base/packages/SettingsProvider/src/com/android/providers/settings/DatabaseHelper.java loadString…

​五金件机器视觉定位​并获取外观轮廓软硬件视觉方案

【检测目的】 五金件机器视觉定位&#xff0c;视觉检测五金件轮廓并矫正五金件位置进行涂油 【客户要求】 FOV:540*400mm 【拍摄与处理效图一】 【拍摄与处理效图二】 【实验原理及说明】 【方案评估】 根据目前的图像和处理结果来看&#xff0c;可以检测出产品轮廓并进行位置…

Unity小项目__小球吃零食

// Player脚本文件源代码 public class Player : MonoBehaviour {public Rigidbody rd; // 定义了一个刚体组件public int score 0; // 定义了一个计分器public Text scoreText; // 定义了一个文本组件public GameObject winText; // 定义了一个游戏物体用于检验游戏结束// S…

征战2023跨境旺季,独立站如何实现新增长?

2023年出海赛道万象更新&#xff0c;行业重回正轨&#xff0c;跨境行业在经历过多轮洗牌过后&#xff0c;中国企业在全球化产业链中表现出了更强大的增长韧性。而随着跨境模式与消费需求的多样化与精细化。单一渠道的出海布局已经不能满足企业实现品牌出海的转型需求。 DTC独立…

前端工具的选择

目录 前端常见开发者工具 浏览器 开发者工具 VScode开发者工具快捷键 前端常见开发者工具 浏览器 浏览器是我们最重要的合作伙伴 关于浏览器的选择&#xff0c;我目前主要用主要是谷歌浏览器&#xff0c;我个人觉得谷歌浏览器使用起来比较方便、简洁&#xff0c;没有太多…

【TypeScript】tsc -v 报错 —— 在此系统上禁止运行脚本

在 VS Code 终端中执行 tsc -v &#xff0c;报错 —— 在此系统上禁止运行脚本 然后 windows x &#xff0c;打开终端管理员&#xff0c;出现同样的问题 解决方法&#xff1a; 终端&#xff08;管理员&#xff09;执行以下命令&#xff1a; 出现 RemoteSigned 则代表更改成功…

Flask-SQLAlchemy

认识Flask-SQLAlchemy Flask-SQLAlchemy 是一个为 Flask 应用增加 SQLAlchemy 支持的扩展。它致力于简化在 Flask 中 SQLAlchemy 的使用。SQLAlchemy 是目前python中最强大的 ORM框架, 功能全面, 使用简单。 ORM优缺点 优点 有语法提示, 省去自己拼写SQL&#xff0c;保证SQL…

誉天HCIP-Datacom课程简介

HCIP-Datacom课程介绍&#xff1a;HCIP-Datacom分为一个核心技术方向&#xff1a;HCIP-Datacom-Core Technology H12-821 &#xff08;核心技术&#xff09;六个可选子方向&#xff1a;HCIP-Datacom-Advanced Routing & Switching Technology H12-831 &#xff08;高级路…

ubuntu设置共享文件夹成功后却不显示找不到(已解决)

1.首先输下面命令查看是否真的设置成功共享文件夹 vmware-hgfsclient如果确实已经设置过共享文件夹将输出window下共享文件夹名字 2.确认自己已设置共享文件夹后输入下面的命令 //如果之前没有命令包则先执行sudo apt-get install open-vm-tools sudo vmhgfs-fuse .host:/ /mn…

Ubuntu18.04.4裸机配置

下载虚拟机Ubuntu18.04.4 链接&#xff1a;https://pan.baidu.com/s/1jyucyUSXa9-Fw9ctuU87hA 提取码&#xff1a;o42a –来自百度网盘超级会员V5的分享 VMware选择镜像安装 设置你的用户名&#xff0c;就像windows上登录用户一样简单 下一步……下一步……如此简单 下载…

《Effects of Graph Convolutions in Multi-layer Networks》阅读笔记

一.文章概述 本文研究了在XOR-CSBM数据模型的多层网络的第一层以上时&#xff0c;图卷积能力的基本极限&#xff0c;并为它们在数据中信号的不同状态下的性能提供了理论保证。在合成数据和真实世界数据上的实验表明a.卷积的数量是决定网络性能的一个更重要的因素&#xff0c;而…

TiDB数据库从入门到精通系列之一:TiDB数据库的软硬件环境要求和系统配置检查

TiDB数据库从入门到精通系列之一&#xff1a;TiDB数据库的软硬件环境要求和系统配置检查 一、软件和硬件配置要求1.操作系统及平台要求2.服务器建议配置3.网络要求4.磁盘空间要求 二、TiDB 环境与系统配置检查1.在 TiKV 部署目标机器上添加数据盘 EXT4 文件系统挂载参数2.设置 …

ECOLOGY9实现正文文档按发布范围授权查看

需求&#xff1a;E9流程需要流程归档后&#xff0c;正文文档按发布范围授权查看&#xff0c;不需要是流程参与者。 解决&#xff1a;表单中定义发布范围是人力资源条件 在流程基础设置-功能设置中设置启用按人力资源 条件字段赋权。 实现的效果。

司徒理财:8.15黄金美盘多空最新操作建议

黄金一直没能跌破1902的支撑&#xff0c;司徒理财依旧维持低多看涨的思路不变&#xff0c;早盘1905多单继续持有中&#xff0c;静待美盘拉升&#xff01;黄金现在的下跌力度已经衰竭&#xff0c;并且日线上已经跌至200日均线的支撑位置&#xff0c;大周期的均线支撑&#xff0c…

WSL2 ubuntu子系统OpenCV调用本机摄像头的RTSP视频流做开发测试

文章目录 前言一、Ubuntu安装opencv库二、启动 Windows 本机的 RTSP 视频流下载解压 EasyDarwin查看本机摄像头设备开始推流 三、在ubuntu 终端编写代码创建目录及文件创建CMakeLists.txt文件启动 cmake 配置并构建 四、结果展示启动图形界面在图形界面打开终端找到 rtsp_demo运…

阿里云与中国中医科学院合作,推动中医药行业数字化和智能化发展

据相关媒体消息&#xff0c;阿里云与中国中医科学院的合作旨在推动中医药行业的数字化和智能化发展。随着互联网的进步和相关政策的支持&#xff0c;中医药产业受到了国家的高度关注。这次合作将以“互联网 中医药”为载体&#xff0c;致力于推进中医药文化的传承和创新发展。…