机器学习是近年来非常热门的一个学科,R 语言经过一段时间的发展也逐渐成为主流的编程语言之一。
机器学习是人工智能的一个分支,旨在通过构建和训练计算机算法和模型,使计算机能够 从数据中学习并自主进行决策和预测。传统的计算机程序是由开发者编写特定的规则和指令以 实现特定的任务。然而,机器学习不同,它依赖数据驱动的学习过程。机器学习算法会分析大 量的输入数据,并根据这些数据的模式、趋势和统计特征来提取信息并进行预测。机器学习在 许多领域都有广泛的应用,例如, 自然语言处理、图像和语音识别、推荐系统、金融预测、医 疗诊断等。它为处理大规模和复杂的数据提供了一种强大的工具和方法,使计算机能够自动从 数据中学习和改进,从而实现更准确的预测和决策。
如何学习用R语言进行机器学习?那就来学习这本书吧!
机器学习全解(R语言版)
本书给出了各种机器学习方法在R语言中的实现方式,所使用的框架包括但不限于 caret、tidymodels、mlr、mlr3,并在案例分析中向读者演示了如何利用这些工具完成指定的机器学习任务。
全书共 16 章内容,提供了丰富的案例和操作演示,力求帮助读者了解机器学习场景中常用 的 R 语言工具和建模技巧,让读者在机器学习项目中能够有条不紊地开展分析,进而高效完成 统计建模过程,让获得的结果能够有效地应用在科学研究和实际工作中。
在阅读本书时,读者还可以借助随书提供的配套案例数据和相关代码,跟随书中的提示, 逐步进行实践操作。读者将在相关案例的学习中,进一步巩固机器学习的相关知识,掌握 R 语 言在机器学习领域的实践应用能力。
本书涵盖以下主要内容。
第 1 章介绍机器学习的一些基本知识,包括概念、意义、种类和基本流程。
第 2 章介绍 R 语言综合基础,首先讲述了如何对 R 语言的软件环境进行配置,随后分别讲 解了编程保留符号、基本数据类型、常用数据结构、程序流程控制和函数使用技巧,以帮助读 者熟练掌握 R 语言的操作环境。
第 3 章介绍高效数据操作,主要聚焦在如何使用 R 语言的一些工具来完成包括排序、汇总、 分组计算在内的常用数据操作。
第 4 章介绍广泛流行的 R 语言数据科学工具集 tidyverse,从数据的读取、整理和可视化 3 个方面介绍了工具集中的各种程序包,包括 readr、purrr、forcats、lubridate、stringr、dplyr、tidyr、 ggplot2 等。
第 5 章介绍探索性数据分析中的基本内容,并给出了 R 语言的实现方法,同时还介绍了一 系列探索性数据分析工具包,包括 vtree 、skimr 和 naniar。
第 6 章介绍特征工程的基本概念,从特征修饰、特征构造和特征筛选 3 个方面展开讲解, 并给出了 R 语言中的实现方法。
第 7 章介绍重采样方法,分别针对模型评估和类失衡两种情况进行探讨,阐明了为何要使 用重采样方法,以及如何使用不同的重采样方法(如交叉验证、自举法)来实现目的。
第 8 章介绍模型表现的衡量,分别基于回归模型和分类模型,列举了一般用哪些指标来对 模型的效果进行衡量。
第 9 章介绍模型选择,首先对当前流行的机器学习算法进行了简要的介绍,然后介绍了在 R 环境中如何使用 mlr3 工具包来对其进行实现,并给出了一个实践案例进行演示。
第 10 章介绍参数调节,即在机器学习过程中如何选择最合适的超参数组合来提高模型表现, 本章结合 mlr3 框架介绍了如何在 R 环境中使用不同的参数调节策略。
第 11 章介绍模型分析,旨在提高模型的可解释性,分别讲述了变量重要性评估、变量影响 作用分析和基于个案的可加性归因方法。
第 12 章介绍了集成学习,首先对集成学习的 3 种常见策略(Bagging、Boosting 和 Stacking) 进行了介绍,然后利用 caret 和 caretEnsemble 框架演示了如何在 R 语言中对集成学习进行实现。
第 13~16 章为实践案例章节,分别依托 caret 、mlr 、mlr3 和 tidymodels 这 4 个 R 语言中较 为流行的机器学习工具包,按部就班地完成各项机器学习任务,旨在让读者将前面章节所学的 知识融会贯通,提高实践应用能力。
目标读者
本书内容深入浅出,可供对机器学习感兴趣的读者自学,有助于其快速了解机器学习的基 础知识,并使用 R 语言系统化地完成一系列机器学习任务。此外,本书结合机器学习主题展示 了 R 语言的丰富特性和强大魅力,适合对 R 语言感兴趣的读者学习参考。
详细目录