机器学习--学习计划

news2025/2/4 19:57:57

3周机器学习速成计划

基于「28原则」,聚焦机器学习20%的核心概念,覆盖80%的常见应用场景。计划分为 理论学习 + 项目实战,每周学习后通过5个递进项目巩固知识。


📅 第1周:数据与监督学习基础

学习目标:掌握数据预处理、线性模型与分类任务的基础流程。
核心概念(20%关键内容):

  1. 数据预处理
    • 缺失值处理(均值填充、删除)
    • 特征缩放(标准化、归一化)
    • 分类变量编码(独热编码、标签编码)
  2. 监督学习基础
    • 线性回归(原理、损失函数、梯度下降)
    • 逻辑回归(分类任务、Sigmoid函数)
  3. 模型评估
    • 训练集/测试集划分
    • 准确率、均方误差(MSE)

学习资源

  • 工具库:pandas(数据处理)、scikit-learn(模型训练)
  • 理论补充:Google机器学习速成课程

🚀 第1周项目(难度递增)

  1. 房价预测(线性回归)

    • 目标:使用波士顿房价数据集,预测房屋价格。
    • 强化概念:数据清洗、特征缩放、线性回归实现。
    • 数据集sklearn.datasets.load_boston()
  2. 鸢尾花分类(逻辑回归)

    • 目标:根据花瓣/花萼尺寸分类鸢尾花品种。
    • 强化概念:分类任务、独热编码、混淆矩阵。
    • 数据集sklearn.datasets.load_iris()
  3. 糖尿病预测(特征工程)

    • 目标:处理缺失值,预测患者是否患糖尿病。
    • 强化概念:缺失值处理、特征相关性分析。
    • 数据集:Pima Indians Diabetes Dataset(Kaggle)
  4. 手写数字识别(多分类)

    • 目标:识别MNIST数据集中的手写数字(0-9)。
    • 强化概念:多分类逻辑回归、One-vs-All策略。
    • 数据集sklearn.datasets.load_digits()
  5. 新闻分类(文本特征提取)

    • 目标:将新闻文本分类为体育、科技等类别。
    • 强化概念:TF-IDF向量化、稀疏矩阵处理。
    • 数据集sklearn.datasets.fetch_20newsgroups()

📅 第2周:模型进阶与评估优化

学习目标:掌握树模型、模型调参与交叉验证,避免过拟合。
核心概念

  1. 决策树与集成学习
    • 决策树分裂准则(基尼系数、信息增益)
    • 随机森林、梯度提升树(GBDT)
  2. 模型优化
    • 超参数调优(网格搜索、随机搜索)
    • 交叉验证(K-Fold)
  3. 过拟合与正则化
    • L1/L2正则化(线性模型)
    • 树模型的剪枝策略

学习资源

  • 工具库:scikit-learn(随机森林、GridSearchCV)
  • 理论动画:StatQuest决策树视频

🚀 第2周项目(难度递增)

  1. 泰坦尼克生存预测(决策树)

    • 目标:预测乘客是否幸存,处理混合型特征(数值+分类)。
    • 强化概念:决策树可视化、特征重要性分析。
    • 数据集:Titanic Dataset(Kaggle)
  2. 信用卡欺诈检测(类别不平衡)

    • 目标:检测欺诈交易,使用过采样(SMOTE)或欠采样。
    • 强化概念:精确率/召回率权衡、ROC曲线。
    • 数据集:Credit Card Fraud Detection(Kaggle)
  3. 房价预测优化(随机森林)

    • 目标:对比线性回归与随机森林性能,优化超参数。
    • 强化概念:网格搜索(GridSearchCV)、MSE对比。
  4. 用户流失预测(梯度提升树)

    • 目标:预测用户是否会流失,使用XGBoost或LightGBM。
    • 强化概念:Boosting原理、早停法(Early Stopping)。
    • 数据集:Telco Customer Churn(Kaggle)
  5. 模型部署实战(Flask API)

    • 目标:将训练好的模型封装为API,实现实时预测。
    • 强化概念:模型序列化(Pickle)、RESTful API设计。

📅 第3周:无监督学习与神经网络入门

学习目标:理解聚类、降维与神经网络基础。
核心概念

  1. 无监督学习
    • K-Means聚类(肘部法确定K值)
    • PCA降维(主成分分析)
  2. 神经网络基础
    • 感知机、全连接网络
    • 激活函数(ReLU、Sigmoid)
  3. 深度学习工具
    • TensorFlow/Keras基础语法
    • 图像分类实战(CNN入门)

学习资源

  • 工具库:scikit-learn(K-Means)、TensorFlow
  • 交互式学习:TensorFlow Playground

🚀 第3周项目(难度递增)

  1. 客户分群(K-Means)

    • 目标:对电商用户进行分群,制定个性化营销策略。
    • 强化概念:聚类评估(轮廓系数)、特征标准化。
    • 数据集:Mall Customer Segmentation(Kaggle)
  2. 新闻主题挖掘(PCA降维)

    • 目标:对新闻文本降维后可视化,发现潜在主题。
    • 强化概念:PCA原理、二维/三维投影。
  3. 手写数字识别(全连接网络)

    • 目标:用Keras构建神经网络,替代逻辑回归模型。
    • 强化概念:损失函数(交叉熵)、优化器(Adam)。
  4. 猫狗分类(CNN入门)

    • 目标:使用预训练的CNN模型(如VGG16)进行图像分类。
    • 强化概念:迁移学习、数据增强(ImageDataGenerator)。
    • 数据集:Dogs vs. Cats(Kaggle)
  5. 异常检测(自编码器)

    • 目标:检测信用卡数据中的异常样本。
    • 强化概念:自编码器原理、重构误差阈值。

💡 学习建议

  1. 每日代码:哪怕只写20分钟代码,保持手感。
  2. 先跑通再优化:项目初期直接使用示例代码,理解后再修改。
  3. 善用文档:遇到问题优先查阅scikit-learnTensorFlow官方文档。
  4. 加入社区:在Kaggle讨论区或Reddit的r/MachineLearning提问。

通过此计划,你将在3周内掌握机器学习的核心工作流,并具备独立解决实际问题的能力。最终目标不是记住所有算法,而是理解“数据-模型-评估”的闭环思维

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2291951.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【深度分析】DeepSeek大模型技术解析:从架构到应用的全面探索

深度与创新:AI领域的革新者 DeepSeek,这个由幻方量化创立的人工智能公司推出的一系列AI模型,不仅在技术架构上展现出了前所未有的突破,更在应用领域中开启了无限可能的大门。从其混合专家架构(MoE)到多头潜…

python学opencv|读取图像(五十五)使用cv2.medianBlur()函数实现图像像素中值滤波处理

【1】引言 在前述学习过程中,已经探索了取平均值的形式进行图像滤波处理。 均值滤波的具体的执行对象是一个nXn的像素核,对这个像素核内所有像素点的BGR值取平均值,然后把这个平均的BGR值直接赋给像素核中心位置的核心像素点,由…

OpenAI 再战机器人领域,重组机器人团队

OpenAI重组机器人团队?大家是不是和小编一样,听到这个消息后,脑子里瞬间浮现出科幻电影里机器人满街跑的场景?今天咱们就来看看背后的故事吧~ 作为人工智能领域的领头羊,OpenAI一直以来都在探索和扩展AI技术的深度和广…

Turing Complete-1位开关

要求如下: 我的思考: 把输入1当作控制信号,把输入2当作输出信号。 通过非门和开关使输入2形成双通道输出, 通道一为输出输入2取反。 通道二为输出输入2本身。 通过输入1来控制两个通道的开闭。

树莓派pico入坑笔记,睡眠

关于树莓派pico和circuitpython的更多玩法,请看树莓派pico专栏 关于在 CircuitPython 中使用警报和浅/深度睡眠的更多信息,请参阅此学习指南。 树莓派pico支持浅睡眠和深度睡眠,其中深度睡眠唤醒后将从boot.py开始运行 支持按时间唤醒和引…

数据库 - Sqlserver - SQLEXPRESS、由Windows认证改为SQL Server Express认证进行连接 (sa登录)

本文讲SqlServer Express版本在登录的时候, 如何由Windows认证,修改为Sql Server Express认证。 目录 1,SqlServer Express的Windows认证 2,修改为混合认证 3,启用sa 用户 4,用sa 用户登录 下面是详细…

中间件漏洞之CVE-2024-53677

目录 什么是struts?CVE-2024-53677简介影响版本复现环境搭建漏洞利用修复 什么是struts? 在早期的 Java Web 开发中,代码往往混乱不堪,难以维护和扩展。比如,一个简单的用户登录功能,可能在不同的 Java 类…

Python玄学

过年期间无聊的看了看DY直播,也是迷上玄学了。突然想着为啥要自己掐指算,我这🐷脑哪记得到那么多东西啊。然后,就捣鼓捣鼓了一些玩意儿。留个纪念。 注:就是一个玄学推动学习,部分内容不必当真,…

16.1.STM32F407ZGT6-CAN基础概念

参考: https://blog.csdn.net/sunlight_vip/article/details/128639144 前言: 学习总结CAN的知识点: 1.can是什么,历史由来和背景 2.can的物理层,链路层 3.初始化的流程和关键点 4.波特率怎么设置 5.can id怎么过滤 6…

【论文笔记】Fast3R:前向并行muti-view重建方法

众所周知,DUSt3R只适合做稀疏视角重建,与sapnn3r的目的类似,这篇文章以并行的方法,扩展了DUSt3R在多视图重建中的能力。 abstract 多视角三维重建仍然是计算机视觉领域的核心挑战,尤其是在需要跨不同视角实现精确且可…

使用VCS对Verilog/System Verilog进行单步调试的步骤

Verilog单步调试: System Verilog进行单步调试的步骤如下: 1. 编译设计 使用-debug_all或-debug_pp选项编译设计,生成调试信息。 我的4个文件: 1.led.v module led(input clk,input rst_n,output reg led );reg [7:0] cnt;alwa…

[ESP32:Vscode+PlatformIO]新建工程 常用配置与设置

2025-1-29 一、新建工程 选择一个要创建工程文件夹的地方,在空白处鼠标右键选择通过Code打开 打开Vscode,点击platformIO图标,选择PIO Home下的open,最后点击new project 按照下图进行设置 第一个是工程文件夹的名称 第二个是…

如何使用 DeepSeek API 结合 VSCode 提升开发效率

引言 在当今的软件开发领域,API 的使用已经成为不可或缺的一部分。DeepSeek 是一个强大的 API 平台,提供了丰富的功能和数据,可以帮助开发者快速构建和优化应用程序。而 Visual Studio Code(VSCode)作为一款轻量级但功…

Flutter使用Flavor实现切换环境和多渠道打包

在Android开发中通常我们使用flavor进行多渠道打包,flutter开发中同样有这种方式,不过需要在原生中配置 具体方案其实flutter官网个了相关示例(https://docs.flutter.dev/deployment/flavors),我这里记录一下自己的操作 Android …

OpenAI 实战进阶教程 - 第四节: 结合 Web 服务:构建 Flask API 网关

目标 学习将 OpenAI 接入 Web 应用,构建交互式 API 网关理解 Flask 框架的基本用法实现 GPT 模型的 API 集成并返回结果 内容与实操 一、环境准备 安装必要依赖: 打开终端或命令行,执行以下命令安装 Flask 和 OpenAI SDK: pip i…

Hot100之堆

我们的PriorityQueue默认为最小堆,堆顶总是为最小 215数组中的第K个最大元素 题目 思路解析 暴力解法(不符合时间复杂度) 题目要求我们找到「数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素」。「数组排序后的第 k …

KNIME:开源 AI 数据科学

KNIME(Konstanz Information Miner)是一款开源且功能强大的数据科学平台,由德国康斯坦茨大学的软件工程师团队开发,自2004年推出以来,广泛应用于数据分析、数据挖掘、机器学习和可视化等领域。以下是对KNIME的深度介绍…

Office / WPS 公式、Mathtype 公式输入花体字、空心字

注:引文主要看注意事项。 1、Office / WPS 公式中字体转换 花体字 字体选择 “Eulid Math One” 空心字 字体选择 “Eulid Math Two” 2、Mathtype 公式输入花体字、空心字 2.1 直接输入 花体字 在 mathtype 中直接输入 \mathcal{L} L \Large \mathcal{L} L…

建表注意事项(2):表约束,主键自增,序列[oracle]

没有明确写明数据库时,默认基于oracle 约束的分类 用于确保数据的完整性和一致性。约束可以分为 表级约束 和 列级约束,区别在于定义的位置和作用范围 复合主键约束: 主键约束中有2个或以上的字段 复合主键的列顺序会影响索引的使用,需谨慎设计 添加…

Ubuntu20.04 磁盘空间扩展教程

Ubuntu20.04 磁盘空间扩展教程_ubuntu20 gpart扩容-CSDN博客文章浏览阅读2w次,点赞38次,收藏119次。执行命令查看系统容量相关的数据:df -h当前容量为20G,已用18G(96%),可用844M,可用…