如何系统学习机器学习?

news2024/12/23 14:42:31

我不是计算机专业,第一次接触机器学习还是在研一的时候,当时是看到机器学习可以做号码识别,就觉得好厉害,想学这个。

首次了解到Python这门语言,知道了机器学习可以做什么后,就感觉打开了新世界一样。再后来也就开始学习Python、学习机器学习。

到现在也积累了一些经验,总结了一下分享给大家作学习参考。

机器学习基础信息

概念

我们人在面对一个新的问题的时候,会想到用我们已有经验总结出来对的规律解决这个问题。而机器学习要做的事情也差不多,在面对一个新问题的时候,机器从已有的历史数据总结出一个规律,套用在新问题上,进而解决这个问题。

机器学习和人学习的过程用下面这个图片表达:img

机器学习定义:“A computer program is said to learn from experience E with respect to some class of tasksT and performance measureP if its performance at tasks inT, as measured by P, improves with experience E ”

翻译过来是:“一个电脑程序要完成任务(T),如果电脑获取的关于T的经验(E)越多就表现(P)得越好,那么我们就可以说这个程序‘学习’了关于T的经验。”

简单理解为是机器学习从历史数据中提取规律(特征),总结训练出模型,并对新数据做出预测

机器学习与人工智能、深度学习的关系

三者之间的关系是逐层递减的,可以用下面这个图片来理解:

img

机器学习应用方向

机器学习的应用面很广,在我们的生活中已经有很多方面都有相关的应用。比如:**聊天机器人、人脸识别、垃圾邮箱拦截、语言翻译、计算机视觉、自然语言处理、数据挖掘**等方面。

除了这些应用,还有现在出现的各种大模型也多是基于机器学习框架生成的。例如现在火遍全球的大模型,OpenAI表示大模型使用了一种名为“利用人类反馈强化学习”(RLHF)的机器学习技术进行训练的。

大模型作为当前全球热门技术,会给我们的生活带什么样的影响?想要在这波红利中给自己带来更多收益,要学习哪些技能?推荐大家看看在线推出的**【程序员的AI大模型进阶之旅】公开课**,行业大佬带你了解最新技术,提升自己认知。这些公开课还推出两大福利:AI 大模型资料包;无需翻墙的好用AI工具名称和网址,帮助你快人一步。微信扫描下方二维码即可免费领取:

在这里插入图片描述

机器学习学习内容

机器学习三要素

三要素即为数据、模型、算法。三者贯穿机器学习整个过程,缺一不可。

机器学习是由数据驱动的,这些数据都是收集到的客观可量化数据;模型则是机器学习中采用什么样的模型或者说方法进行预测和拟合;算法可以理解为一个优化的过程,最终确定最优模型。

机器学习分类

机器学习可以分为监督学习、无监督学习、强化学习。

监督学习

通过有数据标签的数据进行训练,一般可以有回归和分类两类方式。
监督学习的算法主要有:线性回归、逻辑回归、支持向量机、决策树、随机森林、K-近邻、朴素贝叶斯、AdaBoost、梯度提升树、神经网络。
无监督学习

没有数据标签对的数据进行训练,这类方法的目标是找到数据集底层联系,有聚类和关联两类。
无监督学习的算法主要有:K-均值聚类、层次聚类、DBSCAN、主成分分析、独立成分分析、t-SNE。

强化学习

强化学习通过智能体与环境的交互和反馈,学习到最优的策略来最优化奖励。

强化学习的算法主要有:Q-学习、SARSA、深度Q网络、策略梯度方法、Actor-Critic 方法、Proximal Policy Optimization。

机器学习流程

在这里插入图片描述

1.收集数据

2.数据预处理:主要包括缺失值处理、异常值处理、重复值处理等。

3.训练模型:对经过预处理后的数据进行模型训练,结合自己的目的(分类、回归、聚类等)选择合适的训练方式。

4.模型评估:通过训练好的模型对数据测试集进行测试,通过评估指标来评价训练模型的好坏,一般评估指标有准确率、查准率、查全率、均方根误差、ROC 和 AUC等。

5.优化:这个也可以叫做调参过程,通过找到最好的参数可以让模型的性能提高一大截,有传统的手工调参、网格搜索、随机搜索、贝叶斯搜索等方法。

6.预测:最后一步,这是对新数据或新样本的推断或预测。

机器学习需要那些知识

学好机器学习需要有一定的数学基础和计算机编程基础。总结一下,学机器学习需要下面这几方面知识:

数学基础:机器学习中很多方面都设计到了数学知识,较好的数学知识可以在理解和应用机器学习中发挥积极的作用,一般包括线性代数、微积分、概率论和统计学等。

编程基础:这个是肯定的了,只有一定的编程基础,才能看得懂、用得了、写得好算法。现在常说的是Python,此外C++或java也可以。

了解数据结合和算法:算法涉及到了很多数据结构,如图、树、排序等,掌握这些数据结构和算法很重要。

基础机器学习算法知识:前文也说了机器学习中有很多算法,因此也需要掌握一些基础算法,例如支持向量机、神经网络、决策树、逻辑回归等。

此外还有一些知识也需要注意,比如**特征提取、模型评估及调优**等。

优质资源推荐

这儿我总结了很多优质资源,都是大家在学习机器学习的时候最常用的、效果最好的内容。

书籍

《机器学习》
在这里插入图片描述

又叫西瓜书,作者:周志华。这本书可以作为机器学习的入门读物。基本上涵盖了机器学习基础知识的方方面面。每章都附有习题并介绍了相关阅读材料,以便有兴趣的读者进一步钻研探索。

《统计学习方法》

在这里插入图片描述

作者:李航。这本书也是机器学习的入门级读物,本书机器学习原理的解释、公式的推导非常非常详尽。全面系统地介绍了统计学习的主要方法,现在有第二版,分为监督学习和无监督学习两个部分。

《机器学习实战》

在这里插入图片描述

作者:Peter Harrington。在看完前面两本书后,再跟着本书里的代码进行学习和实操,效果会更好。书中也精心编排了很多实例,从实例入手,更能帮助大家理解机器学习中的各种名词。

其他资源

吴恩达 deeplearning.ai
在这里插入图片描述

林轩田 机器学习基石
吴恩达机器学习课程是很多人的入门机器学习的第一堂课。,之前的课程时间有点久了,可以看看2022年出的新版。

在这里插入图片描述

这个也是很多同学在学校的时候经常看到基础入门课。

李宏毅 机器学习课程

在这里插入图片描述

大多数同学反应,李宏毅讲的课程相对于吴恩达更能接受一些。

各Python库的官方文档

TensorFlow:https://www.tensorflow.org/tutorials/

pytorch:Welcome to PyTorch Tutorials — PyTorch Tutorials 2.0.1+cu117 documentation

scikit-learn:https://scikit-learn.org/stable/index.html

numpy:https://numpy.org/

pandas:http://pandas.pydata.org/pandas-docs/stable/

matplotlib:https://matplotlib.org/stable/tutorials/index.html

以上就是本次的分享,最后提醒大家一下,想要学好机器学习最重要的还是要实践。通过遇见问题、发现问题、解决问题不断地提高自己的能力。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1859794.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据质量管理-准确性管理

前情提要 根据GB/T 36344-2018《信息技术 数据质量评价指标》的标准文档,当前数据质量评价指标框架中包含6评价指标,在实际的数据治理过程中,存在一个关联性指标。7个指标中存在4个定性指标,3个定量指标; 定性指标&am…

IT入门知识第六部分《后端开发》(6/10)

目录 后端开发:构建强大的服务端逻辑 1.引言 2.后端技术概述 2.1 数据库 2.2 服务器 2.3 API 2.4 安全性 3.服务器和API 3.1 服务器的作用 3.2 API的作用 4.后端框架 4.1 Node.js 4.1.1 特点 4.1.2 用途 4.1.3 代码案例分析 4.2 Django 4.2.1 特点 …

《Redis设计与实现》阅读总结-1

第 2 章 简单动态字符串(SDS) 1. Redis使用自己构建一种名为简单动态字符串(simple dynamic string ,SDS)的抽象类型,作为Redis的默认字符串。 2. SDS的结构: free属性:表示这个SDS没有分配任何…

【SQL Server数据库】熟悉DBMS的基本操作及数据库的创建

目录 一、SQL SERVER基本操作 二、用Management Studio创建数据库 1、使用Management Studio创建数据库bookdb,各项参数采用默认设置。 2、使用Management Studio创建数据库EDUC 3. 在EDUC中创建三个表,根据下面要求创建Student,Course&am…

C语言 | Leetcode C语言题解之第190题颠倒二进制位

题目: 题解: const uint32_t M1 0x55555555; // 01010101010101010101010101010101 const uint32_t M2 0x33333333; // 00110011001100110011001100110011 const uint32_t M4 0x0f0f0f0f; // 00001111000011110000111100001111 const uint32_t M8…

django学习入门系列之第三点《小米商城头标总结》

文章目录 总结往期回顾 总结 body标签,默认有一个边框,造成页面四边都有白色的间距,那该如何去除呢? body{margin: 0; }文本居中 文本水平居中,文本会在这个区域中居中text-align作为HTML元素属性其主要是用来文本水平居中的。 &…

一键模板生成视频解决方案,海量模板,满足多样需求

视频已经成为企业营销、宣传、培训的重要手段,高昂的制作成本、复杂的技术门槛以及繁琐的制作流程,往往让许多企业望而却步。美摄科技凭借其深厚的技术积累和创新能力,推出了面向企业的智能一键模板生成视频解决方案,为企业视频制…

电梯开关状态人员进出检测数据集VOC+YOLO格式2220张4类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):2220 标注数量(xml文件个数):2220 标注数量(txt文件个数):2220 标注…

50KW-2500KW水冷式负载组概述

对于需要“针落”安静操作的环境,EAK 负载组为传统风冷装置提供了极具吸引力的替代方案。 该系列负载组是水冷的,允许在受控环境中进行室内安装,而不是在室外安装,因为室外设备暴露在元素中。除了完全相当之外,还非常紧…

Github2024-06-25 Python开源项目日报 Top10

根据Github Trendings的统计,今日(2024-06-25统计)共有10个项目上榜。根据开发语言中项目的数量,汇总情况如下: 开发语言项目数量Python项目10TypeScript项目1系统设计指南 创建周期:2507 天开发语言:Python协议类型:OtherStar数量:241693 个Fork数量:42010 次关注人数…

图解布隆过滤器(Bloom Filter)

布隆过滤器详解 布隆过滤器(Bloom Filter)是一种空间效率非常高的随机数据结构,由布隆(Burton Howard Bloom)在1970年提出,用于检验一个元素是否属于一个集合。 具体来说,它可能会错误地认为一个…

2024CICE电博会·以“链主”企业为核心,推动产业链协同发展

随着全球科技日新月异的发展,消费电子产业已成为推动经济增长、改善人民生活的重要力量。中国国际消费电子博览会(简称CICE电博会)自2001年创办以来,已经走过了二十余个春秋,凭借其独特的地理位置优势、专业的组织策划…

MYSQL九、MYSQL的视图的认识

视图 视图(View)是一种虚拟存在的表。视图中的数据并不在数据库中实际存在。行和列数据来自定义视图的查询中使用的表,并且是在使用视图时动态生成的。 视图只保存了查询的SQL逻辑,不保存查询结果。在创建视图的时候,…

Delphi-2M:基于病史预测未来健康的改进GPT架构

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

一份日本 AWS Summit 的前线快报

5月底刚参加完 AWS 中国 Summit「这次的上海 AWS Summit 好玩的有点过分」,后来网翻官不经意间看到 6 月 AWS 还会在日本举办一场 Summit。正好最近公司也签下了几个日本客户,眼看着 5 年签证也即将到期,于是心一横,决定东渡扶桑。…

快速上手 Spring Boot:基础使用详解

快速上手 Spring Boot:基础使用详解 文章目录 快速上手 Spring Boot:基础使用详解1、什么是SpringBoot2、Springboot快速入门搭建3、SpringBoot起步依赖4、SpringBoot自动配置:以tomcat启动为例5、SpringBoot基础配置6、yaml7、多环境开发配置…

移动硬盘恢复数据要多久 4T移动硬盘数据恢复一般多少钱

在日常工作中,移动硬盘是非常实用的一种数据文件存储设备,在大数据存储上是有极强的优势的,不过移动硬盘有时候也会出现数据丢失的情况。接下来给大家详细讲解,移动硬盘恢复数据要多久,以及4T移动硬盘数据恢复一般多少…

当你在浏览器输入一个地址

你在浏览器中输出了一个地址,回车后,一直到显示页面,中间经历了哪些过程 ? 1. 用户输入 URL 并按下回车 用户在浏览器的地址栏中输入一个 URL(例如 http://example.com)并按下回车键。 2. DNS 解析 浏览…

【机器学习】自然语言处理(NLP)领域革命性突破的模型——Transformer

目录 引言 自注意力机制介绍 生成Query、Key和Value向量 模型结构与实现 在自然语言处理中的应用 个人主页:东洛的克莱斯韦克-CSDN博客 👀引言 👀在自然语言处理领域,传统的循环神经网络和长短时记忆网络虽然取得了一定的成…

linux 登录ftp报Received message too long 1416128883

在linux 登录ftp报Received message too long 1416128883 [rootlocalhost ~]# sftp oaftp172.20.xx.xx解决办法: [rootlocalhost ~]# usermod -s /bin/bash oaftp[rootlocalhost ~]# systemctl restart vsftpd.service[rootlocalhost ~]# sftp oaftp172.20.xx.xx完…