如何使用 Python 进行机器学习?

news2024/10/6 20:38:58

全套学习路线图、课程,机器学习工作流程如下。

Python+人工智能

  • 入门: Python基础→Python数据挖掘
  • 中级: 机器学习
  • 进阶: NLP自然语言
  • 高级: OpenCV基础→深度学习

人工智能学习路线图2023版-黑马程序员人工智能技术路线

学习目标

  • 了解机器学习的定义
  • 知道机器学习的工作流程
  • 掌握获取到的数据集的特性

一、什么是机器学习

机器学习是从数据自动分析获得模型,并利用模型对未知数据进行预测。

二、机器学习工作流程

  • 机器学习工作流程总结
    • 1.获取数据
    • 2.数据基本处理
    • 3.特征工程
    • 4.机器学习(模型训练)
    • 5.模型评估
      • 结果达到要求,上线服务
      • 没有达到要求,重新上面步骤

2.1 获取到的数据集介绍

数据简介


  • 在数据集中一般:
    • 一行数据我们称为一个样本
    • 一列数据我们成为一个特征
    • 有些数据有目标值(标签值),有些数据没有目标值(如上表中,电影类型就是这个数据集的目标值)
  • 数据类型构成:
    • 数据类型一:特征值+目标值(目标值是连续的和离散的)
    • 数据类型二:只有特征值,没有目标值
    • 数据分割
      • 机器学习一般的数据集会划分为两个部分:
        • 训练数据:用于训练,构建模型
        • 测试数据:在模型检验时使用,用于评估模型是否有效
      • 划分比例:
        • 训练集:70% 80% 75%
        • 测试集:30% 20% 25%

2.2 数据基本处理

​ 即对数据进行缺失值、去除异常值等处理

2.3 特征工程

2.3.1什么是特征工程

特征工程是使用专业背景知识和技巧处理数据使得特征能在机器学习算法上发挥更好的作用的过程

  • 意义:会直接影响机器学习的效果

2.3.2 为什么需要特征工程(Feature Engineering)

机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”
注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

2.3.3 特征工程包含内容

  • 特征提取
  • 特征预处理
  • 特征降维

2.3.4 各概念具体解释

  • 特征提取
    • 将任意数据(如文本或图像)转换为可用于机器学习的数字特征

  • 特征预处理
    • 通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程

  • 特征降维
    • 指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程

2.4 机器学习

选择合适的算法对模型进行训练(具体内容见1.5)

2.5 模型评估

对训练好的模型进行评估(具体内容见1.6)

三、小结

  • 机器学习定义【掌握】
    • 机器学习是从数据自动分析获得模型,并利用模型对未知数据进行预测
  • 机器学习工作流程总结【掌握】
    • 1.获取数据
    • 2.数据基本处理
    • 3.特征工程
    • 4.机器学习(模型训练)
    • 5.模型评估
      • 结果达到要求,上线服务
      • 没有达到要求,重新上面步骤
  • 获取到的数据集介绍【掌握】
    • 数据集中一行数据一般称为一个样本,一列数据一般称为一个特征。
    • 数据集的构成:
      • 由特征值+目标值(部分数据集没有)构成
    • 为了模型的训练和测试,把数据集分为:
      • 训练数据(70%-80%)和测试数据(20%-30%)
  • 特征工程包含内容【了解】
    • 特征提取
    • 特征预处理
    • 特征降维

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/589076.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Facebook广告投放怎么使用?Facebook广告投放的教程

做跨境电商的,多多少少都离不开广告投放,Facebook广告投放更是很多人的首选,所以东哥今天就来分享一个Facebook广告投放的教程,看完不信你还不会Facebook广告投放! Facebook广告投放的教程 1、用科学上网的方式注册一个…

2023 华为 Datacom-HCIE 真题题库 10--含解析

单项选择题 1.[试题编号:190585] (单选题)华为SD-WAN解决方案中,当CPE位 于NAT设备后的私网时,特别是两个站点的CPE同时位于NAT设备后的私网时,CPE之 间需要使用NAT穿越技术。华为SD-WAN解决方案中使用以下…

vulnhub dc-8

1.信息搜集 端口 22,80,31337 存活ip 192.168.85.136 2.访问网站,进行信息搜集 在欢迎页面发现sql注入 sqlmap进行跑数据 python sqlmap.py -u "http://192.168.85.136/?nid1" --batch -D d7db -T users -C name,pass --dump尝试robots.txt,发现后他登…

保姆级讲解,让ChatGPT成为机器人的智慧大脑

文 / 高扬(微信公众号:量子论) ChatGPT是生成式人工智能,如果能接入机器人,可以让机器人更加智能。 我手上没有硬件,但我们可以模拟尝试机器人的制作逻辑,这个设计分成两部分:硬件、…

大数据分析平台:即需即用,告别“等一下”

数据分散在不同的业务系统中,整合清洗后才能用于数据分析,且由于IT不如业务那般清楚分析逻辑、需求等,很难及时响应新的分析需求,导致每次要数据、要报表时得到的回答都是“等一下”。那怎么办?那就用大数据分析平台&a…

【Linux】Firewalld防火墙

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一、Firewalld概述二、Firewalld和iptables的关系三、Firewalld网络区域1.firewalld检查数据包的源地址的规则2.Firewalld防火墙预定义了9个区城 四、firewalld防火…

jvm之分析调优

写在前面 jvm调优不管是工作中还是面试中都异常重要,是衡量一个开发人员技术水平的重要指标,这也是个人的一个弱项,希望通过本文能够提高自我,也更能帮助到正在阅读文章的你,我们就开始吧! 1:…

Nginx 安装及部署项目

1. 下载nginx安装包 首先从官网下载 nginx,大家可以自己在百度搜索 nginx,进入官 网,或者在浏览中直接输入 nginx 的官方网址: http://nginx.org/ ,在此我直接提供 nginx 的下载链接,大家点进去之后可以按照 自己的需求下载自己所…

Flutter 笔记 | Flutter 核心原理(三)布局(Layout )过程

布局过程 Layout(布局)过程主要是确定每一个组件的布局信息(大小和位置),Flutter 的布局过程如下: 父节点向子节点传递约束(constraints)信息,限制子节点的最大和最小宽…

Vue项目iconfont新增svg图标

最近接手一个开发一半的Vue3的后台管理项目,由于样式需要,需要新增一些svg图标,项目使用的是iconfont接下来我会通过几个步骤在原来iconfont基础上去新增一些自己的图标; 一、iconfont文件转换为svg源文件; 通过访问ic…

电子商务客户消费购物预测模型-基于数千万真实在线零售数据__企业调研_论文科研_毕业设计(智慧营销_精准营销_机器学习_人工智能)

之前发过 《谁主沉浮?银行,消金,互联网公司的精准营销_智慧营销完全解读》介绍了智慧营销/精准营销目的是降低运营成本。但精准营销可以带来很多额外收益,例如提高销售利润,提高客户忠诚度,降低客户流失率&…

Ribbon入门使用 RestTemplate loadbance 负载均衡

一、概念 1. Ribbon Ribbon是实现一套客户端,负载均衡的工具,简单的说,ribbon是一个开源项目,主要提供给客户端软件负载均衡算法和服务调用。 负载均衡和服务调用的提供者 主要用于: 负载均衡 将用户的请求平均到分配多个微服务…

华为OD机试之二元组个数(Java源码)

二元组个数 题目描述 给定两个数组a,b,若a[i] b[j] 则称 [i, j] 为一个**二元组**,求在给定的两个数组中,二元组的个数。 输入描述 第一行输入 m 第二行输入m个数,表示第一个数组 第三行输入 n 第四行输入n个数&…

linux 安装、卸载docker(一)

安装流程 # 1.设置镜像仓库 yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo# 2.安装、更新yum软件包索引 // 安装yum,docker需要的安装包 yum install -y yum-utils // 更新yum软件包索引 yum makecache fast# …

pmp新手报名需要的步骤

球很多大中型企业,如华为、腾讯、字节、联想等,招聘项目管理相关人员时,都会把持有PMP证书当作必选或优选的招聘条件。 那么PMP的报考条件是什么呢?以下是PMI官网发布的PMP考试报考条件: 一、报名考生必须具备35小时…

不到一分钟,即刻拥有这 22 款插件主题

开源 API 管理工具 Postcat 的插件广场最近上新了插件主题,看了看,真的有几款我很喜欢。可能会有朋友有跟我一样的疑问,如何拥有这些好玩的插件主题。 第一步当然是找到 Postcat ,安装 Postcat ! 找到插件广场 浏览并选择喜欢的主…

云原生之部署Docker轻量级管理面板EasyDockerWeb

云原生之部署Docker轻量级管理面板EasyDockerWeb 一、EasyDockerWeb介绍1. EasyDockerWeb简介2. 环境要求3. EasyDockerWeb特点 二、本地环境介绍1. 本地环境规划2. 本次实践介绍 三、本地环境检查1.检查Docker服务状态2. 检查Docker版本 四、下载EasyDockerWeb镜像五、部署Eas…

25岁转行做软件测试1年多了,写给还在迷茫的测试圈朋友

相比开发以后的职业生涯;我更看好软件测试的未来。 其次具有开发经验。对软件测试会有相当大的帮助,前面学了测试基础工具后,后期自动化提升会更快。这样才能更好的胜任软件测试工作。 最重要的是测试不是青春饭,和软件开发相比…

VUE 3.0 -- 直播推拉流、流视频播放

🛴🛴前言: 该 Demo 基于 OBS推流 Nginx Vue 3.0 Nplayer.js hls.js ,目的只是实现流媒体播放,以及简易推拉流直播。 文章目录 前端组件 NPlayer.js安装 nplayer.js 流视频播放页面元素初始化播放器清晰度控件样式…

Linux中与命名空间相关的内核数据结构

【摘要】本文详细讲述了在Linux内核中与命名空间概念相关的内核数据结构及其内在联系。 十、命名空间(namespace)相关数据结构 Linux内核通过数据结构之间互相的连接关系,形成了一套虚拟的命名空间的虚拟化概念。 10.1 struct pid_namespace \linux-2.6.32.63\i…