机器学习简介--NLP(二)

news2024/12/23 5:21:46

机器学习简介

  • 机器学习简介
    • 机器学习例子
    • 机器学习分类
      • 有监督学习
        • 有监督学习的应用
      • 无监督学习
    • 机器学习常见概念
      • 数据集
      • k折交叉验证
      • 过拟合
      • 欠拟合
      • 评价指标

机器学习简介

机器学习例子

问题: 2,4,6,8,?,?已知前面的数,求后面的数是什么?
机器学习解决方案 从前四个数,即前4个示例,找到一个函数(模型,公式)满足前四个数的规律;后面的数则使用这个函数去推理得到。

1.找到一个函数y=f(x)使得将其满足上面的已知数据
2.得到这个函数,去预测其他的未知的数
上面的函数为:y=2*x

引申:上面是简单的数字,这个数字可以变成复杂的向量、矩阵;这个函数也可以是多个公司拼接,从而就可以符合更加复杂任务的规律。其中2就是我们在数字中找到的规律,y=2x就是我们训练出来的模型。

机器学习概念: 通过观察有限数量的样本,去找到一个规律或者公式,满足已知样板的x、y的关系的过程。

数据的重要性: 上面的案例中,如果只给了2,4两个已知的数,那么规律就有可能是:y=2x;也可以是y=x^2 ;所以规律正确与数据有很大的关系。

困难点: 上面的规律是非常简单的,但是对于复杂的事情,我们人都很难去梳理出规律,所以我们希望把数据交给机器,让机器把规律找出来 。

机器学习分类

有监督学习

核心目标: 建立一个模型(函数),来描述输入(x)与输出(y)之间的关系;从而使新的输入来临时时,我们可以预测输出。
要求:需要一定输入与输出有关联关系并且能够数值化表示的训练样本。
在这里插入图片描述

有监督学习的应用

任务类型1:文本分类任务

输入:文本
输出:类别
关系:文本的内容决定着文本的类别

比如判断一句话是不是曹贼所说

任务类型2:机器翻译

输入:A语种文本
输出:B语种文本
关系:A语种表达的意思,在B语种中有对应得意思

比如太阳,英文就是son

无监督学习

**释义:**给与机器得数据是没有标注信息得,简单理解就是只有输入,这种情况也可以让机器进行一些分析
应用场景:聚类、降维、找特征值等等
聚类
**释义:**比如将一系列水果,按照大小、颜色、口味对应不同得数字,把水果转换为向量数子表示,这个时候通过空间向量得计算,可以判断那些向量比较接近,那么按照一定得算法就可以将它们分类,虽然我们不清楚分得是什么类
在这里插入图片描述
降维
释义: 我们在整理了1000个人的各项数据,包括用100个维度去表示他们各自的信息:身高、是否结婚、工作、胖瘦、年龄、手长、腰围等;但是对于我们某一个任务来说,某些维度的信息没有用,比如是否结婚不关注,那么我们通过一定的算法,将其中某些不用的维度去除掉,降低的数据的复杂性,这就是降维。
在这里插入图片描述

机器学习常见概念

数据集

1.训练集
释义:用于模型训练的数据集合
举例: 相当于一个孩子从白纸到成人需要的教训,只是这个教训在这里是提取准备好的

2. 验证集
释义:对于每一种任务一般都有多种算法可以选择,一般会使用验证集用于对比不同算法的效果差异
举例: 培养孩子时,我们需要进行中考、高考,测试这个孩子在某方面的天赋和培养效果,这里的验证集就是这个意思。

3.测试集
释义:最终用来评判算法模型效果的数据集合
举例: 相当于孩子成年了,放到社会上去经历毒打,如果表现得不错,就说明这个号成了,表现差,就重新练一个。

k折交叉验证

释义:初始采样分割成k个子样本,一个单独的子样本本保留作为验证模型的数据,其他的k-1个样本用来训练,交叉重复k次,每个子样本验证一次,平均k次的结果。就是需要训练K次。

过拟合

**释义:**模型失去泛化能力,如果模型在训练集和验证集上都有很好的表现,但是在测试集上表现很差,一般认为发生过拟合。
举例: 高考笔试成绩很好,读书的任务完成得很棒,但是出了社会实际做事不行,是书呆子,就是过拟合。

欠拟合

释义: 模型没能建立起合理的输入输出之间的映射,当输入训练集中的样本时,预测结果和标注结果依然相差很大。
举例 平时就学不进去,别说高考,从小学到初高中,成绩都很差,就是欠拟合,这个时候就看是不是没认真学习,学习方法不对;还是这个娃就是蠢,那么就重新生一个,看看有没有天赋。

评价指标

释义: 为了评价算法效果好坏,需要找到一种评价模型的计算指标例如:准确率、召回率、F1值、TopK、BLEU等
举例: 学生的评价,德智体美劳,高考成绩等

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1891700.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

智能语音门锁:置入NV170D语音芯片ic 打造便捷生活新体验

一、智能门锁语音芯片开发背景 随着科技的飞速发展,传统门锁的局限性日益凸显,无法满足现代人对高效、安全生活的需求。在这样的时代背景下,智能门锁应运而生,它不仅继承了传统门锁的基本功能,更通过融入先进的科技元素…

数据库安全:MySQL权限体系划分与实战操作

「作者简介」:冬奥会网络安全中国代表队,CSDN Top100,就职奇安信多年,以实战工作为基础著作 《网络安全自学教程》,适合基础薄弱的同学系统化的学习网络安全,用最短的时间掌握最核心的技术。 这一章节我们需…

基于OpenMV识别数字及程序说明

OpenMV简介 OpenMV是一个开源、低成本且功能强大的机器视觉模块。它基于STM32F427CPU,集成了OV7725摄像头芯片,能在小巧的硬件模块上,用C语言高效地实现核心机器视觉算法,并提供了Python编程接口,使得图像处理的复杂度…

k8s_集群搭建_k8s管理前端_dashboard安装部署---分布式云原生部署架构搭建017

然后再去安装一下一个dashboard,有了这个以后,操作k8s集群就不用 一直敲命令了 可以看到上面的命令拿过来,然后 执行就可以了 然后如果执行慢,可以直接先去下载,使用wget,然后再去 也可以在浏览器访问,把内容拿到,然后 下面是内容: # Copyright 2017 The Kubernetes Author…

金融科技企业的数据治理与合规挑战

随着科技的发展,金融科技行业在我国得到了迅猛发展。金融科技创新不仅为消费者带来了便捷的金融服务,也极大地提高了金融行业的运营效率。然而,在金融科技发展的同时,数据治理与合规挑战也日益显现。本文将深入探讨金融科技企业在…

84 柱状图中最大的矩形

题目 给定 n 个非负整数,用来表示柱状图中各个柱子的高度。每个柱子彼此相邻,且宽度为 1 。 求在该柱状图中,能够勾勒出来的矩形的最大面积。 示例 输入:heights [2,1,5,6,2,3] 输出:10 解释:最大的矩…

华为OD机试 - 最长合法表达式 - 双指针(Java 2024 D卷 100分)

华为OD机试 2024D卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试(JAVA)真题(D卷C卷A卷B卷)》。 刷的越多,抽中的概率越大,每一题都有详细的答题思路、详细的代码注释、样例测…

竞赛选题 交通目标检测-行人车辆检测流量计数 - 竞赛选题

文章目录 0 前言1\. 目标检测概况1.1 什么是目标检测?1.2 发展阶段 2\. 行人检测2.1 行人检测简介2.2 行人检测技术难点2.3 行人检测实现效果2.4 关键代码-训练过程 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 🚩 毕业设计…

苹果Mac电脑能玩什么游戏 Mac怎么运行Windows游戏

相对于Windows平台来说,Mac电脑可玩的游戏较少。虽然苹果设备的性能足以支持各种大型游戏,但由于系统以及苹果配套服务的限制,很多游戏无法在Mac系统中运行。不过,借助虚拟机软件,Mac电脑可以突破系统限制玩更多的游戏…

Python | Leetcode Python题解之第213题打家劫舍II

题目: 题解: class Solution:def rob(self, nums: List[int]) -> int:def robRange(start: int, end: int) -> int:first nums[start]second max(nums[start], nums[start 1])for i in range(start 2, end 1):first, second second, max(fi…

Rural Access Index (RAI)农村通达指数

农村通达指数(RAI) 简介 农村通达指数(RAI)是全球交通领域最重要的发展指标之一。它是目前可持续发展目标中唯一一个直接衡量农村通达性的指标,通过评估农村人口的四季道路通达性来实现。在 2015 年作为可持续发展目…

二手物品交易小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,管理员管理,商品信息管理,论坛管理,收货地址管理,基础数据管理 微信端账号功能包括:系统首页,商品信息&…

币界网讯,预计以太坊现货 ETF 将于 7 月中旬推出

刚刚 ETF Store 总裁 Nate Geraci 在 X (前Twitter)平台上宣布,备受数字货币市场期待的SEC以太坊现货 ETF提案,将于7 月中旬通过美国证券交易委员会(SEC)批准。Nate Geraci透露修订后的 S-1 文件将于 7 月 …

Java高级重点知识点-20-File

文章目录 File类 File类 java.io.File 类是文件和目录路径名的抽象表示,主要用于文件和目录的创建、查找和删除等操作。 基本方法 构造方法: public File(String pathname) :通过将给定的路径名字符串转换为抽象路径名来创建新的 File实例…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于目标鲁棒的电动汽车及基站储能联合参与电力市场的决策模型 》

本专栏栏目提供文章与程序复现思路,具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》 论文与完整源程序_电网论文源程序的博客-CSDN博客https://blog.csdn.net/liang674027206/category_12531414.html 电网论文源程序-CSDN博客电网论文源…

SpringCloud进阶篇

文章目录 网关快速入门创建模块引入依赖修改启动类配置路由路由过滤(一般不用) 自定义GlobalFilter登录校验登录校验过滤器 微服务获取用户信息保存用户信息到请求头拦截器获取用户信息 OpenFeign传递用户信息配置共享添加共享配置拉取共享配置 配置热更新添加配置到Nacos配置热…

#LinuxC高级 笔记二

makefile gcc gdb makefile 1. 分文件编程 1.1 源文件&#xff1a;.c结尾的文件 包含main函数的.c 包含子函数的.c 1.2 头文件&#xff1a;.h结尾的文件 头文件、宏定义、typedef 、结构体、共用体、枚举、函数声明 include引用时“”和<>的区别&#xff1a; <>去系…

泰安再见,泰山OFFICE还会再见

路过泰安&#xff0c;遇见彩虹。怀念和感恩在泰山信息科技的万丈豪情。 泰山OFFICE&#xff0c;还是要复活。

苹果电脑虚拟机运行Windows Mac环境安装Win PD19虚拟机 parallels desktop19虚拟机安装教程免费密钥激活

在如今多元的数字时代&#xff0c;我们经常需要在不同的操作系统环境下进行工作和学习。而对于 Mac 用户来说&#xff0c;有时候需要在自己的电脑上安装 Windows 操作系统&#xff0c;以体验更多软件及功能&#xff0c;而在 Mac 安装 Windows 虚拟机是常用的一种操作。下面就来…

Git详细安装和使用教程

文章目录 准备工作-gitee注册认识及安装GitGit配置用户信息本地初始化Git仓库记录每次更新到仓库查看及切换历史版本Git忽略文件和查看文件状态Git分支-查看及切换Git分支-创建分支Git分支-合并及删除分支Git分支-命令补充Git分支-冲突需求: 准备工作-gitee注册 传送门: gite…