澳鹏干货解答!“关于机器学习的十大常见问题”

news2024/11/14 20:14:32

探索机器学习的常见问题,了解机器学习和人工智能的基本概念、原理、发展趋势、用途、方法和所需的数据要求从而发掘潜在的商机。

什么是机器学习?

机器学习即教授机器如何学习的过程,为机器提供指导,帮助它们自己开发逻辑,访问您希望它们访问的数据。机器学习的成果就是某种形式的人工智能(AI)。通俗来讲,机器学习就是不断输入基础资料、训练数据,以帮助其撷取特征,建立模型,得到答案的过程。

“尽管它的名字里有‘人工’二字,但这项技术并没有任何‘人工’之处,它是人类创造的技术,旨在表现得像人类一样并影响人类。所以,若我们希望它在将来发挥积极作用,则必须以人为本。”

  • 李飞飞谈“以人为本的AI”,《纽约时报》

机器学习工作的原理是什么?

计算机遵循规则。这些规则也称为算法。计算机在首次开始学习时会获得一组初始数据以进行探索。这些数据被称为训练数据。

计算机开始识别模式,并根据算法和训练数据做出决定。根据使用的机器学习的类型,还要给机器设定要达成的目标,当机器做出正确的决定或朝着最终目标迈出积极的一步时,就会予以嘉奖。当机器建立这种理解或“学习”时,其通过一系列步骤将新的输入转换为输出,这些输出可能包括全新的数据集、标记的数据、决定乃至行动。

理念是,机器学习到的知识足以在无任何人工干预的情况下进行操作。通过这种方式,机器开始发展并展示我们所谓的人工智能。机器学习是创建人工智能的一种主要方法。

人工智能的其他示例包括机器人、语音识别和自然语言生成,所有这些均需某些机器学习的元素。实现机器学习的原因和方法有很多。机器学习的算法以及训练数据的类型和来源也多种多样。

机器学习飞速发展的原因?

近年来,有三件事促成人们对机器学习的广泛关注。

  1. 各类数据的增长
  2. 存储成本的下降
  3. 计算能力的大幅提升

与任何事物一样,有证据表明还有其他促成因素和商业驱动因素,但在为加速机器学习应用以及人工智能创新应用铺平道路方面,上述三项进步显然占据着主导地位。

机器学习的商业价值?

无论是国营企业或是私企均在投资机器学习,因为机器学习可在以下方面提升其能力:

  • 速度. 更快地获得答案并执行复杂的计算
  • 能力,处理比以往更多的数据,进行更复杂的分析。
  • 智能,通过挖掘现实世界以前无法解读的数据揭示新的洞察。
  • 效率,以更少的人力完成更多的分析

无论来自哪个行业,您都有可能找到可靠的机器学习用例,并能够通过预期的收入回报和利润数据证明投资机器学习的合理性。

事实证明,机器学习能减少甚至消除人工数据录入、检测垃圾邮件、打击欺诈和推荐产品。机器学习可用来预测何时需要对设备和基础设施进行维护,它能前所未有地为您提供更多关于客户的洞察,提高客户的满意度。

如果您尚未投资机器学习,那可能您要思考了:为什么还不投资呢? 

机器学习的用途?

机器学习的用例广泛多样,并且仍在探索中,我们将重点介绍机器学习在五个常见领域的应用。

零售和电子商务

人工智能和机器学习正被用于提高转化率、改善客户体验、提供个性化服务等方面。

  • 搜索相关性:在线购物者不奢求向销售人员询问在哪里可以搜索到他/她想找的货物。现在搜索引擎当仁不让。机器学习能解读搜索查询,评估用户意图,并使用这些信息训练搜索算法,让搜索结果更加相关,从而提高购买转化率。

  • 个性化: 根据购物者以往的行为向他们提供建议或搜索结果,将帮助提高用户粘性和留存率。

  • 改善客户服务: 聊天机器人充当虚拟购物助手。像员工一样,聊天机器人也需要接受培训,不仅要了解您销售的产品,而且还要了解人们在您的网站上用于许多产品的术语。

科技

搜索引擎和其他领先的科技公司利用机器学习进行AI的研发,以提供创新产品,改善用户体验。

  • 搜索相关性: 搜索引擎算法利用机器学习提高用户粘性。通过解释查询和评估用户意图,搜索结果将变得更加相关,从而提高用户的满意度。

  • 个性化: 分析数据活动和偏好可帮助搜索引擎和社交媒体推送个性化内容,提升在线用户体验。

  • 自然语言处理(NLP): 例如,NLP可以分析语言模式,理解可能使用口语或社交媒体上的其他自然模式的文本。这种技术可用于跟踪客户情绪并制定参与策略。

  • 金融服务: 金融服务业领导者利用机器学习和人工智能改善客户获取和维系,并提升客户整体体验。

  • 风险管理: 反洗钱(AML)、了解客户(KYC)和欺诈识别计划需要复杂的工具发现潜在威胁。仅仅依靠人力发现财务记录中的异常模式不仅费时,而且代价高昂。机器学习和人工智能使金融机构能够快速筛选数据并发现异常情况,防止非法活动,为企业挽回可能的损失。

  • 创收: 如今,金融机构纷纷利用机器学习算法来制定投资策略,从而解放金融顾问,让其能够更多地与客户互动。

  • 提升客户体验: 如今,由于按需客户服务备受人们的期待,聊天机器人的作用也就至关重要。聊天机器人通过实时反馈和流畅的体验让客户满意。

汽车

用自动驾驶汽车的训练数据加速机器学习,用更精确的现场测试改善语音识别系统、车内导航和用户体验。

  • 自动驾驶汽车: 虽然自动驾驶汽车极其复杂,但其神经网络却由机器学习支持。自动驾驶汽车向前行驶时,会处理大量的视觉数据,就像驾驶员观察车窗外的情况一样。汽车需要为大量图像数据赋予意义,例如识别一棵树或是行人,然后将这些信息反馈至汽车AI系统以教予其。
  • 语音识别: 传统的仪表盘和移动设备需要驾驶员用手操作,还会让驾驶员的视线离开路面。语音界面却无需如此。联网汽车需要访问大规模的语音数据收集来训练语音界面,为世界各地的消费者提供一流的用户体验。

  • 预测行为: 语音识别和摄像头的进步将帮助追踪驾驶员的情绪,这是人机界面的重要一步,让汽车能够识别说话者的情绪及其语言,这样,当用户感到沮丧时,汽车就能知道并做出相应的反应。

政府

通过安全数据服务改善应急响应、防御计划和执法。

  • 防御: 通过使用社交媒体监控、计算机视觉和数据标注,政府机构现在能够提取信息帮助监视恐怖分子、监控国家安全威胁等等。

  • 国家应急响应: 自然灾害、协同袭击等紧急情况可能毫无预兆地发生。在民众生命危在旦夕之时,立即作出响应并进行协调至关重要。通过翻译、语音识别和文本数据收集,世界各地的应急响应人员有效地使用机器与陷于危险境地中的人们进行交流。

  • 执法: 安全转录允许执法部门完成多项目标,包括从随身携带的视频中捕获文件、官方记录保存和档案记录解决方案。

医疗

AI和机器学习在医疗行业中令人兴奋的应用正在改变病患照顾的现状。

  • 预测分析: 评估趋势,预测疫情,预测患者需求。

  • 聊天机器人和虚拟医疗: 更快更好地提供客户服务。

  • 保险业的发展: 利用机器学习建立基于各种数据点的更可靠承保模型。

三大机器学习方法?

“大多数人类和动物的学习都是无监督学习。如果将智能比作一块蛋糕,那么无监督学习就是这块蛋糕,监督学习就是蛋糕上的糖霜,而强化学习就是蛋糕上的樱桃。我们知道如何做糖霜和樱桃,但却不知道如何做蛋糕。我们需要先解决无监督学习问题,然后再思考真正的人工智能。”

  • Facebook AI研究主管杨立昆

监督式学习

  • 监督式学习算法旨在根据示例或训练数据确定预测模型: 这些数据集包含输入变量和匹配的正确输出变量。这种算法的任务是分析数据,并生成一个函数,以准确地将输入映射到相应的输出。经过训练,这种算法能继续预测任何给定的新数据的结果。
  • 分类: 分类最容易理解。评估数据,确定其属于哪个类别。举例说,某个机器学习模型要求机器确定一张图片是否为一匹马。这是个简单的是/否响应,是个二元分类示例。在提供足够多的马的图片和非马的图片的训练数据之后,机器就能学习辨别马的特征,然后独立观察图片,并告诉您图片是否为马。

  • 回归: 不是分离数据和分配类别,而是要求机器根据从初始训练数据中得到的响应预测一个响应或输出。举个简单的例子,如果初始输入3和5的目标是8,学习的逻辑就是将两个输入相加。最终,该模型会使用回归分析预测输入4和6的目标为10。监督式学习属于任务导向型;也即“为我找到XYZ目标。”

半监督式学习

半监督式学习是一种混合模型。使用半监督式深度学习的算法是在标记数据和未标记数据的组合上训练的。这种方法可能更为实用,因为让数据科学家或数据工程师标记数据可能代价高昂。其他时候,之所以采用这种方法,是因为数据规模太大,标记数据的任务太过艰巨。团队采用混合方法的另一个原因是,要避免在数据标记期间可能出现任何类型的人为偏见。

“在无数据之前就建立理论是最大的错误。不知不觉中,人们开始扭曲事实以附会理论,而不是让理论符合事实。”夏洛克·福尔摩斯

通过半监督式学习,您的模型可能会受益,并可以通过纳入一些目标或已标记数据来加快工作,为理解未标记数据所做的工作还可能会揭示见解,为您提供尚未发现的输出。这种方法在许多情况下都是双赢的,也是常用方法。

强化学习

强化学习是最抽象的方法,它完全基于机器,通常被称为“学习主体”,通过反复试错学习。在给定的环境中,机器根据它所获得奖励的定义决定采取哪些行动提升性能。这种试错活动叫做探索。获自理解哪些行为能获得奖励的知识叫做利用。

学习主体在先进的机器学习算法的推动下,通过对环境的探索和利用,最终获得足够的知识,开始展示近乎人类水平的人工智能。

机器人就是强化学习的最佳示例。机器人在工厂中的使用很大程度上取决于它们使用强化学习适应环境的能力,它们不断降低出错率,完成类似人类的任务和行为。

机器学习需要什么样的数据?

“机器学习的好坏取决于用来训练它的数据。”

  • Daniel Tunkelang,曾在Endeca、Google和LinkedIn领导机器学习项目机器学习项目需要有足够多的正确数据来支持,这点非常重要,关于它的文章不胜枚举。

正如前文引语中的Tunkelang在《关于机器学习您必须知道的10件事情》中所解释,“少了复杂的算法还能进行机器学习,但少了好的数据就不行。”

那么需要怎样的数据呢?这要视情况而定。

结构化数据与非结构化数据

  • 结构化数据: 结构化数据有逻辑组织,便于计算机读取和理解。它既可以是从ERP或CRM系统中提取的机器生成的交易数据,也可以是来自传感器的关于动作的简单时间戳数据,还可以是电子表格中人工生成的数据输入。这种类型的数据最常用于监督式学习中,即使数量庞大,也能非常快地处理。

  • 非结构化数据: 行业领导者认为,世界上超过80%的数据都是非结构化数据,而且数量呈指数级增长。非结构化数据无所不在。人类生成的非结构化数据包括微软Word文件和其他文本文件、演示文稿、视频、图像、音频、社交媒体帖子等等。机器生成的非结构化数据包括监控录像、卫星图像和科学数据等等。监督式学习和强化学习都是不可思议的工具,可用于获取见解并利用非结构化数据完成更多任务。

机器学习需要多少数据?

简而言之:很多。即使是世界上最好的算法,也很难在数据不足的情况下得出正确的结果。

“AI技术需要对模型进行再训练,以匹配可能不断变化的条件,因此训练数据必须经常更新。在三分之一的情况下,模型需要至少每月更新一次,在近四分之一的情况下,模型需要每天更新。”

  • 麦肯锡全球研究所,AI前沿笔记。

原因就是数量越大,准确度就越高。

这点有很多原因。其中一个原因是,大多数机器学习模型都试图让计算机理解千变万化的数据集。

例如,对于语音识别应用,性别、年龄、方言等方面的差异,导致语音千变万化。一些专家称,一个模型至少需要10,000小时的音频才能提供中等精度的输出。另一些则称,虽然所需的数据总量取决于模型或问题的复杂性,但大多数模型的最低要求是100,000个实例。

数据“质量”非常重要?

是的!其重要性甚至超过数据的数量。

“更多的数据优于聪明的算法,但质胜于量。”

  • Peter Norvig, 计算机科学家,谷歌和行业领袖

致使数据“不佳”的因素可能与人有关,标注不准确,有误导性,或者不完整。在这些情况下,需要进行一些数据清理或准备工作。

如果模型的任务是对数据进行分类,那么就必须首先正确标记训练数据。有时格式就是个问题。例如,在处理图像数据时,您可能需要调整图像的大小,以便让模型分析相同长度的向量。

您使用的任何数据都需要进行某些清洗。专家指出,需要做的工作不只是数据的提取、转换和加载(ETL)。在任何机器学习项目中,即便上述工作已完成,要使数据符合数据科学要求,所需的清洗工作平均通常还要占总工作量的80%。

机器学习常见问题解答补充资源

随着用例的不断增加,您会希望与时俱进,以各种方式改进模型并为客户创建更好的产品。

  • 麦肯锡全球研究院 AI 前沿笔记

  • AI与机器学习全景报告
  • 机器学习需要多少数据?

机器学习术语表

  • 人工智能(AI): 机器独立运行以完成通常需要人类智能的任务和活动的能力。

  • 聊天机器人: 聊天机器人是一种虚拟助手,它可以模拟典型的对话线程与人类进行交流。通常通过互联网交付,嵌入到网站或手机应用中。

  • 数据分类: 数据可以由人或机器分类,它是将特定类别分配给具有相同特征的数据的过程,例如日期、来源、类型等。其目的是使数据更易于理解、分析或使用。

  • 数据标记: 数据标记由人执行,它是添加标签的过程,为机器提供目标,用于监督式机器学习模型。

  • 机器学习: 机器学习即教授机器如何学习的过程,为机器提供指导,帮助它们自己开发逻辑,并访问您希望它们探索的数据。

  • 强化学习: 机器或学习主体得到一个数据集、一套关于如何探索数据的规则,并清楚理解其表现何时会得到奖励。在探索数据及其“环境”时,机器通过反复试错,学习获得奖励并实现其目标的最高效和有效的方法。

  • 结构化数据: 世界上只有20%的数据被认为是“结构化的”。结构化数据以一种便于计算机分析和解释的方式予以组织。它通常出现在关系数据库、电子表格和企业系统(如CRM、ERP)和金融应用中。

  • 监督式学习: 监督式学习模型是当今使用的机器学习中最简单和最准确的实例。在监督式学习中,将为机器提供结构化的数据集,其中包括输入和已被标记为“目标”的数据或期望输出的数据。机器从这些例子中学习将输入转换为输出的逻辑,最终机器仅需输入即可独立创建目标输出。

  • 训练数据: 训练数据是机器学习项目中用于开始教授机器有关该项目的逻辑、行为或其他智能形式的数据。模型在使用足够的数据后,就会得到测试数据,在项目宣告成功之前,它会使用验证数据运行。

  • 非结构化数据: 世界上80%的数据的组织方式都不利于解释或分析。如文本和聊天信息、录制的音频、视频和社交媒体帖子。

  • 无监督学习: 机器得到的数据尚未被标记。机器和模型的任务是寻找数据之间的相关性、模式或关系,并将这些见解作为输出交付。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1324915.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

108基于matlab的使用模拟退火 (SA) 求解并行机器调度的程序

基于matlab的使用模拟退火 (SA) 求解并行机器调度的程序,程序已调通,可直接运行。 108 matlab模拟退火 (SA) (xiaohongshu.com)

Java实现限流算法

下面是一个使用Java实现的令牌桶算法的例子: import java.util.concurrent.atomic.AtomicLong;public class RateLimiter {private final long capacity; // 令牌桶容量private final long rate; // 令牌生成速率private AtomicLong tokens; // 当前令牌数量privat…

Python教程(16)——lambda函数介绍

目录 lambda函数介绍lambda函数语法lambda函数特性匿名性简洁性 在高阶函数中的应用 lambda函数介绍 我们平时经常可以在Python的代码中看到一种lambda开头的这种表达式,如果没有学过Python的相关知识,可能会一脸懵逼,不清楚到底这个关键字是…

unity2d 关闭全局重力

UNITY2D项目默认存在Y轴方向重力,创建俯视角2D场景时可通过以下配置关闭 Edit > Project Settings > Physics 2D > General Settings > Gravity 设置Y0

CUMT--Java--JDBC编程

目录 一、JDBC简介 二、数据库访问 1、加载数据库驱动 2、建立数据连接 3、创建Statement对象 4、执行SQL语句 5、访问结果集 三、MetaData接口 1、DatabaseMetaData接口 2、ResultSetMetaData接口 四、事务 1、JDBC中的事务 2、保存点 3、批量更新 一、JDBC简…

基于YOLOv8的草莓病害检测,加入EMA注意力和GPFN提升病害检测能力

💡💡💡本文摘要:基于YOLOv8的草莓病害检测,加入EMA注意力和GPFN性能分别从mAP0.5从原始的0.815提升至0.818和0.831 1.YOLOv8介绍 Ultralytics YOLOv8是Ultralytics公司开发的YOLO目标检测和图像分割模型的最新版本。Y…

TensorFlow(2):Windows安装TensorFlow

1 安装python环境 这一步请自行安装,这边不做介绍。 2 安装anaconda 下载路径:Index of /,用户自行选择自己的需要的版本。 3 环境配置 3.1 anaconda环境配置 找到设置,点击系统->系统信息->高级系统设置->环境变量…

归一化和标准化(Z-Score)

在处理数据过程中,通常会有不同规格的数据,比如年龄的取值范围是0-130,收入的取值范围是0-100000等等,如果不进行归一化或标准化处理,梯度下降每次走过的相对长度就不一样,就导致某个参数很快就找到了最优解…

Android排队预约系统(Java+SqLite+ZXing)

自己写的排队预约系统,可改写,添加功能,如管理用户,查询排队人数等功能。(由于是选修课课设,所以写的比较粗糙) 使用方法: 1.使用Android studio导入项目。 2.使用gradle加载build.gradle.kts中的依赖。…

DC-6靶场

DC-6靶场下载: https://www.five86.com/downloads/DC-6.zip 下载后解压会有一个DC-3.ova文件,直接在vm虚拟机点击左上角打开-->文件-->选中这个.ova文件就能创建靶场,kali和靶机都调整至NAT模式,即可开始渗透 首先进行主…

MatGPT - 访问 OpenAI™ ChatGPT API 的 MATLAB® 应用程序

系列文章目录 前言 MatGPT 是一款 MATLAB 应用程序,可让您轻松访问 OpenAI 的 ChatGPT API。使用该应用程序,您可以加载特定用例的提示列表,并轻松参与对话。如果您是 ChatGPT 和提示工程方面的新手,MatGPT 不失为一个学习的好方…

模拟信号和数字信号的区别

模拟和数字信号是携带信息的信号类型。两种信号之间的主要区别在于模拟信号具有连续电信号,而数字信号具有非连续电信号。 模拟信号和数字信号之间的差异可以通过不同类型波的例子来观察。 什么是模拟信号(Analog Signals)? 许多系统使用模拟信号来传输…

跟着野火学FreeRTOS:第一段(任务定义,切换以及临界段)

在裸机系统中,系统的主体就是 C P U CPU CPU按照预先设定的程序逻辑在 m a i n main main函数里面顺序执行的无限循环。在多任务系统中,根据功能的不同,把整个系统分割成一个个独立的,无限循环且不能返回的的函数,这个…

【C++题目速刷】二分查找

【C题目速刷】二分查找 一、二分查找1、题目链接2、解题3、代码 二、在排序数组中查找元素的第一个和最后一个位置1、题目链接2、解题3、代码4、算法模板 三、x的平方根1、解题链接2、解题3、代码 四、搜索插入位置1、题目链接2、解题3、代码 五、山脉数组的峰顶索引1、题目链接…

Python新闻文本分类系统的设计与实现:基于Flask、贝叶斯算法的B/S架构

Python新闻文本分类系统的设计与实现:基于Flask、贝叶斯算法的B/S架构 引言数据获取与处理数据分析与可视化文本分类模型结论 引言 在信息爆炸的时代,新闻数据的快速获取和准确分类变得尤为重要。本文将介绍一种基于Python语言、Flask技术、B/S架构以及…

智能优化算法应用:基于野狗算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于野狗算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于野狗算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.野狗算法4.实验参数设定5.算法结果6.参考文献7.MA…

msvcp120.dll丢失的多种详细有效解决方法

在计算机使用过程中,我们可能会遇到一些错误提示,其中之一就是“msvcp120.dll丢失”。那么,msvcp120.dll到底是什么?为什么会出现丢失的情况?丢失后会对电脑产生什么影响?本文将为您详细解答这些问题&#…

【汇编先导】-- 2

汇编先导 6. 寄存器 存储数据:CPU > 内存 > 硬盘(固态、机械) CPU还可分为: 32位CPU 8 16 32 64位CPU 8 16 32 64(增加了寻址能力) 通用寄存器 # 32位的通用寄存器只有8个 # 可以在任意软件的底层看到 # 通用寄存器可以存储任何值存值的范围…

【动态规划】08路径问题_下降路径最小和_C++(medium)

题目链接:leetcode下降路径最小和 目录 题目解析: 算法原理 1.状态表示 2.状态转移方程 3.初始化 4.填表顺序 5.返回值 编写代码 题目解析: 题目让我们求通过 matrix 的下降路径 的 最小和 由题可得: 在下一行选择的元…

【职言】三年功能测试,一些测试工作的“吐槽”

以下为作者观点: 概述 作为功能测试,我也分享下日常工作中功能测试值得吐槽的问题,由于工作时间不长且未进过大厂,不了解大公司的工作模式和流程,所以自己的方法和理解都是基于中小公司的工作经验总结,应…