澳鹏干货解答！“关于机器学习的十大常见问题”

探索机器学习的常见问题，了解机器学习和人工智能的基本概念、原理、发展趋势、用途、方法和所需的数据要求从而发掘潜在的商机。

什么是机器学习？

机器学习即教授机器如何学习的过程，为机器提供指导，帮助它们自己开发逻辑，访问您希望它们访问的数据。机器学习的成果就是某种形式的人工智能（AI）。通俗来讲，机器学习就是不断输入基础资料、训练数据，以帮助其撷取特征，建立模型，得到答案的过程。

“尽管它的名字里有‘人工’二字，但这项技术并没有任何‘人工’之处，它是人类创造的技术，旨在表现得像人类一样并影响人类。所以，若我们希望它在将来发挥积极作用，则必须以人为本。”

李飞飞谈“以人为本的AI”，《纽约时报》

机器学习工作的原理是什么？

计算机遵循规则。这些规则也称为算法。计算机在首次开始学习时会获得一组初始数据以进行探索。这些数据被称为训练数据。

计算机开始识别模式，并根据算法和训练数据做出决定。根据使用的机器学习的类型，还要给机器设定要达成的目标，当机器做出正确的决定或朝着最终目标迈出积极的一步时，就会予以嘉奖。当机器建立这种理解或“学习”时，其通过一系列步骤将新的输入转换为输出，这些输出可能包括全新的数据集、标记的数据、决定乃至行动。

理念是，机器学习到的知识足以在无任何人工干预的情况下进行操作。通过这种方式，机器开始发展并展示我们所谓的人工智能。机器学习是创建人工智能的一种主要方法。

人工智能的其他示例包括机器人、语音识别和自然语言生成，所有这些均需某些机器学习的元素。实现机器学习的原因和方法有很多。机器学习的算法以及训练数据的类型和来源也多种多样。

机器学习飞速发展的原因？

近年来，有三件事促成人们对机器学习的广泛关注。

各类数据的增长
存储成本的下降
计算能力的大幅提升

与任何事物一样，有证据表明还有其他促成因素和商业驱动因素，但在为加速机器学习应用以及人工智能创新应用铺平道路方面，上述三项进步显然占据着主导地位。

机器学习的商业价值？

无论是国营企业或是私企均在投资机器学习，因为机器学习可在以下方面提升其能力：

速度. 更快地获得答案并执行复杂的计算
能力，处理比以往更多的数据，进行更复杂的分析。
智能，通过挖掘现实世界以前无法解读的数据揭示新的洞察。
效率，以更少的人力完成更多的分析

无论来自哪个行业，您都有可能找到可靠的机器学习用例，并能够通过预期的收入回报和利润数据证明投资机器学习的合理性。

事实证明，机器学习能减少甚至消除人工数据录入、检测垃圾邮件、打击欺诈和推荐产品。机器学习可用来预测何时需要对设备和基础设施进行维护，它能前所未有地为您提供更多关于客户的洞察，提高客户的满意度。

如果您尚未投资机器学习，那可能您要思考了：为什么还不投资呢？

机器学习的用途？

机器学习的用例广泛多样，并且仍在探索中，我们将重点介绍机器学习在五个常见领域的应用。

零售和电子商务

人工智能和机器学习正被用于提高转化率、改善客户体验、提供个性化服务等方面。

搜索相关性:在线购物者不奢求向销售人员询问在哪里可以搜索到他/她想找的货物。现在搜索引擎当仁不让。机器学习能解读搜索查询，评估用户意图，并使用这些信息训练搜索算法，让搜索结果更加相关，从而提高购买转化率。
个性化: 根据购物者以往的行为向他们提供建议或搜索结果，将帮助提高用户粘性和留存率。
改善客户服务: 聊天机器人充当虚拟购物助手。像员工一样，聊天机器人也需要接受培训，不仅要了解您销售的产品，而且还要了解人们在您的网站上用于许多产品的术语。

科技

搜索引擎和其他领先的科技公司利用机器学习进行AI的研发，以提供创新产品，改善用户体验。

搜索相关性: 搜索引擎算法利用机器学习提高用户粘性。通过解释查询和评估用户意图，搜索结果将变得更加相关，从而提高用户的满意度。
个性化: 分析数据活动和偏好可帮助搜索引擎和社交媒体推送个性化内容，提升在线用户体验。
自然语言处理(NLP): 例如，NLP可以分析语言模式，理解可能使用口语或社交媒体上的其他自然模式的文本。这种技术可用于跟踪客户情绪并制定参与策略。
金融服务: 金融服务业领导者利用机器学习和人工智能改善客户获取和维系，并提升客户整体体验。
风险管理: 反洗钱（AML）、了解客户（KYC）和欺诈识别计划需要复杂的工具发现潜在威胁。仅仅依靠人力发现财务记录中的异常模式不仅费时，而且代价高昂。机器学习和人工智能使金融机构能够快速筛选数据并发现异常情况，防止非法活动，为企业挽回可能的损失。
创收: 如今，金融机构纷纷利用机器学习算法来制定投资策略，从而解放金融顾问，让其能够更多地与客户互动。
提升客户体验: 如今，由于按需客户服务备受人们的期待，聊天机器人的作用也就至关重要。聊天机器人通过实时反馈和流畅的体验让客户满意。

汽车

用自动驾驶汽车的训练数据加速机器学习，用更精确的现场测试改善语音识别系统、车内导航和用户体验。

自动驾驶汽车: 虽然自动驾驶汽车极其复杂，但其神经网络却由机器学习支持。自动驾驶汽车向前行驶时，会处理大量的视觉数据，就像驾驶员观察车窗外的情况一样。汽车需要为大量图像数据赋予意义，例如识别一棵树或是行人，然后将这些信息反馈至汽车AI系统以教予其。
语音识别: 传统的仪表盘和移动设备需要驾驶员用手操作，还会让驾驶员的视线离开路面。语音界面却无需如此。联网汽车需要访问大规模的语音数据收集来训练语音界面，为世界各地的消费者提供一流的用户体验。
预测行为: 语音识别和摄像头的进步将帮助追踪驾驶员的情绪，这是人机界面的重要一步，让汽车能够识别说话者的情绪及其语言，这样，当用户感到沮丧时，汽车就能知道并做出相应的反应。

政府

通过安全数据服务改善应急响应、防御计划和执法。

防御: 通过使用社交媒体监控、计算机视觉和数据标注，政府机构现在能够提取信息帮助监视恐怖分子、监控国家安全威胁等等。
国家应急响应: 自然灾害、协同袭击等紧急情况可能毫无预兆地发生。在民众生命危在旦夕之时，立即作出响应并进行协调至关重要。通过翻译、语音识别和文本数据收集，世界各地的应急响应人员有效地使用机器与陷于危险境地中的人们进行交流。
执法: 安全转录允许执法部门完成多项目标，包括从随身携带的视频中捕获文件、官方记录保存和档案记录解决方案。

医疗

AI和机器学习在医疗行业中令人兴奋的应用正在改变病患照顾的现状。

预测分析: 评估趋势，预测疫情，预测患者需求。
聊天机器人和虚拟医疗: 更快更好地提供客户服务。
保险业的发展: 利用机器学习建立基于各种数据点的更可靠承保模型。

三大机器学习方法？

“大多数人类和动物的学习都是无监督学习。如果将智能比作一块蛋糕，那么无监督学习就是这块蛋糕，监督学习就是蛋糕上的糖霜，而强化学习就是蛋糕上的樱桃。我们知道如何做糖霜和樱桃，但却不知道如何做蛋糕。我们需要先解决无监督学习问题，然后再思考真正的人工智能。”

Facebook AI研究主管杨立昆

监督式学习

监督式学习算法旨在根据示例或训练数据确定预测模型: 这些数据集包含输入变量和匹配的正确输出变量。这种算法的任务是分析数据，并生成一个函数，以准确地将输入映射到相应的输出。经过训练，这种算法能继续预测任何给定的新数据的结果。
分类: 分类最容易理解。评估数据，确定其属于哪个类别。举例说，某个机器学习模型要求机器确定一张图片是否为一匹马。这是个简单的是/否响应，是个二元分类示例。在提供足够多的马的图片和非马的图片的训练数据之后，机器就能学习辨别马的特征，然后独立观察图片，并告诉您图片是否为马。
回归: 不是分离数据和分配类别，而是要求机器根据从初始训练数据中得到的响应预测一个响应或输出。举个简单的例子，如果初始输入3和5的目标是8，学习的逻辑就是将两个输入相加。最终，该模型会使用回归分析预测输入4和6的目标为10。监督式学习属于任务导向型；也即“为我找到XYZ目标。”

半监督式学习

半监督式学习是一种混合模型。使用半监督式深度学习的算法是在标记数据和未标记数据的组合上训练的。这种方法可能更为实用，因为让数据科学家或数据工程师标记数据可能代价高昂。其他时候，之所以采用这种方法，是因为数据规模太大，标记数据的任务太过艰巨。团队采用混合方法的另一个原因是，要避免在数据标记期间可能出现任何类型的人为偏见。

“在无数据之前就建立理论是最大的错误。不知不觉中，人们开始扭曲事实以附会理论，而不是让理论符合事实。”夏洛克·福尔摩斯

通过半监督式学习，您的模型可能会受益，并可以通过纳入一些目标或已标记数据来加快工作，为理解未标记数据所做的工作还可能会揭示见解，为您提供尚未发现的输出。这种方法在许多情况下都是双赢的，也是常用方法。

强化学习

强化学习是最抽象的方法，它完全基于机器，通常被称为“学习主体”，通过反复试错学习。在给定的环境中，机器根据它所获得奖励的定义决定采取哪些行动提升性能。这种试错活动叫做探索。获自理解哪些行为能获得奖励的知识叫做利用。

学习主体在先进的机器学习算法的推动下，通过对环境的探索和利用，最终获得足够的知识，开始展示近乎人类水平的人工智能。

机器人就是强化学习的最佳示例。机器人在工厂中的使用很大程度上取决于它们使用强化学习适应环境的能力，它们不断降低出错率，完成类似人类的任务和行为。

机器学习需要什么样的数据？

“机器学习的好坏取决于用来训练它的数据。”

Daniel Tunkelang，曾在Endeca、Google和LinkedIn领导机器学习项目机器学习项目需要有足够多的正确数据来支持，这点非常重要，关于它的文章不胜枚举。

正如前文引语中的Tunkelang在《关于机器学习您必须知道的10件事情》中所解释，“少了复杂的算法还能进行机器学习，但少了好的数据就不行。”

那么需要怎样的数据呢？这要视情况而定。

结构化数据与非结构化数据

结构化数据: 结构化数据有逻辑组织，便于计算机读取和理解。它既可以是从ERP或CRM系统中提取的机器生成的交易数据，也可以是来自传感器的关于动作的简单时间戳数据，还可以是电子表格中人工生成的数据输入。这种类型的数据最常用于监督式学习中，即使数量庞大，也能非常快地处理。
非结构化数据: 行业领导者认为，世界上超过80%的数据都是非结构化数据，而且数量呈指数级增长。非结构化数据无所不在。人类生成的非结构化数据包括微软Word文件和其他文本文件、演示文稿、视频、图像、音频、社交媒体帖子等等。机器生成的非结构化数据包括监控录像、卫星图像和科学数据等等。监督式学习和强化学习都是不可思议的工具，可用于获取见解并利用非结构化数据完成更多任务。

机器学习需要多少数据？

简而言之：很多。即使是世界上最好的算法，也很难在数据不足的情况下得出正确的结果。

“AI技术需要对模型进行再训练，以匹配可能不断变化的条件，因此训练数据必须经常更新。在三分之一的情况下，模型需要至少每月更新一次，在近四分之一的情况下，模型需要每天更新。”

麦肯锡全球研究所，AI前沿笔记。

原因就是数量越大，准确度就越高。

这点有很多原因。其中一个原因是，大多数机器学习模型都试图让计算机理解千变万化的数据集。

例如，对于语音识别应用，性别、年龄、方言等方面的差异，导致语音千变万化。一些专家称，一个模型至少需要10,000小时的音频才能提供中等精度的输出。另一些则称，虽然所需的数据总量取决于模型或问题的复杂性，但大多数模型的最低要求是100,000个实例。

数据“质量”非常重要？

是的！其重要性甚至超过数据的数量。

“更多的数据优于聪明的算法，但质胜于量。”

Peter Norvig, 计算机科学家，谷歌和行业领袖

致使数据“不佳”的因素可能与人有关，标注不准确，有误导性，或者不完整。在这些情况下，需要进行一些数据清理或准备工作。

如果模型的任务是对数据进行分类，那么就必须首先正确标记训练数据。有时格式就是个问题。例如，在处理图像数据时，您可能需要调整图像的大小，以便让模型分析相同长度的向量。

您使用的任何数据都需要进行某些清洗。专家指出，需要做的工作不只是数据的提取、转换和加载（ETL）。在任何机器学习项目中，即便上述工作已完成，要使数据符合数据科学要求，所需的清洗工作平均通常还要占总工作量的80%。

机器学习常见问题解答补充资源

随着用例的不断增加，您会希望与时俱进，以各种方式改进模型并为客户创建更好的产品。

麦肯锡全球研究院 AI 前沿笔记
AI与机器学习全景报告
机器学习需要多少数据？

机器学习术语表

人工智能(AI): 机器独立运行以完成通常需要人类智能的任务和活动的能力。
聊天机器人: 聊天机器人是一种虚拟助手，它可以模拟典型的对话线程与人类进行交流。通常通过互联网交付，嵌入到网站或手机应用中。
数据分类: 数据可以由人或机器分类，它是将特定类别分配给具有相同特征的数据的过程，例如日期、来源、类型等。其目的是使数据更易于理解、分析或使用。
数据标记: 数据标记由人执行，它是添加标签的过程，为机器提供目标，用于监督式机器学习模型。
机器学习: 机器学习即教授机器如何学习的过程，为机器提供指导，帮助它们自己开发逻辑，并访问您希望它们探索的数据。
强化学习: 机器或学习主体得到一个数据集、一套关于如何探索数据的规则，并清楚理解其表现何时会得到奖励。在探索数据及其“环境”时，机器通过反复试错，学习获得奖励并实现其目标的最高效和有效的方法。
结构化数据: 世界上只有20%的数据被认为是“结构化的”。结构化数据以一种便于计算机分析和解释的方式予以组织。它通常出现在关系数据库、电子表格和企业系统（如CRM、ERP）和金融应用中。
监督式学习: 监督式学习模型是当今使用的机器学习中最简单和最准确的实例。在监督式学习中，将为机器提供结构化的数据集，其中包括输入和已被标记为“目标”的数据或期望输出的数据。机器从这些例子中学习将输入转换为输出的逻辑，最终机器仅需输入即可独立创建目标输出。
训练数据: 训练数据是机器学习项目中用于开始教授机器有关该项目的逻辑、行为或其他智能形式的数据。模型在使用足够的数据后，就会得到测试数据，在项目宣告成功之前，它会使用验证数据运行。
非结构化数据: 世界上80%的数据的组织方式都不利于解释或分析。如文本和聊天信息、录制的音频、视频和社交媒体帖子。
无监督学习: 机器得到的数据尚未被标记。机器和模型的任务是寻找数据之间的相关性、模式或关系，并将这些见解作为输出交付。