数据科学入门-初学者指南
过去二十年,您并非与世隔绝,所以您可能认为自己或多或少知道数据科学是什么。您可能希望简要了解一下数据科学的涵义,了解开始学习数据科学和找工作所需的条件。
以下是本文将为您提供的重点内容:
数据科学的要点是:数据进来,见解出来。数据科学家的工作是在每个阶段管理从数据到见解的管道。
从事数据科学工作需要哪些工具、技术和技能。
数据科学作为一种职业的总体概况。
如果这听起来就像您正在寻找的东西,那就让我们深入研究一下吧。
-
什么是数据科学?
正如我之前所说,数据科学最好概括为从数据到洞察的流程。作为一名数据科学家,无论你在哪家公司,你都会做这样的任务:
-
提取数据 -
清洁或篡改数据 -
分析数据 -
识别模式或趋势 -
在数据基础上建立预测和统计模型 -
数据可视化与交流
简而言之,您正在解决问题、做出预测、优化流程并指导战略决策。
由于很少有公司能够准确掌握数据科学家的具体职责,因此您可能还会承担其他职责。一些雇主希望数据科学家在其职责中增加信息安全或网络安全职责。其他雇主可能希望数据科学家具备云计算、数据库管理、数据工程或软件开发方面的专业知识。准备好身兼数职。
这份工作之所以重要,并不是因为《哈佛商业评论》称其为 21 世纪最性感的工作,而是因为数据量正在不断增加,而很少有人知道如何将数据转化为洞察力。作为一名数据科学家,你会只见树木不见森林。
2010 年至 2020 年全球创建、捕获、复制和消费的数据/信息量,以及 2021 年至 2025 年的预测
来源: https://www.statista.com/statistics/871513/worldwide-data-created/
-
数据科学中的关键概念
现在你已经有了大致的了解。让我们来看看数据科学中的一些关键概念。如果你能想象出数据到洞察的流程,我会指出每个关键概念发挥作用的地方。
2.1 数据处理
在该管道的开始阶段,您得到的是大量质量参差不齐的数据。有一项著名的(但 不正确的 )统计数据称,数据科学家将 80% 的时间用于清理数据。虽然实际时间可能没有这么长,但构建漏斗和处理数据是这项工作的重要组成部分。
假设你是一家电子商务公司的数据科学家。在那里,数据处理可能涉及清理和转换客户交易数据、合并和协调来自不同来源(例如网站分析和客户关系管理 (CRM) 系统)的数据,以及处理缺失或不一致的数据。
您可能需要标准化格式、删除重复项或 NaN,并处理异常值或错误条目。此过程可确保数据准确、一致且可供分析。
2.2 数据探索和可视化
一旦数据被整理好并提交,你就可以开始查看它了。你可能认为数据科学家会立即开始对数据使用统计模型,但事实是模型太多了。首先,你需要掌握你所拥有的数据类型。然后你就可以寻找重要的见解和预测。
例如,如果您是 GitHub 的数据科学家,数据探索将涉及分析平台上的用户活动和参与度。您可以查看提交、拉取请求和问题的数量以及用户互动和协作等指标。通过探索这些数据,您可以了解用户如何与平台互动,识别热门存储库,并发现软件开发实践的趋势。
而且由于大多数人能更好地理解图片的意义,而不是表格的意义,因此数据可视化也包含在数据探索中。例如,作为 GitHub 数据科学家,您可以使用折线图来显示随时间推移的提交次数。条形图可用于比较平台上使用的不同编程语言的流行度。网络图可以说明用户或存储库之间的协作。
来源: https://www.reddit.com/r/DataScienceMemes/comments/nzoogr/i_dont_like_gravy/
2.3 统计分析
此时,在数据科学的数据到洞察流程中,您已经完成了前三分之二的工作。数据已经输入,您正在对其进行探索。现在是时候提取洞察了。最后,您正在阅读以对您的数字应用一些统计分析。
假设您是 Hello Fresh 等公司的数据科学家。您可能会运行线性回归等统计分析来了解影响客户流失的因素,使用聚类算法根据客户的偏好或行为对其进行细分,或进行假设检验以确定营销活动的有效性。这些统计分析有助于发现数据中的关系、模式和重要发现。
2.4 机器学习
数据科学家的妙处在于他们能预测未来。可视化数据到洞察的流程。您已经了解了过去和现在的情况。但您的老板可能会问:如果我们在产品中添加新产品会怎样?如果我们周一不营业会怎样?如果我们将一半的车队转换为电动汽车会怎样?
作为一名数据科学家,您可以利用自己的水晶球并使用机器学习做出智能预测。例如,假设您是 FedEx 等物流公司的数据科学家。您可以使用历史运输数据、天气数据和其他相关变量来开发预测模型。这些模型可以预测运输量、估计交货时间、优化路线规划或预测潜在的延误。
使用回归、时间序列分析或神经网络等机器学习算法,您可以预测增加新配送中心对交货时间的影响,模拟不同运营变化对运输成本的影响,或预测客户对特定运输服务的需求。
2.5 通信和商业智能
数据科学中最重要的概念不是机器学习或数据清理,而是沟通。你向公司中那些不了解神经网络和梯度提升算法的决策者展示这些见解。沟通和商业敏锐度都是数据科学中的关键概念。
假设您是 Meta 等公司的数据科学家。您刚刚发现用户参与度指标与客户保留率之间存在显著相关性,但您需要与不熟悉“统计显著性”概念的营销副总裁分享这一发现。您还需要熟悉客户生命周期价值 (CLV),才能解释您的发现的相关性和重要性。
-
数据科学家的基本技能
我们已经介绍了数据科学的关键概念。现在让我们来看看作为一名数据科学家需要具备的基本技能。 如果您有兴趣了解更多信息,我在这里介绍了一些 成为数据科学家的更细致的技能。
3.1 编程语言、数据查询和数据可视化
很难根据技能的重要性对其进行排序——数据科学家需要多种技能,每一种技能都同等重要。话虽如此,如果有一种技能你绝对不能没有,那就是编码。
编码分为几个方面 - 您需要编程语言,通常是 R 或 Python(或两者兼有)。您还需要查询语言来进行数据检索和操作,例如用于关系数据库的 SQL(结构化查询语言)。最后,您可能需要了解其他语言或程序,例如用于数据可视化的 Tableau,不过值得一提的是,如今很多数据可视化都是用 Python 或 R 完成的。
3.2 数学
还记得我之前提到的统计数据吗?作为一名数据科学家,你需要知道如何做数学。数据可视化只能在你需要一些实际的统计意义之前发挥作用。关键的数学技能包括:
概率与统计:概率分布、假设检验、统计推断、回归分析和方差分析 (ANOVA)。这些技能可让您做出合理的统计判断并从数据中得出有意义的结论。
线性代数:向量和矩阵的运算、线性方程组的求解、矩阵分解、特征值和特征向量以及矩阵变换。
微积分:您需要熟悉导数、梯度和优化等概念,以训练模型、优化和微调模型。
离散数学:组合学、图论和算法等主题。您将使用这些进行网络分析、推荐系统和算法设计。这对于开发处理大规模数据的算法至关重要。
3.3 模型管理
让我们来谈谈模型。作为一名数据科学家,您需要知道如何构建、部署和维护模型。这包括确保模型与现有基础设施无缝集成、解决可扩展性和效率问题,以及在实际场景中不断评估其性能。
就技术方面而言,这意味着您需要熟悉:
机器学习库:包括 Python 中的 scikit-learn、用于深度学习的 TensorFlow、PyTorch 或 Keras,以及用于梯度提升的 XGBoost 或 LightGBM。
模型开发框架:Jupyter Notebook 或 JupyterLab 等用于交互式和协作式模型开发的框架。
云平台:考虑使用 Amazon Web Services (AWS)、Microsoft Azure 或 Google Cloud Platform (GCP) 来部署和扩展机器学习模型。
**自动化机器学习 (AutoML)**:Google AutoML、H2O.ai 或 DataRobot 可自动构建机器学习模型,无需大量手动编码。
模型部署和服务:Docker 和 Kubernetes 通常用于将模型打包并部署为容器。这些工具允许模型在不同环境中部署和扩展。此外,Python 中的 Flask 或 Django 等工具允许您创建 Web API 来提供模型并将其集成到生产系统中。
模型监控和评估:Prometheus、Grafana 或 ELK(Elasticsearch、Logstash、Kibana)堆栈用于日志聚合和分析。这些工具有助于跟踪模型指标、检测异常并确保模型随着时间的推移继续表现良好。
3.4 沟通
到目前为止,我们已经介绍了“硬”技能。现在让我们考虑一下你需要哪些软技能。正如我在“概念”部分提到的,你需要的一项重要技能是沟通。以下是作为数据科学家你需要进行的沟通类型的一些示例:
数据讲故事:您需要将复杂的技术概念转化为清晰、简洁、引人入胜的叙述,以引起受众的共鸣,包括您的分析的意义及其对决策的影响。
可视化:是的,数据可视化属于沟通技巧的一部分。除了创建图表的技术能力外,您还应该知道何时、何种类型以及如何谈论数据可视化。
协作和团队合作:没有数据科学家在真空中工作。您将与数据工程师、业务分析师和领域专家合作。练习您的积极倾听和建设性反馈技能。
客户管理:并非所有数据科学家都需要这样做,但有时你会直接与客户或外部利益相关者合作。你需要培养强大的客户管理技能,包括了解他们的要求、管理期望以及定期更新项目进度。
持续学习和适应能力:最后但并非最不重要的一点是,您需要随时准备学习新知识。随时了解该领域的最新进展,并随时准备根据需要获取新技能和知识。
3.5 商业敏锐度
这归结为了解为什么数字在您的业务中很重要。例如,您可能会发现人们在周日购买鸡蛋与天气之间存在高度显著的关系。但这对您的业务为什么很重要?
在这种情况下,您可能会进一步分析并发现周日鸡蛋购买量的增加与晴朗的天气相关,这表明顾客在天气好的时候更有可能进行户外活动或举办早午餐。杂货店或餐馆可以利用这一洞察来相应地规划库存和促销活动。
通过将数据模式与业务成果联系起来,您可以提供战略指导和可操作的建议。例如,这可能涉及在阳光明媚的周末优化鸡蛋相关产品的营销活动或探索与当地早午餐店的合作关系。
-
数据科学工作流程
数据科学家是做什么的 ?为了了解一下,让我们看一下数据科学项目涉及的典型步骤:问题制定、数据收集、数据清理、探索性数据分析、模型构建、评估和沟通。
我将通过一个例子来说明每个步骤:在本节的其余部分,假设您是一家电子商务公司的数据科学家,并且该公司的营销团队希望提高客户保留率。
4.1 问题表述
这意味着您要掌握业务目标、明确问题陈述并定义衡量客户保留的关键指标。
您将致力于找出导致客户流失的因素,并制定降低客户流失率的策略。
要衡量客户保留率,您需要定义关键指标,包括客户流失率、客户生命周期价值 (CLV)、重复购买率或客户满意度分数。通过定义这些指标,您可以建立一种可量化的方法来跟踪和评估您的策略在提高客户保留率方面的有效性。
4.2 数据收集
收集相关数据源,例如客户购买历史、人口统计信息、网站互动和客户反馈。这些数据可以从数据库、API 或第三方来源获取。
4.3 数据清理
收集的数据几乎肯定会包含缺失值、异常值或不一致。在数据清理阶段,您可以通过处理缺失值、删除重复项、解决异常值和确保数据完整性来预处理和清理数据。
4.4 探索性数据分析(EDA)
接下来,通过可视化数据、检查统计摘要、识别相关性以及发现模式或异常来深入了解数据并了解其特征。例如,您可能会发现经常购物的客户的留存率往往更高。
4.5 模型建立
开发预测模型来分析不同变量与客户保留之间的关系。例如,您可以构建逻辑回归或随机森林等机器学习模型,根据购买频率、客户人口统计或网站参与度指标等各种因素来预测客户流失的可能性。
4.6 评估
使用准确率、精确率、召回率或 ROC 曲线下面积等指标评估模型的性能。您可以使用交叉验证或训练测试拆分等技术来验证模型,以确保其可靠性。
4.7 沟通
您已经有一些发现 — 现在与全班同学分享。按照我们的例子,您需要能够在您所在的企业和更广泛的商业环境中明智地谈论您的客户流失结果。让人们关心,并解释为什么这个特定的发现很重要,以及他们应该做些什么。
例如,在分析客户流失后,您可能会发现客户满意度分数和流失率之间存在显著的相关性。
当您与营销团队或高管分享此信息时,您需要有效地传达影响和可操作的见解。您可以解释说,通过改善客户支持、个性化体验或有针对性的促销来提高客户满意度,公司可以减少客户流失、留住更多客户,并最终提高收入。
此外,您还需要将这一发现置于更广泛的商业环境中。将贵公司的客户流失率与竞争对手进行比较。
这就是你从数据湖到实际业务输入的过程。最终,请记住,数据科学是迭代和循环的。你将重复这个过程的各个步骤以及整个过程,努力寻找有趣的见解、回答业务问题并为你的雇主解决问题。
-
数据科学应用
数据科学是一个广阔的领域。几乎每个垂直领域、任何规模的公司都有数据科学家在工作。这是一个至关重要的角色。
以下是一些现实世界的例子,展示了数据科学在解决复杂问题方面的影响:
-
医疗保健:数据科学家分析大量医疗数据,以改善患者治疗效果和医疗保健服务。他们开发预测模型来识别高风险患者、优化治疗方案并检测疾病爆发的模式。 -
金融:考虑风险评估、欺诈检测、算法交易和投资组合管理。数据科学家开发模型,帮助做出明智的投资决策并管理金融风险。 -
运输和物流:数据科学家优化路线规划,降低燃料消耗,提高供应链效率并预测维护需求。 -
零售和电子商务:数据科学家分析客户数据、购买历史、浏览模式和人口统计信息,以开发推动客户参与、增加销售额和提高客户满意度的模型。
-
数据科学入门
好了,信息量很大。现在你应该清楚什么是数据科学、数据科学如何运作、你应该熟悉哪些工具和技术以及数据科学家的工作内容。
现在让我们看看在哪里可以学习和实践数据科学。这可以是一篇单独的文章,所以我将链接到你可以开始学习的资源列表。
最好的免费数据科学课程
数据科学的最佳学习资源 (书籍、课程和教程)
最适合初学者的 Python 数据科学项目
最好的计算机科学书籍
数据科学可视化最佳实践
在哪里获取数据来进行数据科学项目
实践关键数据科学技能的最佳平台
值得加入的最佳数据科学社区
总的来说,我建议你这样做:
使用这篇博文和数据科学家职位描述,列出您需要的技能清单。
从免费开始获取基础知识,然后寻找好的付费平台来了解更多信息。
建立项目和库的组合。
在 Kaggle 和 StrataScratch 等平台上练习。
获得认证——一些平台(例如 LinkedIn)提供认证来证明您具备相关技能。
开始申请。
网络——加入社区、Slack 群组和 LinkedIn 群组并参加活动。
最终,您可以预料到这个过程会花费一些时间。但最终还是值得的。
6.1 工作机会和职业道路
尽管 FAANG出现裁员潮 ,但根据 2022年《美国新闻与世界报道》 ,信息安全分析师、软件开发人员、数据科学家和统计学家仍位列十大热门职业之列。
来源: https://bootcamp.cvn.columbia.edu/blog/data-scientist-career-path/
就业市场仍然很火爆。公司仍然需要数据科学家。现在,如果你很难找到数据科学家的工作,请记住你不必从头开始。我建议你从初级职位开始,随着时间的推移逐渐适应这个角色。你可以从数据分析师、数据工程师或机器学习工程师做起。
-
结论
写一篇数据科学的简介很难,原因很简单,这是一个庞大的领域,它正在发展,每天都有更多的技术和工具加入。如果你从这篇文章中只学到几点,那就是:
数据科学采用多学科方法 。您需要掌握多个知识领域的技能,包括统计学、机器学习、编程和领域专业知识。学习永无止境。
数据科学是迭代的 。它非常基于流程,但您可以期望在继续过程中重复、优化和更新您的流程。成功且快乐的数据科学家乐于尝试。
软技能才是关键 。您不能只是 Python 专家;您需要通过故事、数字和图片向非技术利益相关者传达发现和见解。
希望这能给你一个起点。数据科学是一条回报丰厚且充满挑战的职业道路。如果你学习技能并付诸实践,你很快就能加入这个领域。Nate
Rosidi 是一名数据科学家,从事产品战略工作。他还是一名教授分析学的兼职教授,也是 StrataScratch 的创始人,该平台帮助数据科学家准备面试,回答顶级公司的真实面试问题。在 Twitter 上与他联系:StrataScratch 或 LinkedIn 。
原文链接:https://www.kdnuggets.com/2023/07/introduction-data-science-beginner-guide.html
本文由 mdnice 多平台发布