【数据科学和可视化】反思十年数据科学和可视化工具的未来

news2024/11/16 18:34:01

7809cad086db914797ebd50ece45dda4.png

数据科学在过去十年中呈爆炸式增长,改变了我们开展业务的方式,并让下一代年轻人为未来的工作做好准备。但是这种快速增长伴随着对数据科学工作的不断发展的理解,这导致我们在如何使用数据科学从我们的大量数据中获得可操作的见解方面存在很多模糊性。在数据科学的发展塑造了我自己的职业生涯之后,我想深入研究什么是数据科学、数据科学的工作是什么以及谁是数据科学家等问题。我翻阅了研究文献,以提取关于数据科学和数据科学家的各种研究和分析的线索,将这些问题的答案编织在一起。我在一篇题为“传递数据指挥棒:对数据科学工作和工作者的回顾性分析”的研究出版物中介绍了这些结果。


这项研究的部分动机是作为研究和开发的基础,以便我可以确定可视化分析工具可能解决未满足需求的领域。然而,另一个动机是对一个十多年前我第一次开始计算机科学高级研究时还不存在的领域的个人反思。在这篇博文中,我总结了这篇研究论文的几个关键要点,并分享了我对它的发现如何帮助我们为数据科学构建下一代数据可视化工具的想法。

什么是数据科学?

254670d624f38c7d9de6a063c18d5a54.png

事实证明,数据科学对不同的人来说是不同的东西。对某些人来说,数据科学并不是什么新鲜事物,它只是已经存在很长时间的统计技术的实际应用。对其他人来说,这种观点过于狭隘,因为数据科学不仅需要统计方法的知识,还需要计算技术才能使这些方法的应用变得实用。例如,数据科学家仅了解线性回归是不够的,他们还需要知道如何将其大规模应用于大量数据——这不是传统统计学教育的一部分。尽管如此,即使是那些认为数据科学不仅仅是应用统计学的人也可能会犹豫说它是新事物。收集和分析数据(甚至是大量数据)的做法长期以来一直是科学研究的一部分,例如生物学或物理学;许多人认为数据科学只是经验科学中已经发生的事情的延伸。


但这里还有第三种观点即数据科学确实是新事物,既不同于统计学,也不同于科学家在研究原子和基因时使用的方法。将统计学和计算机科学与必要的主题专业知识结合在一起,带来了新的挑战,这些挑战由数据科学独特地解决,并由数据科学家解决。此外,数据科学家开展的工作不同于其他类型的数据分析,因为它需要更广泛的多学科技能。我们的研究和其他人的研究认为,数据科学确实是新的和不同的东西,因此我们创建了一个工作定义,作为我们工作的基础:

“数据科学是一个多学科领域,旨在通过主要统计和计算技术的结构
化应用,从现实世界的数据中学习新的见解”


这个定义很重要,因为它有助于我们理解数据科学工作者面临的挑战和未满足的需求,这主要源于使用真实数据而不是模拟数据的挑战,以及伴随应用统计和计算方法的挑战这些数据大规模。


什么是数据科学工作?

11c3e919ca9279136a31e5cc42ae9e82.png

  • 将数据科学工作提炼成四个高阶(准备、分析、部署和通信)和 14 个低阶过程。红色标出的过程是主要使用数据可视化的过程,但这并不排除它在数据科学工作的其他方面的使用。

重要的是,数据科学的工作定义缩小了研究范围。我们没有考虑人们可能希望进行的所有可能类型的数据分析,而是仔细研究数据科学家进行的分析类型。这种区别很重要,因为实验物理学家分析数据所采取的具体步骤与数据科学家可能采取的分析步骤不同,即使它们有共同点。这导致了一个重要的后续问题:数据科学的工作到底是什么?


有几个行业标准用于分解数据科学工作。第一个是 KDD(或数据发现中的知识)方法,随着时间的推移,它被其他人修改和扩展。根据这些推导以及采访数据科学家的研究,我们创建了一个框架,该框架具有四个高阶流程(准备、分析、部署和通信)和 14 个低阶流程。使用红色笔划轮廓,我们还强调了数据可视化已经在数据科学工作中发挥重要作用的特定领域。在我们的研究文章中,我们提供了这些过程的详细定义和示例。

谁是数据科学工作者?

b1665754138f833f5c2aca00360607a2.png

Nine Data Science roles that we found across twelve in depth studies with Data Scientists

这些年来,我听到了很多关于数据科学家是什么的不同看法。我喜欢的一个观点是,数据科学家是“比统计学家更擅长软件工程,比软件工程师更擅长统计”的人。我最近听到的一种厚颜无耻的说法是,数据科学家是“西海岸的统计学家”。

然而,当我们深入研究对数据科学家的现有研究时,我们没有预料到会发现一些东西,但它变得一致且重要,那就是“数据科学家”的多样性以及他们的角色如何在特定的数据科学过程中发生变化。例如,您可能已经注意到数据工程师的崛起,作为一个独特但仍然相邻的数据科学角色。随着数据科学工作的复杂性增加,数据科学家变得不那么笼统而更加专业,他们经常从事数据科学工作的特定方面。哈里斯等人进行的采访。早在 2012 年就已经确定了这一趋势,而且随着时间的推移,这种趋势只会加速。他们敏锐地观察到,数据科学角色之间的这种多样性导致“数据科学家与寻求帮助的人之间的沟通不畅”。


我们在 Harris 工作的结果的基础上,检查了 12 项研究,总计数千名被认定为数据科学家的人。从我们对这些研究的元分析中,我们能够确定 9 个不同的数据角色。这些人具有不同的技能和背景,我们沿着统计、计算机科学和领域专业知识的轴进行了说明。我们还将以人为本的设计纳入我们对数据科学技能的描述中,因为考虑到数据产品(如面部识别应用程序)的影响越来越重要。我们要强调的是,这些角色不是绝对的类别,它们的界限以及担任这些角色的这些人的技术技能强度是流动的。相反,这些类别的角色旨在作为指导,帮助研究人员和其他人了解他们正在与谁交谈以及他们的背景可能是什么。


这将如何改变我们构建可视化和数据分析工具的方式?


当然,最重要的考虑是我们对数据科学的定义以及我们的数据科学工作和工作者框架如何帮助我们构建更好的数据可视化工具。首先,它有助于明确数据科学工作和工作人员的多样性并以证据为基础。我们已经使用这个框架来创建更清晰的标准来分解数据科学中的 Tableau 客户体验。我们可以更精确地确定他们正在尝试做什么,并且可以就这些过程提出更多探索性的问题。知道“数据科学家”这个角色本身包含大量的多样性,我们可以通过将我们正在与之交谈的个人分类为我们的九个数据科学角色来更好地确定谁在执行这项工作。这样的分类使我们更容易理解我们的可视化系统需要支持的任务以及在什么级别上。例如,技术分析师和 ML/AI 工程师,这是我们描述的两个数据科学角色,都可以从事模型构建的共同任务,但需求却截然不同;如果我们忽略这些差异,我们就有可能为这两个角色构建错误的工具。


但也许对我来说最重要的是,这个框架还帮助我思考当前的可视化分析工具生态系统中缺少什么。我得出的一个令人担忧的结论是,现有工具只专注于可视化机器学习模型,并且缺乏支持数据科学工作其他关键方面的工具,例如数据准备、部署或通信。这种工具的缺乏不仅增加了数据科学工作的开销,而且还使数据科学家无论担任什么角色,都更难以让他们的工作影响组织决策和实践。这项关于数据科学工作和工作者的研究帮助我发现了这些挑战,并为构建更好的工具来帮助人们查看和理解他们的数据定义了机会。

本文 :https://architect.pub/reflecting-decade-data-science-and-future-visualization-tools
讨论:知识星球【首席架构师圈】或者加微信小号【ca_cto】或者加QQ群【792862318】
公众号

【jiagoushipro】
【超级架构师】
精彩图文详解架构方法论,架构实践,技术原理,技术趋势。
我们在等你,赶快扫描关注吧。
4edb415a30fe9fbb0127e54e857ddb90.jpeg
微信小号

【ca_cea】
50000人社区,讨论:企业架构,云计算,大数据,数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化.

ed576450c59e9e4efa14a312a002babb.jpeg

QQ群

【285069459】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据,云计算,物联网,人工智能等各种新兴技术。
加QQ群,有珍贵的报告和干货资料分享。

f2d657557871444972d01dba2f94d921.jpeg

视频号【超级架构师】
1分钟快速了解架构相关的基本概念,模型,方法,经验。
每天1分钟,架构心中熟。

1f716a3809b2eb09596fce7cfb74e391.jpeg

知识星球【首席架构师圈】向大咖提问,近距离接触,或者获得私密资料分享。

d1abc094485b0f5dc17ee2d2fabc48c9.jpeg

喜马拉雅【超级架构师】路上或者车上了解最新黑科技资讯,架构心得。【智能时刻,架构君和你聊黑科技】
知识星球认识更多朋友,职场和技术闲聊。知识星球【职场和技术】
领英Harryhttps://www.linkedin.com/in/architect-harry/
领英群组领英架构群组
https://www.linkedin.com/groups/14209750/
微博‍‍【超级架构师】智能时刻‍
哔哩哔哩【超级架构师】

27ecd510b60c585e8bd69f4f70cbaacc.jpeg

抖音【cea_cio】超级架构师

9759a1508665b237df76f3d054546cad.jpeg

快手【cea_cio_cto】超级架构师

679b4c699964cc0a3f117feb6f5ad100.jpeg

小红书【cea_csa_cto】超级架构师

dbe84cb73685695b60ca22bea9b8d82c.jpeg

网站CIO(首席信息官)https://cio.ceo
网站CIO,CTO和CDOhttps://cioctocdo.com
网站架构师实战分享https://architect.pub   
网站程序员云开发分享https://pgmr.cloud
网站首席架构师社区https://jiagoushi.pro
网站应用开发和开发平台https://apaas.dev
网站开发信息网https://xinxi.dev
网站超级架构师https://jiagou.dev
网站企业技术培训https://peixun.dev
网站程序员宝典https://pgmr.pub    
网站开发者闲谈https://blog.developer.chat
网站CPO宝典https://cpo.work
网站首席安全官https://cso.pub    ‍
网站CIO酷https://cio.cool
网站CDO信息https://cdo.fyi
网站CXO信息https://cxo.pub

谢谢大家关注,转发,点赞和点在看。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/711130.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue3实现一个简单的数字滚动效果

一、实现数字按步长递增的效果 1.实现思路 将这个组件封装起来,需要外部引用的文件传递两个值:指定数值 num 和 滚动持续时长 duration。首先设置一个增量 step,让数字按照这个增量来进行递增。然后设置一个定时器 setInterval,…

Flink集群部署总结

集群部署方式 Flink有两种部署方式,Standalone和Flink on Yarn集群部署方式。 Flink集群架构 Flink分布式架构是常见的主从结构,由JobManager和TaskManager组成。JobManager是大脑,负责接收、协调、分发Task到各个TaskManager,也…

靶场搭建——搭建pikachu靶场

搭建pikachu靶场 搭建pikachu靶场1、win11本机搭建步骤2、虚拟机win2012搭建步骤 我所碰见的问题以及解决方式: 搭建pikachu靶场 这里我所运用到的材料有:首先我最终是在虚拟机中环境为win2012和主机都搭建完成。 (一个即可) Ph…

在各数据库中使用 MERGE 实现插入避重 SQL

MERGE实现插入避重操作 前言 MERGE是一种在数据库管理系统中用于合并(插入、更新或删除)数据的SQL语句。它允许根据指定的条件将数据从一个表合并到另一个表中,同时避免重复插入或更新数据。 MERGE语句通常由以下几个关键字和子句组成&…

Spring Boot 中的服务消费

Spring Boot 中的服务消费 在分布式系统中,服务消费是一个很常见的场景。通过服务消费,可以将一个系统中的服务作为另一个系统中的组件来使用。Spring Boot 提供了很多工具来简化服务消费的过程,本文将深入探讨 Spring Boot 中的服务消费是什…

Java——《面试题——maven篇》

全文章节 Java——《面试题——基础篇》 Java——《面试题——JVM篇》 Java——《面试题——多线程&并发篇》 Java——《面试题——Spring篇》 Java——《面试题——SpringBoot篇》 Java——《面试题——MySQL篇》​​​​​​ Java——《面试题——SpringCloud》 Java——…

Redis数据库的简介、部署及常用命令

Redis数据库的简介、部署及常用命令 一、关系数据库与非关系型数据库概述1、关系型数据库2、非关系型数据库3、关系数据库与非关系型数据库区别4、非关系型数据库产生背景 二、Redis简介1、Redis服务器程序的单线程模型2、Redis的优点 三、Redis部署四、Redis 命令工具1、redis…

全概率公式和贝叶斯公式

人工智能和机器学习中经常听到一个著名公式:贝叶斯概率公式。早已忘记了,赶紧记一下笔记。 (一)全概率公式: 注意:全概率公式成立的前提是Bi是样本的划分 其证明过程如下: (二&…

C++笔记之互斥锁,原子变量,条件变量对比

C笔记之互斥锁,原子变量,条件变量对比 code review! 目的:避免多线程间共享数据的竞态条件。 文章目录 C笔记之互斥锁,原子变量,条件变量对比1.std::mutex——互斥锁2.std::lock_guard3.std::unique_lock4.std::ato…

C++之lambda函数应用(一百四十七)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…

如何看懂时序图(1):时序图基础知识

对于参考手册中经常出现的一些时序图,经常会让我摸不着头脑。比如对于Flash的时序图来说,要看懂的话,里面的每一个参数都得系统地学一遍,而且时序图中的一些符号也不太懂是什么意思。前一段时间调HyperRAM的时候,因为那…

冯·诺依曼架构哈佛架构(嵌入式学习)

冯诺依曼架构&哈佛架构 0. 前言1. 冯诺依曼架构(von Neumann architecture)关键组件限制&挑战 2. 哈佛架构关键组件限制&挑战 3. 冯诺依曼架构&哈佛架构的区别4. 知识扩展 0. 前言 冯诺依曼架构(von Neumann architecture&a…

Python 命令行参数

Python 命令行参数 1、sys 库 sys.argv 获取参数2、getopt 模块解析带-参数2.1 短参数shortopts2.1.1 无短参数2.1.2 短参数h无值2.1.3 短参数h有值2.1.4 多个短参数h:v 2.2 长参数longopts2.2.1 长参数无值2.2.2 长参数有值 2.3 有空格字符串值 1、sys 库 sys.argv 获取参数 s…

Kubernetes核心概念汇总—调度、抢占和驱逐(Pod 调度就绪态)

Pod 一旦创建就被认为准备好进行调度。 Kubernetes 调度程序尽职尽责地寻找节点来放置所有待处理的 Pod。 然而,在实际环境中,会有一些 Pod 可能会长时间处于"缺少必要资源"状态。 这些 Pod 实际上以一种不必要的方式扰乱了调度器(…

Vue3 如何去开发安卓 或者 ios

Vue3 有没有一款好用的开发原生的工具 1.uniapp 我个人认为uniapp 适合开发小程序之类的,用这个去开发原生应用会存在一些问题 性能限制:由于 Uniapp 是通过中间层实现跨平台,应用在访问底层功能时可能存在性能损失。与原生开发相比&#xf…

【Linux】调试工具gdb

目录 前言 一、前情了解 二、gdb常用命令 1.基本指令 2.断点 3.调试过程 4.查看内容 前言 gdb是Linux环境下了一个调试工具,在代码运行出现问题时,我们可以通过它来进行调试,找出问题的所在。本文来带大家来了解一下gdb的使用方法。 …

单片机第一季:零基础1

目录 1,第一章 2,第二章 1,第一章 单片机是全球用量最大的CPU,是物联网节点设备主控CPU,单片机是其他物联网编程技术的基础,通过学习单片机学习编程语言、调试技巧、工具使用等; 51单片机最简…

【前端笔记】indexDB使用简单介绍

什么是indexDB? IndexedDB 是一种底层 API,用于在客户端存储大量的结构化数据(也包括文件/二进制大型对象(blobs))。该 API 使用索引实现对数据的高性能搜索。虽然 Web Storage 在存储较少量的数据很有用&…

chatgpt赋能python:如何用Python计算圆面积

如何用Python计算圆面积 介绍 圆是几何学中基本的图形之一,圆面积的计算是数学中的基础知识。使用Python编程语言可以快速、简便地计算圆的面积。本文将介绍如何使用Python编写圆面积计算器,并演示计算圆面积的步骤。无需高深的数学知识,只…

IPv6地址分类

一. 前言 IPv6地址分为单播地址,组播地址和任播地址。它们的地址详细分类和地址的范围如下图所示。 二. IPv6地址分类 1. 全球单播地址 类似于IPv4的公网地址,由前缀,子网ID和接口标识组成。 2. 链路本地地址 只能在连接到同一个本地链路的节…