数据科学团队的角色分工

news2025/1/9 0:07:29

描述数据科学团队中角色分工常用下列维度。进一步以数据可视化直观表达的能力雷达图:

ML Ops - 机器学习运维

Data Pipelines - 数据流水线

Database - 数据库

Data Viz - 数据可视化

Storytelling - 数据讲故事

Business Insights - 业务洞察

Reporting - 报告

Experimentation - 实验

Stats - 统计

ML Modeling - 机器学习建模

Deployment - 部署

编码实现 Radar Chat

# DS岗位的能力雷达图谱

import numpy as np
import matplotlib.pyplot as plt
plt.style.use('ggplot')

rules = ['Data Engineer','ML Engineer','Data Scientists','Data Analysts']

# 添加极坐标网格和标签
# 极轴彼此间隔 360/11 度,角度作为标签提供
# 使用set_thetagrids功能自定义角度和标签的间距。

subjects = ['ML Ops','Data Pipelines','Database','Data Viz','Storytelling','Business Insights','Reporting','Experimentation','Stats','ML Modeling','Deploiomont']

DataEngieer = [80,100,100,20,30,30,44,30,30,30,35]
MLEngineer = [100,60,60,25,30,30,40,80,80,90,100]

# 将角度分成等分,按角度值对应数据值
angles = np.linspace(0,2*np.pi,len(subjects), endpoint=False)
print(angles)

[0.         0.57119866 1.14239733 1.71359599 2.28479466 2.85599332  3.42719199 3.99839065 4.56958931 5.14078798 5.71198664]

补齐完整的圆形

np.concatenate()函数可以用来拼接数组。

subjects.append(subjects[0])
DataEngieer.append(DataEngieer[0])
MLEngineer.append(MLEngineer[0])

Specifically, np.concatenate((angles, [angles[0]]))

这段代码的作用是:

  1. angles数组包含了雷达图每个轴的角度值(比如[0, 60, 120, 180..])
  2. [angles[0]]创建一个只有一个元素的数组,元素值是angles数组的第一个值,也就是0度。
  3. 将angles数组和这个只有一个元素的数组拼接起来,组成一个新的数组。
  4. 这样新的数组的效果是在angles数组的末尾再添加一次0度。
  5. 因为雷达图是个闭合图形,所以这个插在末尾的0度就是起到封闭图形的作用,使最后一个点和第一个点相连,实现闭合。

总结一下,这行代码的目的是向angles数组追加一个0度,以此来实现雷达图的封闭,使其成为一个闭合的多边形。这是绘制雷达图常用的一个技巧。

angles=np.concatenate((angles,[angles[0]]))
print(angles)
[0.         0.57119866 1.14239733 1.71359599 2.28479466 2.85599332
 3.42719199 3.99839065 4.56958931 5.14078798 5.71198664 0.        ]

测试效果图

ax=fig.add_subplot(polar=True) 这行代码的作用是:

  1. fig.add_subplot()函数可以在画布(Figure对象)上添加一个子图axes。
  2. polar=True参数指明添加的这个子图axes使用极坐标系。
  3. 不设置nrows和ncols参数时,默认在1行1列(只有一个子图)。
  4. 返回的ax对象即这个子图的坐标轴对象,后续可以在ax上作图。
  5. 一般绘图时使用直角坐标系(Cartesian coordinates),但在绘制雷达图时需要使用极坐标系(polar coordinates)。
  6. 通过fig.add_subplot(polar=True)可以直接创建一个极坐标的子图axes,而不需要再单独设置。
  7. 这样后面在ax上作图就可以自动使用极坐标模式了。

总结一下,这行代码实现了创建一个极坐标的子图来绘制雷达图,ax对象用于后续在极坐标子图上进行绘制

fig=plt.figure(figsize=(6,6))
ax=fig.add_subplot(polar=True)#
ax.plot(angles,DataEngieer)
plt.show()
alt

添加标签 label

fig=plt.figure(figsize=(6,6))
ax=fig.add_subplot(polar=True)

#basic plot
ax.plot(angles,DataEngieer, 'o--', color='g', label='Data Engineer')

填充绘图区域

可以使用填充函数填充,提供角度和值作为参数。

可以使用颜色和 Alpha 参数设置颜色和不透明度。 在比较多个实体时,最好使用对比色和较低的 alpha 值。

#fill plot
ax.fill(angles, DataEngieer, alpha=0.25, color='g')

#Add labels
ax.set_thetagrids(angles * 180/np.pi, subjects)
plt.grid(True)
plt.tight_layout()
plt.legend()
plt.show()
alt

ax.set_thetagrids(angles * 180/np.pi, subjects)

这行代码的作用是设置极坐标子图ax上的角度刻度和标签。 具体解释:

  1. angles数组包含了每个数据点所在的角度值。
  2. 但是matplotlib的极坐标角度单位默认是弧度值(radians)。
  3. 为了让角度以更易读的度数(degrees)显示,需要将弧度转换为度数。
  4. angles * 180/np.pi就是将弧度转换为相应的度数。
  5. ax.set_thetagrids()函数用于设置极坐标图的径向网格,也就是角度刻度。
  6. 第一个参数就是角度值数组,第二个参数是对应的标签数组。
  7. 这样就可以在图上以度数显示角度刻度和标签文本了。
  8. subjects数组中包含了每个数据点对应的特征标签。

总结:这行代码的作用是设置雷达图的角度刻度显示为度数值,并对应设置了标签文本,以显示每个数据点对应的特征信息。

复用上述代码,只需用MLEngineer 替代DataEngineer 输出MLEngineer职位的能力雷达图谱:

alt

数据科学团队的角色分工通常包括:

  1. 数据科学家(Data Scientist)
  • 使用统计、机器学习等方法对数据进行建模分析,提取价值和洞察
  • 对业务问题进行量化,构建和优化算法模型
  • 用技术手段解决实际业务问题
  1. 数据工程师(Data Engineer)
  • 构建数据处理流水线,对数据进行提取、清理、整合
  • 设计和维护大数据基础架构,如 Hadoop、Spark等
  • 将数据整合到分析平台,确保数据质量
  1. 业务分析师(Business Analyst)
  • 理解业务,定义业务问题,提出分析需求
  • 解释数据科学家的分析结果,制定业务策略
  • 将数据分析成果应用到业务决策中
  1. 数据库管理员/数据仓库工程师(DBA/DWE)
  • 设计数据库和数据仓库,处理大量结构化数据
  • 优化数据库查询,管理和维护数据库服务
  • ETL过程的数据转换和加载
  1. 项目管理者(Project Manager)
  • 制定项目计划,跟踪项目进度和资源
  • 连接技术团队和业务部门,协调沟通
  • 管理数据科学项目的时间表、预算、风险

本文由 mdnice 多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/775031.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Apache和Nginx是什么?|Nginx和Reactor是什么?|网路IO的本质|阻塞队列|异步非阻塞IO

前言 那么这里博主先安利一些干货满满的专栏了! 首先是博主的高质量博客的汇总,这个专栏里面的博客,都是博主最最用心写的一部分,干货满满,希望对大家有帮助。 高质量干货博客汇总https://blog.csdn.net/yu_cblog/c…

pandas 笔记:melt函数

和pivot_index 相反,前者是长表转宽表,melt是宽表转长表 pandas 笔记:pivot_table 数据透视表_UQI-LIUWJ的博客-CSDN博客 1 基本使用方法 pandas.melt(frame, id_varsNone, value_varsNone, var_nameNone, value_namevalue, col_levelNone…

【Linux】Zookeeper集群 + Fafka集群

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 Zookeeper集群 Fafka集群 Zookeeper 概述Zookeeper 定义Zookeeper 工作机制Zookeeper 特点Zookeeper 数据结构Zookeeper 应用场景Zookeeper 选举机制 Kafka 概述为什么需要消…

⚡【C语言趣味教程】(3) 浮点类型:单精度浮点数 | 双精度浮点型 | IEEE754 标准 | 介绍雷神之锤 III 源码中的平方根倒数速算法 | 浮点数类型的表达方式

🔗 《C语言趣味教程》👈 猛戳订阅!!! ​—— 热门专栏《维生素C语言》的重制版 —— 💭 写在前面:这是一套 C 语言趣味教学专栏,目前正在火热连载中,欢迎猛戳订阅&#…

laravel 的SQL使用正则匹配

案例场景 精准正则匹配 查询结果 代码如下 $regexp ^ . $new_str . [^0-9];$info Test::query()->where(is_del, 0)->whereRaw("name REGEXP $regexp")->pluck(name, id)->toArray();字符 “^” 匹配以特定字符或者字符串开头的文本 name 字段值包含…

国产单片机(沁恒微WCH)CH32V307评估板初探

国产单片机(沁恒微WCH)CH32V307评估板初探 关于沁恒微:国产芯厂家、官网链接 公司简介 - 南京沁恒微电子股份有限公司 (wch.cn) 开发板资源: 评估板应用于 CH32V307 芯片的开发,IDE 使用 MounRiver 编译器,可选择使用板载或独…

Python自动化办公:docx篇

文章目录 简介官方demo读取并修改已存在的docx参考文献 202201笔记迁移 简介 python的docx包是可以用来自动化处理docx文件,可以从无到有生成一个docx文件,也可以对已有的docx文件做批量修改。(但印象里是只能操作.docx文件,如果…

【电路原理学习笔记】第5章:串联电路:5.2 串联电路的总电阻

第5章:串联电路 5.2 串联电路的总电阻 5.2.1 串联电阻相加 由于每个电阻对电流的阻力与其阻值成正比,因此,当电阻串联时,电阻值要相加串联电阻的数量越多,对电流的阻力就越大,也就意味着更大的电阻。因此…

收入下滑,亏损严重,面临法律诉讼的中驰车福申请纳斯达克IPO上市

来源:猛兽财经 作者:猛兽财经 猛兽财经获悉,来自北京的汽车产业供应链数字化服务商【中驰车福】(Autozi Internet Technology (Global) Ltd)近期已向美国证券交易委员会(SEC)提交招股书&#x…

新建Mybatis流程

删除src目录 pom文件夹下导入依赖 这样的话每次只用改父项目的内容,就不必每次都导包 1.修改这三个文件 2.mybatis-config.xml的配置文件有顺序的规定,properties需要写在最上面。 3.类型别名

Bridging the Gap Between Anchor-based and Anchor-free Detection via ATSS 论文学习

1. 解决了什么问题? Anchor-based 和 anchor-free 方法的本质差异其实是如何定义正负样本,如果训练过程中它们采用相同的正负样本定义,最终的表现是差不多的。也就是说,如何选取正负样本才是最重要的。 以单阶段 anchor-based 方…

C++初探

目录 经典开头 — C的历史 作用域运算符 using的用法 命名空间 - namespace 命名空间的基本使用 特殊的命名空间 - 无名命名空间 全部展开和部分展开 std — C所有的标准库都在std命名空间内 省缺值 - 默认参数 占位参数 内联函数 - inline 函数重载 函数重载的用…

MySQL八股学习过程2行的存储 from 小林coding

MySQL八股学习过程2行的存储 from 小林coding MySQL数据的存放MySQL表结构InnoDB行格式记录的额外信息记录的真实数据 MySQL数据的存放 下面的命令能够查询到MySQL数据库文件的存放位置 SHOW VARIABLES LIKE datadir;一张表的结构会保存在表同名.frm中,数据会保存在表同名.ib…

导轨式 称重传感器 压力应变桥信号处理 隔离变送器

主要特性 DIN11 IPO 压力应变桥信号处理系列隔离放大器是一种将差分输入信号隔离放大、转换成按比例输出的直流信号导轨安装变送模块。产品广泛应用在电力、远程监控、仪器仪表、医疗设备、工业自控等行业。此系列模块内部嵌入了一个高效微功率的电源,向输入端和输…

Kyuubi的介绍优势(官网链接)

官网链接:https://kyuubi.apache.org/ Apache Kyuubi™ 是一个分布式多租户网关,用于在数据仓库和 Lakehouse 上提供无服务器 SQL。 Kyuubi 在各种现代计算框架(例如 Apache Spark、 Flink、 Doris、 Hive和Trino等)之上构建分布…

CMU 15-445 Project #2 - B+Tree(CHECKPOINT #2)

CHECKPOINT #2 一、题目链接二、准备工作三、部分实现1.锁操作操作类型定义安全页面判断加锁操作解锁操作叶子页面查找操作 2.查找操作3.插入操作4.删除操作 四、评测结果 一、题目链接 二、准备工作 见 CMU 15-445 Project #0 - C Primer 中的准备工作。 三、部分实现 1.锁操…

linux安装conda

linux安装conda 卸载conda 在主目录下,使用普通权限安装: ./Anaconda3-2023.03-1-Linux-x86_64.shanaconda的目录是ENTER

139. 单词拆分

139. 单词拆分 原题链接:完成情况:解题思路:参考代码: 原题链接: 139. 单词拆分 https://leetcode.cn/problems/word-break/ 完成情况: 解题思路: dp动态递归去接,算0-n所有范围…

Xshell 7 评估期已过继续免费使用方法

1. 评估期已过的示例 2.解决方法 如果需要继续使用,一是去网上寻找绿色版本的Xshell,但是可能不安全。 二是重新下载一个免费版本,覆盖安装即可。 2.1 官网下载地址:https://www.xshell.com/zh/free-for-home-school/ 2.2下载安…

Pytorch:利用torchvision调用各种网络的预训练模型,完成CIFAR10数据集的各种分类任务

2023.7.19 cifar10百科: [ 数据集 ] CIFAR-10 数据集介绍_cifar10_Horizon Max的博客-CSDN博客 torchvision各种预训练模型的调用方法: pytorch最全预训练模型下载与调用_pytorch预训练模型下载_Jorbol的博客-CSDN博客 CIFAR10数据集下载并转换为图片&am…