大数据实践之路 读后感

news2025/1/15 7:48:11

欢迎关注公众号:数据运营入表资产化服务,获取更多算法源码材料

2023数据资源入表白皮书,推荐系统源码下载-CSDN博客

浅析研发支出费用化和资本化的区别-CSDN博客

商业银行数据资产估值白皮书,推荐系统源码下载-CSDN博客

用友BIP数据资产入表解决方案白皮书,推荐系统源码下载-CSDN博客

1、内容总体概括

简单来说一下,本书内容可以分四个大部分:一是介绍了数据中台的五大功能模块即元数据中心、数据指标中心、数据资产中心、数仓模型中心、数据服务中心为基础,这部分的构建可以帮助企业更好的梳理自己业务上的数据资产,且使其得到有效的管理和应用;接着第二部分主要围绕数据分析这个岗位来谈了数据分析的分析流程、常见的三种业务场景、分析师需要具备的核心能力、个人成长等;接着第三部分谈了BI系统和用户画像两个知识点,这两部分也是数据分析常见的工作内容;最后一部分以三个数据应用实例来结尾即电商反作弊、咨询个性化推荐、电商个性化推荐。

本书的“故事”叙述方式是我比较喜欢的方式,即以对话、模拟实际业务工作场景来进行叙述的。

2、个人阅读体感

2.1 数据中台的部分:

主要原因是我自己以前在瞎子摸灯的情况下做过,而我当时基本网上各种看现有的资料来搭建自己公司的数据中台,而这本书算是帮我回顾了以前做过的东西和反思,比如数据指标我当时是按照原生指标和派生指标来规划的,和本书不谋而合;但是数据仓库我也没有理完整到底是怎么个架构,因为这部分当时是开发人员负责的,而本书这块正好给了我去补充这点;还有数据资产部分,我当时有做了数据的监控,但是资产成本这块就是欠考虑的,我没有太去考虑这点。总之,这部分的内容,我觉得对于要进行数据中台的搭建工作的同学是可以进行参考,算是讲的全的,细致,同时也建议可以去看一些中台建设的实例配合去看。

2.2 数据分析理论:

这部分虽然有的同学说就是一些概念的堆叠,我倒觉得有的地方可以去借鉴。

比如数据赋能业务,看完后我想到的是大家经常讨论的:怎么体现数分的价值?答案就是数据和业务结合,当然过程必须是满足逻辑闭环(论据要支撑结论)+业务闭环(业务策略要在业务上能够行的通),此处我想再加一个观点:紧扣目标。

比如数据分析团队部分,这部分通过将独立的分析团队和存在于业务的数分岗,因为部门不同,所以你的职责和发展肯定不同,当你知道了这个不同,我觉得就可以帮你在求职的时候有了一个参考依据。前几天有人朋友说,我准备去独立的数据分析部分,在那边更能体现自己的价值啥的。

再比如数据分析过程,我倒觉得无论是在做需求、作专题分析等,这个分析过程是始终是贯穿我们的工作中的。其中有两点我觉得说的很好。第一、始终从解决问题本身出发;第二、核心是分析的思路和方法。

其他部分,自行可以结合自己工作体会。

2.3 用户画像部分:

这部分内容主要以知识理论为主,虽然我没有做过,但是整个体系很完整,值得学习。因为没有太多参与用户画像,感触不深。个人觉得可以看一些实际的案例来更深理解。

3、推荐介绍

本书所讲的知识框架比较完整,偏基础,但是似乎有点太完整,我倒觉得再有一点实际可能遇到的问题,怎么解决,可能会好点。毕竟实际业务纷繁复杂,变化和影响因素很多。适合数据中台搭建、数分人来看。

4、分模块阐述重点内容

4.1 数据中台内容模块

1)元数据中心:

可以系统、全面地查询元数据信息;变更评估及精准变更周知;协助数据问题定位及解决。 核心功能:数据整合;数据管理;数据地图。

数据整合:要支持不同的结构化/非结构化的数据源,且要考虑不同数据源的不同集群。##通过配置定时采集器的方式,对数据进行采集。采集计划有两种:场景采集、周期采集。

数据管理:就是管理数据中台所有的元数据,元数据即描述数据的数据。

元数据数据类型的三大类别:数据属性、数据字典、数据血缘。

1)数据属性主要是关于数据本身的描述。其包括以下几种类型:基础信息、标签信息、业务信息、技术信息、权限信息。
2)数据字典主要描述数据的结构信息。其主要的数据来源是数仓模型中心的数据表的相关配置、调度系统等。
3)数据血缘主要描述表与表之间的关系。其主要的数据来源是数仓模型中心的调度依赖配置、数据指标中心的指标生产逻辑、数据服务中心的逻辑表配置信息等。数据血缘的作用:问题定位排查;指标波动分析;数据预警与产出保障;

数据地图是基于所有元数据搭建起来的数据资产列表。能够解决有什么数据的问题,还能够进行检索,解决数据在哪里的问题。

2)数据指标中心:

数据指标中心是规范化开发指标并对其进行管理和维护的系统,它将指标的组成部分解耦拆分开来,并在逻辑表中进行规范的定义,在此基础上,按照一定的规则对指标的组成部分进行自由拼装,实现自定义指标的功能。

指标管理:(1)一级指标,即原子指标与小部分全平台的核心指标,在从各个业务部门收集需求后,统一由数据中台来产出,有一套完整、规范的开发流程:需求—评审—排期—开发—测试—验收—上线。所有维护管理工作都由数据中台负责。(2)二级指标,即派生指标,由各个业务部门自行通过指标中心生成,没有严格的开发流程,各个业务部门根据需要自行创建,但需要遵守指标命名规范。

3)数据仓库模型中心:

研发流程线:依据业务分析,抽象出主题域---梳理且确定每个主题域下的业务过程---依据业务过程,定义分析维度---构建总线矩阵---数仓分层建设(包括ODS层(操作数据储存层)、CDM(公共维度模型层)ADS(应用层))。

4)数据资产中心:

数据资产中心是建立在元数据之上,对数据进行统计性治理的系统,它主要针对两个方面:质量与成本。

数据资产质量治理:按照业务规则,在数据的关键加工节点上,对每个产出表,设计一个监控规则,来确保数据的完整性(监控表的数量变化)、准确性(主要解决数据记录准确性问题)、一致性(主要解决数据在不同模型中的一致性问题)、规范性(监控代码的规范性,如表命名规范、表注释、生命周期设置等)、时效性(及时地提供服务)。

数据资产成本治理:从数据产品直接应用的数据表开始往回溯源,来计算成本。

5)数据服务中心:

数据服务中心要解决的问题:减少“数据孤岛”及高效地将数据开放出去。

数据服务的形式:数据服务中心通过配置化的方式,将不同数据源的表(关系型数据库、NoSQL数据库、HBase等)通过映射模型生成API,与API调用者形成隔离,既保证了数据的安全,又可以以标准化的方式高效地进行数据的交付。

4.2 数据分析理论

1)数据赋能业务:数据赋能业务有四个环节:数据表现、业务原因、业务策略、作用方式。其过程如下图所示:

需要考虑的问题:在数据赋能业务过程中,业务策略需要考虑两个闭环问题才能确保策略的有效性,即逻辑闭(论据要能够支撑结论)、业务闭环(业务策略在业务上要能够行得通,且能够调整和迭代)

2)数据分析过程:这个可以说是贯穿了整个该岗位的整个工作中

1)明确分析目的;2)明确分析思路;##抓住重点:始终从解决问题本身出发。3)获取数据 ;4)处理与分析数据:关注数据处理的效率、分析的结论以及呈现的方式。

##核心:注意思路和方法;5)撰写报告;补充:推动策略落地、复盘
##复盘的考察点:(1)落地的策略是否可以解决业务出现的问题?(2)落地的质量如何?(3)分析的框架有没有问题?(4)分析得出的结论有没有问题?

3)数据分析的3种场景:

预测性分析、描述性分析和诊断性分析。(1)预测性分析:基于现有的数据,结合实际情况,预测业务未来的发展。##分析思路和方法:按照数据分析的流程进行。(2)描述性分析:有逻辑、成体系地拆解业务,用合理的指标整体评估业务的状态。##对业务的描述性分析,同样按照数据分析的流程进行。(3)诊断性分析:针对业务的异常波动,分析背后的原因,并提出解决策略。##评估标准:一般是关键指标的变化符合预期。

4)数据分析的核心能力:专业能力和影响力

理解业务:
1)参与业务:实际参与业务作业一段时间。(2)调研/访谈一线业务人员。(3)多与业务部门打交道。
##对数据分析师来说, 完整的工作场景是业务—数据—信息—知识—合作。数据分析师 要尽量参与更多的环节,尤其不要只是停留在数据这个环节。

5)数据分析师的工作:

(1)偏向外的战略分析;(2)偏向内的业务分析;#补充:调研的工作。
##记住:数据只是辅助数据分析师更好地理解业务的工具。

6)个人成长:

不要只关注做了多少事,不要太多关注自己的短期收益,要看长期收益。多关注自己长期的成长、核心竞争力的培养等。

7)数据分析团队:

两种存在形式:(1)以独立的实线部门存在。(2)存在于业务部门中。##两种组织架构没有哪个是绝对合理的,只需看组织架构是否适应当前企业业务发展的需要。

8)数据分析师的工作方式:

想清楚当下自己的核心诉求是什么,要学会不断地根据客观环境调整自己的状态,让自己的工作与核心诉求保持一致,最大地激发自己的热情与创造力,要经常反观自己是否还位于第一象限。可以参考如下的工作象限图:

4.3 BI系统+用户画像

1)BI系统: BI系统的代表tableau、PowerBI、帆软等。是数据计算分析和操作交互的系统。

BI系统的核心功能:选择数据源并建立数据模型、创建可视化数据报表,以及数据分析与可视化结果展示。

2)用户画像:

在精细化运营中,用户画像体系的建设有很重要的作用。

a、用户画像基础:

用户画像概念:

用户画像是指从用户的基础信息、用户行为、业务信息等海量数据中,抽象出一个个标签,通过给用户贴上若干标签来还原用户全貌的过程。

用户标签:

用户标签是通过对用户的基础信息、用户行为、业务信息等数据,进行数据建模所产生的用户特征。其标签值具有高度概括、相互独立及可枚举、可穷尽的特点。例如,性别可枚举为男、女、未知。

用户分群:

用户分群是指由批量用户组成的用户群体,可通过筛选标签组合来获取。例如,可通过筛 选“25~30岁、女性、母婴类商品意向”等标签组合,来获取母婴类人群。

b、用户画像建设:

建设用户画像体系,最主要的是把握一个中心和一条主线。即用户画像体系=一个中心+一条主线。

  • 一个中心:

以经济建设为中心。用户画像体系本质是为了服务商业活动,需要秉持“降成本、提效率、创收益”的基本准则。

  • 一条主线:

一条主线即产品研发的基本流程为主线。 建设用户画像体系在实施层面,本质上是一个产品化的过程,因此用户画像体系的建设符合产品研发的基本规律。 用户画像体系建设可以分为需求阶段、产品规划阶段、产品设计阶段、开发测试阶段和运营阶段这5个阶段。

##用户画像的应用:1)精准广告投放;2)智能运营;3)智能客服;4)智能风控,比如营销反“薅羊毛”,做法:利用用户画像以及特征,切入智能风控。

4.4 实际案例

1)电商反作弊体系:

解决方案:a、事前阶段:活动规则设计,此营销活动规则,技术方案(接入第三方风控系统、白名单数据维护、有监督机器学习)。b、事中阶段:无监督机器学习,真人操作识别,孤立森林模型。c、事后阶段:反例特点,规则思路建设。

2)资讯个性化推荐:

个性化推荐,就是按照每个用户的喜好,在合适的时间、合适的场景,把合适的内容,以合适的形式呈现给用户,满足用户的需求。

资讯推荐的组成,如下图所示:

3)电商个性化推荐:

a、定义:App为用户推送消息就是push。

b、目标:push的目标是获取新用户、激活老用户、召回流失的用户。

c、本质:push的本质是将合适的内容,在合适的时间和合适的场景下,推荐给合适的用户,并带来转化。

d、push的衡量:从短期、长期、用户行为分析。即从短期来看,push的衡量指标是拉新数量和拉新贡献度。从长期来看,push的衡量指标从推送、点击、到达、浏览、加购、下单、支付、复购整个链条来提高,为最后的GMV负责。从用户行为路径来看,一条push经历了到达、展示、点击、浏览、加购、下单、支付的流程。

Push的衡量指标,如下图所示:

e、push的优化方向:效率高、算法准、推荐好、展示靓。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1342325.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【软件工程大题】McCabe方法_计算环形复杂度的方法

计算环形复杂度的三种方法 方法一 流图中线性无关的区域数等于环形复杂度. 关于线性无关区域 每一个由若干线条组成的密闭空间就是一个线性无关区域,图形的外界也算一个区域,如果没封闭上一个空间,那么它就算和外界算为一个整体 方法二 流图边数-结点数2 方法三 流图中判…

再获认可,YashanDB入选工信部电子一所“2023年数字化转型自主创新解决方案优选案例”

近日,由国家工业信息安全发展研究中心(工业和信息化部电子第一研究所)主办的“数智赋能 创新领航”2023年数字化转型自主创新解决方案优选案例正式公布。深圳计算科学研究院(简称:深算院)自主研发的崖山数据…

BFC 2023年度星光之夜即将开启,打造梦幻跨年盛典

跨年钟声即将敲响,星光繁花璀璨绽放。2023年12月31日,BFC外滩金融中心(下称BFC)年度星光之夜拉开帷幕,在热酒派对和星光音乐会的热烈节日氛围中,幸运气球将在全场传递节日祝福,更有惊喜好礼抽奖…

业务分析走向业务架构(元旦读物)

新的一年马上开始了,2024有什么规划呢,不妨假期里思索一番,立下个flag,以待明年回眸一笑。2024年关于企业数字化平台构建,小目标:掌握业务分析,流程分析,项目分析 三大基础内容&…

【JVM篇】Java是如何实现平台无关的?

Java是如何实现平台无关的? ✔️什么是平台无关性✔️平台无关性的实现✔️Java虚拟机✔️字节码✔️Java语言规范 ✔️扩展知识仓✔️平台无关性的好处✔️ 有哪些语言实现了平台无关?✔️Java中基本数据类型的大小都是确定的吗? ✔️什么是平台无关性 平台无关性就是一种语…

TikTok年度回顾:2023年的亮点时刻

2023年,TikTok再次成为全球关注的焦点,不仅延续了其独特的社交媒体魅力,还在创新、文化影响力等方面取得了一系列令人瞩目的亮点时刻。本文将深入探讨TikTok在2023年的重要事件、创新举措以及对社会的深远影响。 创新功能引领社交潮流 TikTok…

数据结构与算法教程,数据结构C语言版教程!(第一部分、数据结构快速入门,数据结构基础详解)三

第一部分、数据结构快速入门,数据结构基础详解 数据结构基础,主要研究数据存储的方式。 本章作为数据结构的入门课程,主要让读者明白,数据结构到底是什么,常用的数据存储结构有哪些,数据结构和算法之间到底…

【WPF.NET开发】路由事件

本文内容 先决条件什么是路由事件?路由策略为什么使用路由事件?附加并实现路由事件处理程序类处理程序WPF 中的附加事件XAML 中的限定事件名称WPF 输入事件EventSetter 和 EventTrigger Windows Presentation Foundation (WPF) 应用程序开发人员和组件…

next.js 开发网站的hello world

本文介绍建立一个简单的next.js 工程,以及简单修改。然后也简单说了2种路由方式的选择。 开始next.js工程前需要node.js , 还需要编辑器,我这里选择的是visual code。如果没有安装node.js 请参考下: visual code 下的node.js的he…

UWB高精度人员定位系统源码,全方位护航安全生产

定位管理系统使用UWB定位技术,通过在厂区安装定位基站,为人员或设备佩戴定位标签的形式,实现人员精准实时定位。可以实现人员、车辆物资实时定位、工作考勤、电子围栏、历史轨迹回放、巡检巡查、物资盘点、路径规划、三维显示等,以…

EBDP:解锁大数据的奥秘✨

大数据时代已经来临,你是否也想掌握这门“显学”?🌟 EBDP,这个让众多专业人士趋之若鹜的认证,究竟有何魅力?今天就带你一探究竟! 🌟EBDP:大数据的“敲门砖”&#x1faa…

Mini MyBatis-Plus(下)

作者简介:大家好,我是smart哥,前中兴通讯、美团架构师,现某互联网公司CTO 联系qq:184480602,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬 最核心的内容前两篇已经…

通过学习这些技巧,让你的Python代码更加简洁和高效

文章目录 前言列表性能陷阱陷阱一陷阱二 快速合并字典通过有序字典去重最后Python技术资源分享1、Python所有方向的学习路线2、学习软件3、入门学习视频4、实战案例5、清华编程大佬出品《漫画看学Python》6、Python副业兼职与全职路线 前言 今天看到一些关于容器的使用技巧&am…

隧道代理HTTP工作原理:一场奇妙的网络魔法表演

嘿,小伙伴们!今天我们要一起探索一个有趣的话题——隧道代理HTTP的工作原理。这不是普通的表演,而是一场奇妙的网络魔法表演! 首先,让我们想象一下,网络世界就像一个大舞台,而我们每个人都是这…

邮政快递查询,邮政快递单号查询,按物流更新量来筛选单号

如何快速、准确地查询多个快递单号的物流信息?如何提高工作效率,减少一个个等待的焦虑?别担心,【快递批量查询高手】为你排忧解难,不仅可以帮你省下大量的时间,还能提高工作效率,让你更好地享受…

喜讯丨智安网络实力上榜《嘶吼2023中国网络安全产业势能榜》

近日,嘶吼安全产业研究院正式发布《嘶吼2023中国网络安全产业势能榜》。智安网络凭借在网络安全行业领先的产品实力、专业的安全服务水平及多年累积的行业经验,从300余家厂商中脱颖而出,成为《中国网络安全产业势能榜》互联网行业势能厂商。 …

计算机网络复习4

网络层——点到点 文章目录 网络层——点到点功能路由算法IPV4NAT 网络地址转换子网划分与子网掩码、CIDR地址解析协议ARP:根据IP地址找到MAC地址动态主机配置协议DHCP网际控制报文协议ICMPIPV6内部网关协议(IGP)外部网关协议(EGP) 功能 异构…

【银行测试】核心系统/信贷系统+各个测试点总结(详细)

目录:导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜) 前言 1、银行核心系统和…

数据结构-八大排序详解(动图+实现详解+总结)

1 前言 本章主要讲解: 八大排序的基本知识及其实现 注:这里的八大排序指直接插入,希尔,选择,堆排,冒泡,快排,归并,基数 八大排序汇总图: 2 排序概念及应用 …

MindOpt 云上建模求解平台:多求解器协同优化

前言 数学规划是一种数学优化方法,主要是寻找变量的取值在特定的约束情况下,使我们的决策目标得到一个最大或者最小值的决策。 使用数学规划的方法我们需要确定问题的目标、约束、变量的取值范围,然后进行数学建模,将数学公式转化…