BPPISE数据科学案例框架

news2024/10/8 14:18:23

919b4ea03087fc92ace6d3c54b5bbd49.gif

本专题共10篇内容,包含淘宝APP基础链路过去一年在用户体验数据科学领域(包括商详、物流、性能、消息、客服、旅程等)一些探索和实践经验。

在商详页基于用户动线和VOC挖掘用户决策因子带来浏览体验提升;在物流侧洞察用户求助时间与实际物流停滞时长的关系制订表达策略带来物流产品满意度提升;在性能优化域构建主客观关联模型找到启动时长与负向反馈指标的魔法数字以明确优化目标;构建多源VOC标签体系综合运用用户行为和用户VOC洞察、落地体验优化策略,并总结出一套用户体验分析方法论。

本文为此系列第四篇文章,前三篇见——

第一篇:淘宝用户体验分析方法论

第二篇:VOC数据洞察在淘宝详情页的应用与实践

第三篇:物流产品体验诊断与优化

cae30cec3d965111971558a661153242.png

前言

经常有同学会问“如何评价数据科学工作做得好不好呢”,算法同学可以看算法模型准召效果、数据研发可以看数据模型覆盖和利用率,数科考察什么?笔者认为数科需考察案例产出。

主要基于以下几点思考:

  1. 成功案例需具备显著业务结果:数据科学岗定位是为业务提供高质量的数据解决方案让业务成功,成功的案例才是可学习、可参考的,没有显著业务结果的案例较难证明其可行性,参考价值较低。

  2. 案例是对过程的详细复盘:在有显著业务结果的前提下,数科需要证明其在项目中参与度、贡献度,使用到了什么新思路、新方法助力业务达成目标,案例是可推敲、可复盘的材料之一。

  3. 案例能体现出作者的能力水平:数科是一门强调个人能力的学科,案例不仅仅是陈述做了什么,字里行间透出的认知和思考能体现出作者能力水平。特别地,写作是可以有思考缓冲期的,表达欠佳的同学可以通过写作来弥补体现自身能力欠缺。

因此,一篇高质量的数据科学案例是能证明成果的核心依据,笔者基于大量数科案例经验谈谈看法和思考。

1c8645b28eb651a928f65d062c7599d8.png

BPPISE框架简介

一个好的框架能突出案例描述重点,降低结构化思考成本,聚焦于内容表述。业内常用的数据挖掘标准框架有两种:CRISP-DMSEMMA,简介如下:

  1. CRISP-DM:

  • 业务理解 (business understanding)

  • 数据理解 (data understanding)

  • 数据准备 (data preparation)

  • 建模 (modeling)

  • 评估 (evaluation)

  • 部署 (deployment)

SEMMA:

  • 抽样( S ample )

  • 探索( E xplore )

  • 修订( M odify )

  • 建模( M odel )

  • 评估( A ssess )

两套框架均是偏针对确定性的、算法建模类的问题,而数据科学是一门针对定义与解决不确定性问题的学科,需要拥有一套面向不确定性的、分析洞察类的问题案例框架。基于大量数科案例中思考和总结,形成了一套针对产品数据科学的案例框架-BPPISE

BPPISE:

    • 业务理解(Business understanding)

    • 问题定义(Problem definition)

    • 数据准备(data Preparation)

    • 分析洞察(Insight)

    • 策略落地(Strategy)

    • 效果评估(Evaluation)

BPPISECRISP-DMSEMMA不同点在于:由于尚未形成确定性的数据问题,强调业务问题->数据问题的定义阶段、分析洞察阶段和策略落地阶段;后两者过于侧重对算法模型的建立与评估,BPPISE侧重数据对业务的机会发现和推进落地。

c24f12ff6f97c6230ebeb347d2bffabb.png

BPPISE过程描述

▐  业务理解(Business understanding)

该阶段数科同学需从商业角度了解背景,业务需求和具体要解决的问题。理解C端业务的快速有效的方法是做用户旅程梳理,站在用户视角梳理某一产品、服务的主要场景及旅程。理解业务的同时,可以做定性的假设和判断,梳理业务环节的痛点和机会点,为后续的问题定义做准备。

阶段核心是阐述业务现状和问题。例如:在详情案例中,一句话描述业务现状和问题:详情关键决策因子的供给核心依靠行业小二经验产出,部分行业依靠用研但范围有限、粒度较粗,无法细化到类目、人群维度进行精细化运营。

▐  问题定义(Problem definition)

该阶段需基于业务存在问题准确地定义出数据可解的问题。数据科学是一门将“现实业务问题”转换为“数据世界中的问题”,再采用数科的理论、技术和工具等将数据转化为知识,为解决业务问题提供直接指导的学科。核心是数据本身,我们需要注意几点:

  1. 判断数据是否可获取

    假设解决业务问题所需的数据根本无法获取,那么数科将无用武之地。

  2. 精准地选择目标数据

    精准地选择目标数据会让数科在项目中保持方向和专注。例如:项目需要从用户反馈(VOC)中提炼用户标签,而VOC是多源、多模态的,多源意味着VOC发生场景不同(购前、购后),多模态意味着处理难度不同;因此,需要基于业务问题精准地作出选择,案例中需讲解数据选择的Why。

在详情案例中,数据问题定义为:如何基于用户动线及商家客服咨询VOC数据,分析归纳影响用户在详情决策的关键因素,洞察不同行业不同人群决策因子差异以指导详情结构化表达,提升浏览转化效率。

在性能案例中,数据问题定义为:如何找到一个与满意度强相关的客观指标,设定合理的目标,能兼顾技术投入ROI,且有效提升用户主观性能满意度。

▐  数据准备(data Preparation)

该阶段主要是指数据的收集、加工和预处理,是数据科学的重要环节。由于通常是一些ETL的常规手段,很多同学在案例编写时不知道如何下笔。建议在这里突出案例的特别之处。

例如:详情案例中涉及到用户动线数据准备,重点阐述了有别于常规的页面级数据获取,是如何定义页面内模块级埋点规范和数据获取流程的;涉及到VOC文本标签的加工获取,重点阐述了在业务参与度有限的背景下如何通过引入VOC聚类能力提升数据加工效率的。

整体上,围绕通过什么样的思路和方法,确保后续的干净、一致、可靠、可用数据产出,以帮助项目获得更准确的结果。

▐  分析洞察(Insight)

分析洞察阶段是数科案例的核心,整体框架可细分为:

  • 分析议题

不同的分析分析对象阐述分析议题的方式不同:

008e262fc1239dcb4210d424ac529806.png

  • 分析思路

逻辑树(议题树/假设树)

d7a22ae27d0a596a43ef307167974536.png

  • 分析维度

阐述维度选择的思考,如何精准地选择分析维度以提升分析效率,而不是无谓地浪费分析资源做大量多维下钻。

  • 分析指标

阐述指标名称、指标口径、指标代表的业务含义等。

  • 分析结论

分析结论有以下几点注意事项:

论点明确

分析结论要注意具有明确的核心论点,行文过程中要把与论点相关的内容写进来,无关的内容要舍弃掉。建议一个议题只围绕一个核心论点展开,避免“失焦”。

图、表、文字相结合

分析结论要做到有论点、有论据,而数据分析图表是最好的客观事实论据。一般在描述业务整体趋势变化、维度倾向的大小关系、子级与父级间的构成关系等情况时使用,而在进行分析结果的详细描述时使用表。此外,数科同学还需对图表内容进行文字性总结、推导及解释。

减少不必要的主观推测

分析结论中不可能全部由可客观事实结果构成,其中必然会包含作者的推测、判断等内容。数科同学在撰写分析结论时,应尽量减少不必要的主观推测,做出的主观推断也应尽量从客观事实出发,不要仅凭经验就草率判断。

  • 策略产出

策略产出是对整个分析洞察阶段的收尾,数科应围绕各个分析结论,结合自身对业务的理解给出产品优化建议。特别地,策略的产出应当跟进业务的采纳情况和落地节奏,以便在过程中可进一步深入分析和调整策略。可以通过如下一个表格来进行整理:

86a8b4692b425d45e13b7478ac4f42e0.png

▐  策略落地(Strategy)

策略落地是证明数科案例贡献度的关键阶段,产品的改造是否引用到上述分析结论以及引用程度需阐述清楚,同时介绍下数科是如何基于上述策略让业务有节奏的落地的。

可以通过产品demo图+策略建议方式简洁明了地阐述策略落地手段。

afeb2bc228e39a3ff169dc93b0ee9cbf.png

▐  效果评估(Evaluation)

产品优化策略通常是通过AB实验、低响应实验(PSM等)等方式验证效果。以AB实验为例,案例中应尽可能给出实验设计和具体效果数字。包括:实验分层设计、实验放量节奏、实验指标设计及实验对比效果。特别地,当指标对比结果出现异常波动时,需给出实验科学性的验证结果,如AA桶对比、显著性检验等。

d9e74d2f658261acde796962e22e0706.png

团队介绍

我们是大淘宝技术交易履约数据科学团队,负责面向淘宝交易履约链路(下单、支付、购物车、物流、逆向等)海量数据挖掘DAU、DAC及用户体验增长机会。团队致力于围绕用户行为路径、用户VOC洞察用户需求,基于人货场匹配落地交易链路触达、转化、复购和体验策略,提升消费者购物体验。
目前团队招聘中,欢迎拥有消费者、商品、交易、营销等相关领域数据分析/数据科学背景的优秀人才加入,有兴趣可将简历发送至zhuqi.zq@taobao.com 。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/994512.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

黑盒测试中的决策表设计

前言 在软件开发中,测试是不可或缺的一个环节。其中,黑盒测试是一种比较常用的测试方法。它强调测试人员不需要知道程序内部结构,只需根据程序规格说明书来设计测试用例进行测试。本文将介绍黑盒测试中的一种决策表设计方法。 同时&#xf…

arx实现三维实体贴材质图

最近接了一个需求。 给三维实体贴材质图,群友要求自己绘制了家具的三维实体后,需要对不同家具做不同的材质处理,比如桐木家具,不锈钢家具等。通过颜色是无法解决的。所以就想做一个三维实体贴材质图片的arx。 结果如下&#xff1a…

RuntimeError: CUDA error: an illegal memory access was encountered 解决思路

问题描述: 在跑编译正常通过,CPU上也正常运行的某项目时,在运行到某个epoch时,程序突然出现以下错误: RuntimeError: CUDA error: an illegal memory access was encountered CUDA kernel errors might be asynchron…

【STM32教程】第四章 STM32的外部中断EXTI

案例代码及相关资料下载链接: 链接:https://pan.baidu.com/s/1hsIibEmsB91xFclJd-YTYA?pwdjauj 提取码:jauj 1 中断系统 1.1 中断的概念 中断系统的定义:中断是指在主程序运行过程中,出现了特定的中断触发条件…

创建的源文件后缀不是.c,在一些编译器上不能编译

问题描述: 源文件的名字和后缀写的比较随意,后缀不是.c,代码没有语法高亮,可能在一些编译器上不能编译通过。 现象: 解决办法: C语言代码中我们有约定:源文件的后缀是.c,头文件的后…

Java基础之static关键字

目录 静态的特点第一章、静态代码块第二章、静态属性第三章、静态方法调用静态方法时静态方法中调用非静态方法时 第四章、static关键字与其他关键字 友情提醒 先看文章目录,大致了解文章知识点结构,点击文章目录可直接跳转到文章指定位置。 静态的特点…

Jenkins 页面部分显示Http状态403 被禁止

前言 生产环境Jenkins部署了一段时间了,结果今天在流水线配置中,部分页面显示Jenkins 页面部分显示Http状态403 被禁止,修改配置点击保存之后偶尔也会出现这个。 问题 以下是问题图片 解决 在全局安全配置里面,勾选上启用代…

01背包优化 —— 滚动数组

题目:【模板】01背包_牛客题霸_牛客网 (nowcoder.com) 优化原理: (从右往左!!) 注意:

Maven打包错误:Please refer to XXXXX for the individual test results._zhizhiqiuya

Please refer to XXXXX for the individual test results._zhizhiqiuya 错误原因&#xff1a; 项目开发中没有编写测试&#xff0c;打包过程中test检测错误 解决方案&#xff1a; 跳过测试单元 修改pom文件 <build><plugins><!-- maven 打包时跳过测试 -->…

【逐步剖C++】-第一章-C++类和对象(上)

前言&#xff1a;本文主要介绍有关C入门需掌握的基础知识&#xff0c;包括但不限于以下几个方面&#xff0c;这里是文章导图&#xff1a; 本文较长&#xff0c;内容较多&#xff0c;大家可以根据需求跳转到自己感兴趣的部分&#xff0c;希望能对读者有一些帮助 那么本文也主要…

时序预测 | MATLAB实现ARMA自回归移动平均模型时间序列预测

时序预测 | MATLAB实现ARMA自回归移动平均模型时间序列预测 目录 时序预测 | MATLAB实现ARMA自回归移动平均模型时间序列预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 MATLAB实现ARMA时间序列预测&#xff08;完整源码和数据&#xff09; 本程序基于MATLAB的armax函…

【pdf密码】PDF文件带有密码,该如何编辑文件?

打开PDF文件的时候&#xff0c;没有提示带有密码&#xff0c;但是打开文件之后发现没有办法编辑PDF文件&#xff0c;这个是因为PDF文件设置了限制编辑&#xff0c;我们需要将限制取消才能够编辑文件。 那么&#xff0c;我们应该如何取消密码&#xff0c;编辑文件呢&#xff1f…

使用React Hooks实现表格搜索功能

React Hooks是React 16.8版本引入的新特性&#xff0c;它的作用是为函数组件提供了状态管理和副作用处理的能力。 在React之前&#xff0c;函数组件被限制在只能使用无状态的函数组件&#xff0c;无法使用状态和生命周期方法。Hooks的引入解决了这个限制&#xff0c;使得函数组…

华为全光园区商业市场解决方案

随着全球碳中和实践发展&#xff0c;光进铜退是必然发展趋势&#xff0c;园区网络全光化已经成为新一代智慧园区的新名片。相较传统网络方案&#xff0c;全光园区采用光纤下沉&#xff0c;将光纤从弱电机房延伸到每个房间&#xff0c;每个桌面&#xff0c;每个机器&#xff0c;…

txt实现日期计算器前端代码【搬代码】

使用txt文件实现日期计算器 操作步骤&#xff1a; 1.首先在桌面创建txt文本文档 2.打开文本复制下面代码到文本中 3.修改文本的txt为html 4.右键该html文本&#xff0c;打开方式浏览器&#xff0c;结果如下 5.当然也可以作用于idea 此处是所有代码&#xff0c;复制粘贴即…

上手SpringBoot

设置Maven镜像为阿里云 找到Maven的目录所在位置找到conf目录找到settings.xml文件 找到Maven的目录所在位置&#xff1a;去idea 的设置中 直接搜索Maven 找到conf目录 修改Maven本地仓库的地址 地址自定义 修改Maven的镜像为阿里云镜像 <mirror><id>nexus-aliy…

app源代码安全检测的重要性

源代码审计 app软件代码漏洞扫描&#xff08;源代码安全检测&#xff09;是从安全的角度对代码进行安全测试和评估。同时结合丰富的安全知识、编程经验和测试技术&#xff0c;采用静态分析和人工审查的方法&#xff0c;发现代码架构和编码中的安全漏洞&#xff0c;在代码之前将…

LeetCode 297. Serialize and Deserialize Binary Tree【树,DFS,BFS,设计,二叉树,字符串】困难

本文属于「征服LeetCode」系列文章之一&#xff0c;这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁&#xff0c;本系列将至少持续到刷完所有无锁题之日为止&#xff1b;由于LeetCode还在不断地创建新题&#xff0c;本系列的终止日期可能是永远。在这一系列刷题文章…

LeetCode 428. Serialize and Deserialize N-ary Tree【树,BFS,DFS】困难

本文属于「征服LeetCode」系列文章之一&#xff0c;这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁&#xff0c;本系列将至少持续到刷完所有无锁题之日为止&#xff1b;由于LeetCode还在不断地创建新题&#xff0c;本系列的终止日期可能是永远。在这一系列刷题文章…

华为倒逼苹果?走出舒适圈积极创新,苹果推出首批CIS堆叠式手机

9月9日消息&#xff0c;苹果公司最近推出了iPhone 15系列&#xff0c;这是业内首批搭载CIS堆叠式传感器的手机。这一消息得到了相关业内人士的关注。知名分析师郭明錤认为&#xff0c;尽管美国施加了制裁&#xff0c;在一些方面对苹果的影响是负面的&#xff0c;但华为的归来将…