目录
- 数据仓库
- 传统数据仓库无法支撑互联网时代的商业智能
- 数据埋点
数据仓库
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。
在电商场景中,有一个数据库专门存放订单的数据,另外一个数据库存放会员相关的数据。构建数据仓库,首先要把不同业务系统的数据同步到一个统一的数据仓库中,然后按照主题域方式组织数据。
- 主题域是业务过程中的一个高层次的抽象,像商品、交易、用户、流量都能作为一个主题域,可以把它理解为数据仓库的一个目录。
- 数据仓库中的数据一般是按照时间进行分区存放,一般会保留5年以上,每个时间分区内的数据都是追加写的方式,对于某条记录是不可更新的。
传统数据仓库无法支撑互联网时代的商业智能
进入互联网时代的两个最重要变化
- 数据规模前所未有,一个成功的互联网产品日活可以过亿,就像熟知的头条、抖音、快手、网易云音乐,每天产生几千亿的用户行为。传统数据仓库难于扩展,根本无法承载如此规模的海量数据。
- 数据类型变得异构化,互联网时代的数据除了来自业务数据库的结构化数据,还有来自APP、Web的前端埋点数据
数据埋点
数据埋点是一种常用的数据采集方法,方便产品/运营系统性地统计分析复杂的用户数据。我们在APP端所设置的自定义事件,就是通过数据埋点的方式,实现对用户行为的追踪,以及记录行为发生的具体细节。
通常情况下,我们会对一些关键节点、关键按钮进行监测,比如关键路径的转化率。还可以通过埋点统计业务数据。比如在电商类APP中,在提交订单环节,将用户购买的商品名称、类别、价格等明细数据进行上报,便于后续分析用户行为与洞察用户偏好。
主流的数据埋点方式:全埋点、可视化埋点、代码埋点、后端埋点。
全埋点:会自动采集所有的数据点位,土豪式的埋码方式;优点:几乎可以监测和分析用户在APP端的所有行为数据,并且可追溯;缺点:数据存储、计算、分析成本高昂,对用户在前端的加载也有影响。主流APP基本不会采取这种方式。
可视化埋点:通过点击交互,在产品页面上直接进行埋点。先分析,再圈选,是一种所见即所得的埋点方式;优点:跳过技术部署,集成简单,能够很快上手,能够监测产品前端用户交互数据;缺点:所采集的数据,属于前端浅层数据,而侧重属性的数据带不回来,比如对于新闻类APP,能监测到用户点击标题的行为的,但作者、细分标签、发布时间等数据无法采集,且无法进行数据追溯。
代码埋点:通过技术代码在APP接口中进行埋点,需产品、技术、运营的通力配合;优点:代码埋点可以采集到想要的所有数据(服务端、客户端),前期需要系统性规划,数据分析会更贴合业务场景,且数据维度更丰富和深入,适合精细化分析和用户行为洞察;缺点:前期工作量会稍大,包括埋点规划和技术实施,产品新增功能后,需要技术埋点并且发布APP后才能统计到数据。
后端埋点:通过导入工具或系统,将数据(通常是后端日志)直接进行上报。从经验上判断,后端采集适合结合深度业务数据的挖掘,而前端采集适合基于用户行为的产品运营;优点: