如何实现埋点日志精准监控

news2025/1/22 12:52:36

作者 | 张小七

导读

日志中台承载了百度千亿量级PV的埋点流量,如何对这些流量进行准确监控,并支持个性化字段的抽取、下钻,是日志中台的一大难题。本文简单介绍了日志中台的基本概念及实时流架构,并基于此深入讲解了低成本实现可扩展、高准确度的埋点监控的技术方案。

全文5899字,预计阅读时间11分钟。

01 引言

日志中台,作为百度数据埋点的全套一站式解决方案,目前已覆盖了厂内以手机百度 APP 作为代表的大多数重点产品,承载着每天千亿量级的埋点日志 PV。

埋点日志的实时监控,在日志中台应对突发流量、业务迭代埋点逻辑、埋点计费结算等场景中均发挥着不可或缺的作用。而在海量的数据下,如何对埋点日志进行精准地监控,保证监控的易用性、稳定性与准确性,是日志中台的一大难题。

本文首先对日志中台的 UBC 埋点相关概念进行了简单介绍,分析了埋点监控的需求,并深入讲解了埋点监控的架构设计,最后重点分析了实现过程中的难点、解决方案以及实践过程中的思考。

02 概念简介&需求分析

UBC(User Behavior Collection)即用户行为收集,是日志中台数据埋点的主流协议。按上报端的类型,分为 UBC 端日志、UBC Server 日志、UBC H5 日志三大类。

每条 UBC 日志中,都携带日志的 UBC ID,用于区分用户的不同行为。

2.1 UBC 打点类型

根据打点所表达的场景,UBC 日志可分为事件打点流式打点

事件打点用来记录一个单次行为,例如一次点击、一次列表页展示等,通常以 pv 作为统计值。

流式打点用来记录一个持续行为,例如一次视频观看、某功能的使用时长等。流式打点特有 duration 字段,用来表达行为的持续时间,通常 pv 和 duration 都会作为统计值。

2.2 公共参数与业务参数

UBC 日志中,部分参数是广泛存在于所有打点的,由 UBC 的打点 SDK 统一获取并上报,例如系统类型(Android/IOS 等)、设备 ID、APP 名称、APP 版本等。这些参数被称作公共参数

除公共参数外,业务在打点时可自行定义其他参数,对同一类 UBC ID 的行为日志进行进一步细分。

例如:我们用 UBC ID = 10397 表达 Feed 业务的一次点击行为,这个点击可能来自不同的页面,便可以定义名为 from 的字段,用于区分点击的页面来源,按不同页面分别点击量 pv 和占比。

这些参数按照 UBC ID 粒度进行参数的管理,支持不同行为下,由业务个性化定义,被称作业务参数

2.3 埋点监控需求分析

作为监控,需要应对突发流量、埋点变更等场景,必然对时效性有较高的要求。

同时,监控维度需要尽可能多样化,除了公共参数外,还需要能支持业务参数的自由组合。

结合上面的基本概念,我们可以得到埋点监控的核心目标:

1.能够有较高的时效性,在分钟级的延迟内查看埋点的数据趋势。

2.对于事件类型的打点,以 PV 作为统计口径;对于流式类型的打点,以PV和 总时长作为统计口径。

3.埋点数据和趋势,同时支持按照公共参数与业务参数组装筛选条件。

基于上述目标,我们结合目前日志中台的实时流架构,对埋点监控能力进行了方案设计。

03 整体方案

3.1 日志中台架构现状

日志中台的端日志与 H5 日志经由客户端 SDK 上报至专门的日志接收 server,初步解析后进行原始日志落盘。

Server 日志则有对应的业务服务直接按照指定的格式进行原始日志落盘。

落盘后的原始日志经由日志传输组件采集至中转消息队列,由流式任务订阅处理后交付给业务使用。

整体流程图大致如下:

图片

3.2 埋点监控架构设计

尽管在线服务(日志接收服务、业务服务)作为日志处理链路的最上游,在时效性上有很大的优势(秒级)。

但考虑到以下几点:

1.日志接收服务仅对日志上报的部分公共参数做了简单的解析处理,作为数据上报的第一站,应当尽可能规避业务逻辑的入侵。

2.业务服务由各个业务团队维护,埋点监控的设计也不宜对业务由过多耦合,否则长期难以维护。

3.原始日志数据以字符串形式保留了绝大部分日志信息,对各种业务参数都未做解析。

不论基于在线服务,还是基于原始日志数据,产出我们期望的低延迟、可由业务参数个性化筛选的监控数据,都是不合适的。

所以我们考虑基于流式任务产出的数据去统计所需的监控,牺牲少量的时效性(从秒级分钟级),去换取更高的可维护性和架构合理性。

图片

日志管理平台:与业务 PM 交互,负责维护监控元信息(例如打点类型、监控采集规则等)与监控数据查询展示。

流式处理任务:定期同步监控元信息,根据元信息将 UBC 日志数据转化为带维度信息的监控数据,剔除冗余信息。

监控消息队列:传输维度提取后的监控数据,解耦监控处理任务和流式处理任务,避免监控处理影响原有的实时数据交付。

监控处理任务:对监控进行聚合,从单条日志聚合为时间区间统计值(区间内 pv、区间内 duration)。

04 难点与解决

4.1 如何避免维度膨胀

埋点上报的公共参数是有限个可枚举的,但一旦涉及业务参数,监控维度的取值就可能千变万化。

如果在监控指标中每个配置的业务字段都映射为一个维度列,将产生大量膨胀冗余的维度:

1.行为 A 的业务参数,在行为 B 中是没有定义,不会上报的。

2.监控所需的业务字段可能会动态变化,曾经采集过的维度有历史数据,但将来可能不再使用。

为了避免不同 UBC ID 的业务字段差异,导致的维度膨胀冗余问题,我们在维度提取时对维度进行了映射,提供了至多6个自定义筛选维度项,并支持了1对1多对1两种映射逻辑:

图片

映射逻辑由业务 PM 在日志管理平台上动态维护,并打包为监控元信息,以接口形式定时同步给流式处理任务。

通过映射,我们支持了理论上无限多个业务参数参与维度筛选计算,同时也保证了维度列数不会无限制膨胀。

4.2 如何防止数据偏移

日志中台的实时流架构,保障了数据的不重&不丢。

在系统面临极端场景,例如流量短时间内暴涨、基建故障等情况时,为保障数据的准确性,打点数据可能发生拥堵或停发,导致数据暂时延迟,待异常恢复后追齐。

业内常见的在线服务监控设计下,监控指标是对在线服务运行状态的观测值,也即监控曲线图上会因为数据的拥堵/停发,到最终恢复而发生数据偏移:

图片

△异常导致部分数据延迟,恢复后追齐

虽然这个曲线反映了服务端的处理流量,但埋点作为对真实用户行为的观测,追求的是更真实源自客户端上报的流量曲线,理应不受服务端任何异常的影响。

因此,常见的基于在线服务监控的技术方案并不适用于埋点监控的场景。

为了使埋点监控能真实反映打点上报的趋势,不受服务端拥堵停发影响,我们参考了流式数据处理的思想,在监控中引入了水位(watermark)的概念。

4.2.1 水位概念简介

水位(watermark)是流式数据处理中的一个常见概念,通常是一个时间戳,表达已经处理完毕数据的最大时间戳。

举例:当前水位推进到时间 t 时,意味着 t 时刻以前的数据都已处理完毕,不会再出现。基于这个设定,我们可以认定 t 时刻之前的统计数据不会再发生变化。

实际生产环境中,由于存在长尾数据,难以达到所有 t 时刻以前的数据都已完成处理的理想情况,所以我们通常会设定一个容忍度百分比(例如 99.9%)。

4.2.2 水位在埋点监控中的应用

业内常规的在线服务监控中,通常以自然时间作为横轴。

为了规避数据偏移的问题,我们抛弃了这个设定,改用打点日志的上报时间作为横轴,以水位作为监控推进的基线。

水位之前的统计数据为确定值,水位之后的数据因为还在处理中,可能随时间发生变化。

最终剔除了服务端导致的数据偏移问题,效果如下:

图片

△以上报时间为横轴的监控

4.3 如何降低监控成本

日志中台承载了百度厂内几乎所有 APP 的埋点流量,数据的峰值超过 200W QPS,天级的 PV 也是千亿级别。

在这个数据量级下,保留原始的数据条数和内容,不论是处理、存储还是检索,成本都将是一个天文数字。

监控不同于数据报表,只需要按照既定的维度条件检索出统计值即可,所以对监控数据进行简化、降维聚合是必要的。

4.3.1 监控数据裁剪

在4.1节中,我们提到了通过数据映射的方式解决维度膨胀的问题。

这意味着经过数据映射后,原始字段在后续的流程中已经冗余,真正有效的是映射后的字段,且数量可控。

我们在流式任务处理中定义了有别于常规业务数据的裁剪格式,由数据处理算子单独输出。

图片

常规数据的平均长度为10KB/条,经过映射裁剪可降低到0.2 KB/条,减少了98% 的体积。

4.3.2 按时间聚合

埋点监控需要的是每个维度排列组合下的统计值,不需要每条数据的详情。

并且,在经过4.3.1节的裁剪后,数据详情也不再有实际意义。

故我们考虑将裁剪后的监控数据,按照时间区间聚合,仅保留 count (PV)与 sum(duration)运算后的统计值。

聚合通过监控处理流式任务实现:

图片

通过订阅算子通过维度组合的 hash 值,对监控数据进行分发,确保同一维度需要聚合的数据会被分发到同一个算子,规避多实例聚合问题。

聚合算子在内存中不断累加聚合值,由定时任务触发统计,输出聚合数据,并对当前累加值清零,进行下一个时间窗口的计算。

在输出数据给 ES 的同时,在分布式文件系统上同时进行了数据备份。

经过时间聚合,最终监控数据的量级仅由排列维度数时间区间长度决定。

以5min一个时间窗口为例,数据条数由原始的6亿条量级被聚合压缩到了10w条以内,下降幅度达到99.98%。

05 总结与展望

早在19世纪,热力学之父开尔文就曾提出「To measure is to know」。观测与监控的思想在自然科学中至关重要,在软件工程领域更是如此。

埋点监控功能在支持高度定制化筛选数据的同时,也通过添加映射、引入水位等手段,保障了数据的稳定性。同时通过数据裁剪、时间聚合等方式,极大降低了监控的运算、存储与检索成本。

日志中台作为观测用户行为的一站式解决方案,以支撑服务好百度的各个业务为己任,再未来的规划中,也将持续秉承简单可依赖的价值观,为业务提供更准确、更可靠、更优质的服务。

——————END——————

推荐阅读

从打点平台谈打点治理

手把手教你用Spring Boot搭建AI原生应用

Baidu Comate帮开发者“代码搬砖”,2天搞定原先3周工作量

用 Baidu Comate 实现研发提效,百度营销服务团队打造“轻舸”加速营销智能化

从0到1:广告营销多智能体架构落地全攻略

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1837550.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【调试笔记-20240618-Windows- Tauri 调试中关闭自动重构的功能】

调试笔记-系列文章目录 调试笔记-20240618-Windows- Tauri 调试中关闭自动重构的功能 文章目录 调试笔记-系列文章目录调试笔记-20240618-Windows- Tauri 调试中关闭自动重构的功能 前言一、调试环境操作系统:Windows 10 专业版调试环境调试目标 二、调试步骤搜索相…

【CSS in Depth2精译】1.1.2 行内样式~1.1.3 选择器的优先级

文章目录 1.1.2 行内样式1.1.3 选择器的优先级1.1.3.1 优先级的写法1.1.3.2 关于优先级的思考 1.1.2 行内样式 如果无法通过样式表来源规则解决样式冲突,浏览器则会考察它们是否通过 行内样式 作用于该元素。当使用 HTML 的 style 属性声明样式时,该样式…

kaggle notebook和jupyter notebook读取csv

kaggle本地比赛用打开notebook的示例代码可以获取当前比赛的文件数据路径,进而后续直接复制读取 jupyter notebook读取csv 直接下载数据集到电脑上,并用本地路径读取就行。

ElasticSearch学习篇13_《检索技术核心20讲》进阶篇之LSM树

背景 学习极客实践课程《检索技术核心20讲》https://time.geekbang.org/column/article/215243,文档形式记录笔记。 内容 磁盘和内存数据读取特点 工业界中数据量往往很庞大,比如数据无法全部加载进内存,无法支持索引的高效实时更新&…

QT day04

一、思维导图 二、登录界面优化 代码: 界面: *{background-color: rgb(255, 255, 255); }QFrame#frame{border-image: url(:/Logo/shanChuan.jpg);border-radius:15px; }#frame_2{background-color: rgba(110, 110, 110, 120);border-radius:15px; }Q…

ionic 项目通过 android studio 打开报错 capacitor.settings.gradle 文件不存在

问题出现 原因分析 在程序相应的目录上面,没有找到对应的配置文件,但是这个文件不是我们自己生成的,而是通过 ionic 编译之后生成。 处理方案 先执行 ionic build,将 ionic 项目打包出来然后执行 npx cap sync 再使用 Android…

【小白专用 已验证24.6.18】C# SqlSugar操作MySQL数据库实现增删改查

【小白专用24.6.18】C# SqlSugar:连接数据库实现简单的,增、删、改、查-CSDN博客 SqlSugar .Net ORM 5.X 官网 、文档、教程 - SqlSugar 5x - .NET果糖网 SqlSugar项目创建 通过NuGet包管理器搜索SqlSugar(MySql还要安装MySql.Data、Newton…

C++ | Leetcode C++题解之第165题比较版本号

题目&#xff1a; 题解&#xff1a; class Solution { public:int compareVersion(string version1, string version2) {int n version1.length(), m version2.length();int i 0, j 0;while (i < n || j < m) {long long x 0;for (; i < n && version1[…

HTML+CSS+PHP实现网页留言板功能(需要创建数据库)

话说前头&#xff0c;我这方面很菜滴。这是我网页作业的一部分。 1.body部分效果展示&#xff08;不包括footer&#xff09; 2、代码 2.1 leaving.php&#xff08;看到的网页&#xff09; <!DOCTYPE html> <html lang"en"> <head> <met…

Flask之模板

前言&#xff1a;本博客仅作记录学习使用&#xff0c;部分图片出自网络&#xff0c;如有侵犯您的权益&#xff0c;请联系删除 目录 一、模板的基本用法 1.1、创建模板 1.2、模板语法 1.3、渲染模板 二、模板辅助工具 2.1、上下文 2.2、全局对象 2.3、过滤器 2.4、测试…

低市值Pow赛道解析,探寻百倍潜力项目

随着铭文的火爆出圈&#xff0c;比特币减半的到来&#xff0c;关于Pow赛道的讨论也在变得火热&#xff0c;不少投资机构都将Pow赛道作为2024年分析的重点。Pow赛道又来已久&#xff0c;不少项目的市值都超过10亿美元&#xff0c;而对于大多数投资者来说&#xff0c;低市值高回报…

Mp3文件结构全解析(一)

Mp3文件结构全解析(一) MP3 文件是由帧(frame)构成的&#xff0c;帧是MP3 文件最小的组成单位。MP3的全称应为MPEG1 Layer-3 音频 文件&#xff0c;MPEG(Moving Picture Experts Group) 在汉语中译为活动图像专家组&#xff0c;特指活动影音压缩标准&#xff0c;MPEG 音频文件…

Spring事务 和 事务传播机制

这里的 事务 和之前 MySQL的事务 一样&#xff0c;都是表示将⼀组操作封装成⼀个执⾏单元&#xff08;封装到⼀起&#xff09;&#xff0c;要么全部成功&#xff0c;要么全部失败。 Spring 中事务的实现 1. 编程式事务&#xff08;手动档&#xff09;。 package com.example.…

图论之岛屿系列

图论之岛屿系列 形成模板进行学习&#xff0c;加快学习效率 深度优先遍历 # 可以直接改原始grid的采用直接改的方案来完成修改&#xff0c;减少了内存开支 def dfs(self, grid, i, j):if i < 0 or j < 0 or i > len(grid) or j > len(grid[0]) or grid[i][j] &…

无引擎底层游戏开发(1):EasyX图形库引入 + 跟随鼠标移动的小球

来自bilibili up主的Voidmatrix的视频教程&#xff1a;【从零开始的C游戏开发】 一、图形库引入 EasyX在国内文档最多&#xff0c;而且功能函数齐全&#xff0c;最适合入门。 环境配置&#xff1a;vs2022 &#xff08;官网下载免费版&#xff09; 百度搜EasyX官方&#xff0…

AI搜索工具,提升你的工作效率

当我们需要查询某个内容的时候&#xff0c;除了可以通过搜索引擎来查找&#xff0c;还可以通过AI搜索工具来查找。AI搜索工具会智能的从网络信息中查找答案并整理后给我们结果。除了搜索结果&#xff0c;AI搜索工具还可以用来帮我们创作内容&#xff0c;比如你需要写一篇文章&a…

【博弈】843. 猜猜这个单词

本题涉及知识点 博弈 LeetCode843. 猜猜这个单词 给你一个由 不同 字符串组成的单词列表 words &#xff0c;其中 words[i] 长度均为 6 。words 中的一个单词将被选作秘密单词 secret 。 另给你一个辅助对象 Master &#xff0c;你可以调用 Master.guess(word) 来猜单词&…

Harbor本地仓库搭建003_Harbor常见错误解决_以及各功能使用介绍_镜像推送和拉取---分布式云原生部署架构搭建003

首先我们去登录一下harbor,但是可以看到,用户名密码没有错,但是登录不上去 是因为,我们用了负债均衡,nginx会把,负载均衡进行,随机分配,访问的 是harbora,还是harborb机器. loadbalancer中 解决方案,去loadbalance那个机器中,然后 这里就是25机器,我们登录25机器 然后去配置…

CentOS 7x 使用Docker 安装oracle11g完整方法

1.安装docker-ce 安装依赖的软件包 yum install -y yum-utils device-mapper-persistent-data lvm2添加Docker的阿里云yum源 yum-config-manager --add-repo http://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo更新软件包索引 yum makecache fast查看docker…

MacOS - command not found: brew

问题描述 command not found: brew 原因分析 没有安装 Homebrew&#xff0c;安装后即可使用~ 解决方案 打开终端&#xff0c;输入&#xff1a;/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"&#xff0c;点击回车 在弹出…