大数据之路-日志采集

news2024/9/19 11:04:27

数据采集作为大数据体系中的第一环节,对如何全面、高性能、规范完成海量数据的采集,并将其传输到大数据平台。

在这里插入图片描述

1.浏览器的页面日志采集

1.1 页面浏览日志采集流程

页面浏览日志是最基础的互联网日志,其中页面浏览量(PageView,PV)和访客数(Unique Visitors,UV)是一切互联网数据分析得以展开的基础和前提。
在这里插入图片描述
上图是一个典型的网页浏览过程,你认为从哪一个结点开始采集日志最为合适?
答案是④,首先,①-②步骤请求尚未抵达服务器,③只能认为服务器处理了请求,不能保证解析和渲染界面,也不能保证用户已经打开界面。
日志采集思路or原理:在HTML文档内的适当位置增加一个日志采集节点,当浏览器解析到这个节点时,将自动触发一个特定的HTTP请求到日志采集服务器。,当日志服务器接收到这个请求时,就确定浏览器已经成功地接收和打开了页面。
在这里插入图片描述
参照阿里巴巴采集过程(以PV日志为主),主要分为:采集 - 发送 - 收集 - 解析存档
1)客户端日志采集
主要采集当前页面参数、浏览行为的上下文信息(如读取用户访问当前页面时的上一步页面)以及一些运行环境信息
2)客户端日志发送
日志采集和日志发送一般存放在一个脚本中,通过HTTP协议与日志服务器通信,采集到的日志信息一般以URL参数形式放在HTTP日至请求的请求行内。
3)服务器端日志收集
日志服务器收到日志请求后,立刻向浏览器发送一个请求成功的响应,同时,会将日志请求内容写入到一个日志缓存区内
4)服务器端日志解析存档
进入缓存区后会按照约定的规则解析,转存入标准的日志文件中并注入实时消息通道供其他后端程序读取和进一步加工处理。

1.2页面交互日志采集

更多的是用户在访问某个界面是具体的互动行为特征,比如鼠标的移动变化、某些页面交互的反应。因为终端类型、页面内容、交互方式和用户实际行为是千变万化,无法规定统一的采集内容。阿里通过“黄金令箭”的采集方案,大致流程如下:
1)业务方在“黄金令箭”的元数据管理界面依次注册需要采集交互日志的业务、具体的业务场景以及场景下的具体交互采集点,在注册完成后,系统会生成与之对应的交互日志采集代码模板。
2)业务方将交互日志采集代码植入目标页面,并将采集代码与需要监测的交互行为做绑定
3)当用户在页面上产生指定行为时,采集代码和正常的业务互动相应代码一起被触发和执行
4)采集完成后通过HTTP协议发送到日志服务器,原则上不做解析处理,只做简单的转储

1.2页面日志的服务器端清洗和预处理

1)识别流量攻击、网络爬虫和流量作弊
对采集的日志进行合法性校验,依托算法识别非正常的流量并归纳出对应的过滤规则集加以滤除。
2)数据缺项补正
在大多数情况下,需要对日志中的一些公用且重要的数据项做取值归一、标准化处理或反向补正
3)无效数据剔除
有时因为业务变更或者配置不当,在采集到的数据中会有一些无意义,不仅会消耗存储空间和运算能力,还有可能干扰正常计算
4)日志隔离分发

1.2 无线客户端的日志采集

目的

  • 服务开发者,协助开发者分析各类设备问题
  • APP迭代优化,提升用户体验

1.2.1 页面事件

页面事件主要 记录
① 设备和用户的基本信息
② 被访问页面的信息
③ 访问基本路径,还原用户完整的访问行为(透传参数

请思考,进入页面时上报还是离开页面时上报呢?分析其中优点

在页面离开时上报比较好,首先可以获取到用户的页面停留时长

1.2.2控件点击及其他事件

记录了基本的设备信息、用户信息;控件所在的页面名称、控件名称、控件的业务参数

1.2.3特殊场景

为了平衡日志大小,减少流量消耗、采集服务器压力、网络传输压力,采集SDK提供了聚合功能。总体思路就是每个保管的元素一般都属于一个页面,利用页面的生命周期来实现适当的聚合及确定发送时机。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1153859.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

短期经济波动:均衡国民收入决定理论(一)

宏观经济学讲义 10 短期经济波动:均衡国民收入决定理论(一) 文章目录 10 短期经济波动:均衡国民收入决定理论(一)[toc]1 均衡国民收入决定1.1 均衡国民收入决定的不同理论1.2 两部门经济:有效需求原理和框架1.2.1 模型假设1.2.2 模型推导1.2…

【零基础抓包】Fiddler超详细教学(一)

​Fiddler 1、什么是 Fiddler? Fiddler 是一个 HTTP 协议调试代理工具,它能够记录并检查所有你的电脑和互联网之间的 HTTP 通讯。Fiddler 提供了电脑端、移动端的抓包、包括 http 协议和 https 协议都可以捕获到报文并进行分析;可以设置断点调试、截取…

期中成绩发布一对一查询

亲爱的老师们!我知道您在期中考试后忙碌而又紧张,不仅要准备试卷分析,还要面对学生和家长的询问。现在,我为您带来了一款一对一成绩查询系统,让您的工作变得更简单、更高效! 什么是成绩查询系统&#xff1f…

一个小妙招从Prompt菜鸟秒变专家!加州大学提出PromptAgent,帮你高效使用ChatGPT!

夕小瑶科技说 原创 作者 | 谢年年、王二狗 有了ChatGPT、GPT4之后,我们的工作学习效率得到大大提升(特别在凑字数方面୧(๑•̀◡•́๑)૭)。 作为一个工具,有人觉得好用,自然也有人觉得难用。 要把大模型用得6&am…

518抽奖软件,为什么说比别的抽奖软件更美观精美?

518抽奖软件简介 518抽奖软件,518我要发,超好用的年会抽奖软件,简约设计风格。 包含文字号码抽奖、照片抽奖两种模式,支持姓名抽奖、号码抽奖、数字抽奖、照片抽奖。(www.518cj.net) 精致美观功能 字体平滑无锯齿图片放大后清晰…

SCADA在污水和供水系统解决方案

1. 引言 随着城市化的不断发展,污水和供水系统的管理变得越来越重要。为了提高运营效率和监控系统状态,许多污水处理厂开始使用SCADA系统。 SCADA系统具有实时数据采集、监控和控制功能,可以帮助污水处理厂运营人员实时了解系统的运行情况&…

Google Play优化之如何增强应用的吸引力

视觉元素,在增强应用在Google Play上的吸引力方面发挥着巨大作用。应用程序的图标、屏幕截图和宣传视频,构成了应用程序商店优化过程的关键部分。 1、图标是用户遇到的第一个视觉元素。 精心设计的图标可以有效地代表应用程序的用途,可以显著…

LeetCode | 26. 删除有序数组中的重复项

LeetCode | 26. 删除有序数组中的重复项 OJ链接 这里的非递增是什么意思? 就是反过来的,递减,不能说是乱序~~也就是后一个比前一个小也就是和非递减等价,后一个比前一个大~~ 所以非递增和非严格递增是不一样的~~ 这里本质上的…

亚马逊云科技为奇点云打造全面、安全、可扩展的数据分析解决方案

刘莹奇点云联合创始人、COO:伴随云计算的发展,数据技术也在快速迭代,成为客户迈入DT时代、实现高质量发展的关键引擎。我们很高兴能和云计算领域的领跑者亚马逊云科技一同,不断为客户提供安全可靠的产品与专业的服务。 超过1500家…

外汇天眼:GOMAX──假网友热心教投资,高返利活动骗入金

在通讯科技如此发达的今日,人们愈来愈习惯透过网路交友,寻找志同道合的伙伴,甚至发展一段亲密关系。 然而,近年来假交友诈骗十分猖獗,至今已造成许多民众极大的财务损失,成为无法忽视的社会问题。 不久前&a…

kubectl资源管理命令---声明式

目录 一、yaml和json介绍 1、yuml语言介绍 2、k8s支持的文件格式 二、声明式对象管理 1、deployment.yaml文件详解 2、Pod yaml文件详解 3、Service yaml文件详解 三、编写资源配置清单 1、 编写yaml文件 2、 创建并查看pod资源 3、创建service服务对外提供访问并测试…

从零开始学习Java:如何成为一名Java开发者并找到工作

文章目录 🌟 JavaSE🌟 JavaWeb🌟 多线程🌟 主流框架🌟 Redis缓存🌟 消息中间件🌟 全文搜索🌟 MySQL🌟 Mongodb🌟 开发工具🌟 模板引擎&#x1f31…

2023年是5G-A标准制定关键年 华为实现5G-A重大突破

5G商用四年,2023年5G应用项目已经达到10万个,5G向千行百业渗透的同时,也在向5G-Advanced(下简称5G-A)演进。 10月20日,在工业和信息化部主办的2023年中国5G发展大会上,由IMT-2020(5G…

Yusi技术资讯博客wordpress模板

Yusi技术资讯博客wordpress模板,从第一感觉看上去,两栏结构直接将网站的内容展现,以红白灰色调搭配,一种低调协调的风格,喜欢该wordpress主题的朋友可以下载试试。 下载地址:https://bbs.csdn.net/topics/…

在Instagram进行kol营销之后要如何去后续维护

在网红经济盛行的如今,学会利用网红的影响力来推广品牌是营销中很重要的一个形式。企业要把握这个风口,承接这些网红带来的流量之后,牢牢掌握,及时开展后续的营销活动,这样才能实现高转化,成为网红经济下的…

python按照windows或者Ubuntu的文件夹中文件的顺序读取文件

摘要 在使用python读取文件的时候,发现python读取文件的顺序和文件夹中的顺序不一致,这时候应该怎么办呢? 解决方法 使用os_sorted库,安装方式: pip install natsort使用方法: from natsort import os…

【JavaSE专栏56】Java面向对象编程:深入理解类、对象、属性和方法的核心概念

Java面向对象编程:深入理解类、对象、属性和方法的核心概念 📚🧬💻 摘要引言1. Java中的类和对象 📚🧬1.1 什么是Java类和对象? 🤔1.2 类和对象在面向对象编程中的作用 &#x1f3af…

centos 7 kafka2.6单机安装及动态认证SASL SCRAM配置

目录 1.kfaka安装篇 1.1 安装jdk 1.2安装kafka 2.安全篇 2.1 kafka安全涉及3部份: 2.2 Kafka权限控制认证方式 2.3 SASL/SCRAM-SHA-256 配置实例 2.3.1 创建用户 2.3.2 创建 JAAS 文件及配置 3.测试 3.1 创建测试用户 3.2 配置JAAS 文件 3.2.1 生产者配…

关于息肉检测和识别项目的总结

前言 整体的思路:首先息肉数据集分为三类: 1.正常细胞 2. 增生性息肉 3. 肿瘤要想完成这个任务,首先重中之重是分割任务,分割结果的好坏, 当分割结果达到一定的准确度后,开始对分割后的结果进行下游分类…

【C语言_题库】C语言:编写一个程序,输入一组字符串,将字符串中的小写字母转换为大写字母,其它字符不变,并输出。

把键盘输入的一行字符串的小写字母转换成大写字母,其余字符不变,进行输出,直到遇到回车为止。 具体说明 【问题描述】 从键盘输入一行英文字符串,把所有小写字母变成大写字母,其他字母和字符保持不变。 【输入形式】 输入一行字符串,含大小写。 【输出形式】 输出大写字…