数据中台建设之数据采集

news2025/1/11 17:09:15

目录

一、数据采集

1.1 概述

1.2 线上行为采集

1.2.1 概述

1.2.2 客户端埋点

1.2.2.1 埋点方式分类

1.2.2.2 优略势分析

1.2.2.3 埋点举例

1.2.3 服务端埋点

1.3 线下行为采集

1.3.1 概述

1.3.2 网络信号采集

1.3.3 图像识别采集

1.3.4 设备日志采集

1.4 互联网数据采集

1.5 数据手工填报


一、数据采集

1.1 概述

随着传统互联网、移动互联网、物联网等技术的兴起,企业的业务形态开始多元化,业务主体类型也愈加丰富,不局限于用户,供应商、员工、设备、车辆等对象的状态与行为都会对业务产生影响。通过行为埋点、爬虫、日志、填报的方式来收集各类业务对象行为数据是企业非常重要的方法和手段。从空间维度来看,对象行为可以分为线上行为和线下行为两类。采集这两类行为所产生的数据的方法是不一样的,而且方法也在随着技术的演进不断发展变化。

1.2 线上行为采集

1.2.1 概述

线上行为的主要载体可以分为传统互联网和移动互联网两种,对应的形态有PC系统、PC网页、H5、微信小程序、App、智能可穿戴设备、物联网传感设备等。在技术上,数据采集主要有客户端埋点和服务端埋点两种方式。其中客户端埋点主要通过在终端设备内嵌入埋点功能模块,通过模块提供的能力采集客户端的用户行为,并上传回行为采集服务端。

1.2.2 客户端埋点

1.2.2.1 埋点方式分类

常见的客户端埋点方式有3种:全埋点、可视化埋点和代码埋点。

  • ❑全埋点

将终端设备上用户的所有操作和内容都记录并保存下来,只需要对内嵌SDK做一些初始配置就可以达到收集全部行为的目的。这也经常被称为无痕埋点、无埋点等。

  • ❑可视化埋点

将终端设备上用户的一部分操作,通过服务端配置的方式有选择性地记录并保存。

  • ❑代码埋点

根据需求来定制每次的收集内容,需要对相应的终端模块进行升级。

1.2.2.2 优略势分析

对于这3种埋点方式,企业可以根据实际业务场景来判断和选择。它们的优劣势对比如下。

全埋点适合于终端设计标准化且有统一系统接口的情形。它利用系统提供的事件捕获机制,在对象事件发生时调用埋点工具中的指定处理逻辑,对该事件相关的信息进行记录。这种方法的优点是不用频繁升级,在一次性验证并发布后,就可以获取终端的全量行为数据。当突然发现需要对某个对象进行分析时,可以直接从历史数据中找到所需的数据,而不需要再次进行数据收集。其缺点是数据存储、传输的成本较高,有些当前不用的数据也需要保留。

可视化埋点适合于需要考虑存储和带宽成本的情形,可通过后端配置来降低对象事件行为采集数量,实现机制和全埋点类似。其优点是发布后不需要频繁升级,成本比全埋点低,并且能够灵活配置;缺点是当需要对某一个对象进行分析,但发现其数据没有采集时,需要重新配置并等数据采集完成后再进行后续工作,容易影响业务进度。

代码埋点主要适合于终端设计非标准化、事件行为需要通过代码来控制的情形。其优点是灵活性强,针对复杂场景可以单独设计方案,对存储、带宽等可以做较多的优化;缺点是成本高,维护难度大,升级周期较长。

1.2.2.3 埋点举例

下图所示为某站点的网站行为埋点日志

该埋点日志中记录了数据的类型(logtype)、内容标题(title)、行为的上一级页面(pre)、用户的屏幕分辨率(scr)、用户标识(cna)、用户名(nick)等各类信息。对于这些数据,后端运营人员可以进行挖掘和分析,从而指导产品、运营的优化。例如:根据用户的屏幕分辨率数据,可以在产品布局上进行更好的适配;通过行为的上一级页面,可以知道用户是从哪个页面进入当前页面的,进而优化用户行为路径。

1.2.3 服务端埋点

除了客户端埋点,常见的线上埋点还有服务端埋点,即通过在系统服务器端部署相应的数据采集模块,将采集到的数据作为行为数据进行处理和分析。

服务端埋点常见的形态有HTTP服务器中的access_log,即所有的Web服务的日志数据。前面提到的客户端的3种埋点方式,常见的简化实现方案一般也会配合HTTP服务器中的access_log来落地,但有时为了更好地融合,会定制一些服务端的SDK,用于捕获服务端系统中无法通过常规访问获取的数据信息,如内部处理耗时、包大小等数据。

服务端埋点的优点很明显,当需要获取的用户行为通过服务端请求就可以采集到或者通过服务端内部的处理逻辑能获取时,采用这种方式来收集用户行为数据能够降低客户端的复杂度,避免一些信息安全问题。

但其弊端也很明显,有些用户行为不一定会发出访问服务端的请求,这种方式就无法采集这部分数据。因此,服务端埋点一般会和客户端埋点结合使用,相互补充,以完成全部目标用户行为的采集。

1.3 线下行为采集

1.3.1 概述

线下行为数据主要通过Wi-Fi探针、摄像头、传感器等硬件采集。随着设备的升级,各种场景中对智能设备的应用越来越多,安防、客户监测、考勤等开始深入人们的工作和生活。常见的线下行为采集方式有网络信号采集、图像识别采集及设备日志采集等。

1.3.2 网络信号采集

通过Wi-Fi或移动分光信号采集周边移动设备上的用户行为是早年比较常用的用户行为采集方式,但有些不合规的使用涉及个人隐私,且手机操作系统也针对这类现象进行了一定的防采集处理,出于隐私保护、系统防护等原因,现在这种采集方式仅限于公共安全领域使用。拿Wi-Fi信号采集来说,其主要原理是通过信号探测的协议,在热点附近的移动设备探测SSID时建立网络连接,从网络协议中获取手机的网络设备号。

1.3.3 图像识别采集

图像主要通过智能摄像头来采集,采集内容后会根据业务需要及存储成本要求进行处理,既可以输出原始或压缩过的视频流,也可以通过设备本身部署的算法模型识别图像的内容,输出结构化数据。例如,目标对象进入相应区域后摄像头可以识别相关信息,然后采集和保存图像并生成唯一标识(如Face ID)、行为特征等描述信息供后续业务使用。

1.3.4 设备日志采集

AIoT设备记录了运行期间各类行为事件日志,这些日志数据的结构相对标准,有较强的时间属性,在工业制造、智能安防、执法稽查等领域广泛应用。由于缺少强制性的行业标准要求,当前大部分设备厂商为了构建自己的生态壁垒而使用私有协议进行数据传输。如果要采集和使用AIoT设备中的日志数据,企业通常需要先使用物联网平台或盒子对设备生产的数据进行协议转换,并通过订阅的方式获取基于标准协议传输的数据。

1.4 互联网数据采集

网络爬虫又称为网页蜘蛛,是一种按照既定规则自动抓取互联网信息的程序或脚本,常用于网站的自动化测试和行为模拟。Google、搜狗、百度等搜索引擎都基于它们内部自建的网络爬虫,在遵守相关协议的情况下不断爬取互联网上的新鲜网页信息,对内容进行处理后提供相应的检索服务。

当企业的内部信息不足时,可以考虑利用外部互联网的数据进行一些“化学反应”,将外部的数据与内部数据有效融合,从而让内部数据在应用上有更多价值。网络爬虫有多种实现方式,目前有较多的开源框架,如Apache Nutch 2、WebMagic、Scrapy、PHPCrawl等,利用它们我们可以快速根据自己的实际应用场景构建数据抓取逻辑。当然,需要遵守相应的协议和法规,同时要避免对目标网站带来过大的请求压力。

1.5 数据手工填报

受限于业务信息化程度较弱或数据保密要求,并不是所有的数据都会被机器记录,但这部分数据对决策分析等用途又至关重要。因此,为了能够将这些数据重新“信息化”,企业会使用数据填报类工具完成这部分数据的采集。

通常,数据收集员会定义收集数据的规范表单,比如填写字段、预设值、填写时间要求、填报人员等,下发给填报人员填写。数据填报与组织结构紧密关联,涉及多级上报时,还需要设定不同级别表单内容之间的联动计算方式,让整个上报过程更简单精确。

好了,本次内容就分享到这,欢迎大家关注《数据中台》专栏,后续会继续输出相关内容文章。如果有帮助到大家,欢迎大家点赞+关注+收藏,有疑问也欢迎大家评论留言!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1959749.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

演播室级字幕技术,性能卓越,满足多场景需求

如何在浩如烟海的视频内容中脱颖而出,成为每个企业亟需解决的关键问题。美摄科技,作为视频编辑处理技术的领航者,携其革命性的视频编辑处理SDK,特别是行业领先的字幕模块,为企业视频创作带来了前所未有的变革与升级。 …

springboot多媒体内容管理系统-计算机毕业设计源码08580

摘 要 随着人类向信息社会的不断迈进,风起云涌的信息时代正掀起一次新的革命,同时计算机网络技术高速发展,网络管理运用也变得越来越广泛。因此,建立一个多媒体内容管理系统(CMS)的设计与优化来管理多媒体内…

第三周:网络应用(上)

一、网络应用(层)内容概述 我们已经知道,Internet的体系结构是符合TCP/IP协议栈的,而“应用层”就在这个协议的最上层。 本讲内容包括: 二、网络应用的基本原理 常见网络应用包括: 问:网络应…

Redis 缓存中间件

目录 概念 安装redis redis基本命令 给redis添加密码 基础数据类型 string类型 list列表类型 set创建(一个键对应一个值) set 创建数据 get 获取数据 keys * 展示所有的键 exists 判断键值是否存在 type 查看数据的类型 del 删除键 rename…

期刊评价指标及其查询方法

1、期刊评价体系一 科睿唯安《期刊引证报告》(Journal Citation Reports, JCR) 科睿唯安每年发布的《期刊引证报告》(Journal Citation Reports, JCR)是一个独特的多学科期刊评价工具。JCR数据库提供基于引文数据的统计信息的期…

数字信号||快速傅里叶变换(FFT)(4)

实验四 快速傅里叶变换(FFT) 一、实验目的 (1)加深对快速傅里叶变换(FFT)基本理论的理解。 (2)了解使用快速傅里叶变换(FFT)计算有限长序列和无限长序列信号频谱的方法。 (3)掌握用MATLAB语言进行快速傅里叶变换时常用的子函数。 二、实验涉及的MATLAB子函数 1.fft 功能&am…

鸟哥的Linux私房菜(三)之环境开发工具篇

文章目录 Linux软件包管理器 - yumLinux下安装软件的方式认识yum查找软件包安装软件如何实现本地机器和云服务器之间的文件互传及其云服务器之间互传卸载软件 Linux编辑器 - vimvim的基本概念vim下各模式的切换vim命令模式各命令汇总vim底行模式各命令汇总vim替换模式各命令汇总…

快速幂的求解方法(位运算)

需要求解幂运算的解法,可以将需要运算的内容进行判别,众所周知,幂就是指数,就是将底数乘以自身完成n次自相乘,那么就可以幻化为他的幂的简化计算; 以二进制为例,你要求,即可以看作是…

win10系统通过docker部署pytorch的GPU环境

命名实体有关文章参考这篇文章 中文地址命名实体识别训练和预测 win10系统安装cuda环境参考这篇文章 搭建Pytorch的GPU环境超详细 文件结构 准备环境 (1)、安装cuda环境 (2)、安装docker 1、创建基础镜像,安装pytorch和python dockerfile # 使用适当的基础镜像 FROM…

安全防护软件的必要性:从微软蓝屏事件谈起

最近微软遭遇了的大规模蓝屏事件,让全球很多用户措手不及。这次事件告诉我们,保护我们的电脑和数据,安全防护软件是多么重要。 微软蓝屏事件源于网络安全公司CrowdStrike的技术更新错误,导致全球范围内大量Windows用户系统崩溃&a…

一元二次方程编程求解过程+题目

输入 输入的第一行包含两个正整数 T,M,分别表示方程数和系数的绝对值上限。 接下来 T 行,每行包含三个整数 a,b,c。 输出 输出 T 行,每行包含一个字符串,表示对应询问的答案,格式如题面所述。 每行输出的字符串中…

【netty系列-06】深入理解select、poll和epoll多路复用的区别

Netty系列整体栏目 内容链接地址【一】深入理解网络通信基本原理和tcp/ip协议https://zhenghuisheng.blog.csdn.net/article/details/136359640【二】深入理解Socket本质和BIOhttps://zhenghuisheng.blog.csdn.net/article/details/136549478【三】深入理解NIO的基本原理和底层…

分布式架构网络通信(RPC,RMI) 03

文章目录 1. 基本原理2. RPC 远程过程调用3. RMI 远程方法调用4. RMI代码实现4. BIO、NIO、AIO4.1 同步和异步4.2 阻塞和非阻塞4.3 BIO4.4 NIO4.5 AIO 1. 基本原理 要实现网络机器间的通讯,首先得来看看计算机系统网络通信的基本原理,在底层层面去看&am…

WSL桥接网络配置

仅做记录与分享,平台版本等不同无法指导更多。 一、需求 ubuntu虚拟机(WSL)桥接win11并且能联通外网(百度之类) 二、环境: 版本 Windows 11 专业版 版本号 23H2 安装日期 ‎2024/‎6/‎20 操作系统版本…

Mysql 集群搭建 05

文章目录 1. Mysql主从复制集群搭建1.1 主库配置1.2 从库配置 2. 分库分表2.1 拆分策略2.2 实现技术2.2.1 MyCat概述2.2.2 MyCat入门2.2.3 配置 schema.xml 3. 双主双从4. 双主双从读写分离 1. Mysql主从复制集群搭建 主从复制是指将主数据库的 DDL 和 DML 操作通过二进制日志…

有什么开放式耳机比较好用?耳机选购指南附赠五款开放式耳机推荐!

现在的耳机市场真的越来越多元了,最近的开放式耳机也是越来越火了,很多小伙伴都在后台开始问我,到底要怎么样才能选到一款比较合适自己的开放式耳机呢?开放式耳机现在这么多品牌,这么多的型号,真的很难选择…

如何评估自动化测试的效益

目录 自动化测试实施成本 自动化前期开发成本包括: 后期维护成本包括: 自动化测试执行次数 自动化测试实施成本比 其中“自动化测试收益”可能包括: “自动化测试成本”包括但不限于: 测试稳定性 可扩展性和可维护性 自动…

java拼接字符串的四种方法StringBuilder、StringBuffer、StringJoiner、String.join(x,x )

1.直接复制以下代码运行查看运行结果 import java.util.ArrayList; import java.util.List; import java.util.StringJoiner;public class Test {public static void main(String[] args) throws Exception {List<String> strs new ArrayList<>();strs.add("…

“等保测评:如何进行有效的安全漏洞管理与网络安全法规遵从“

随着网络环境的复杂性增加&#xff0c;安全漏洞管理成为企业信息安全管理体系中的关键环节。等保测评要求企业具备发现、评估、修复和监控安全漏洞的能力&#xff0c;以保障信息系统的安全稳定运行。本文将围绕“等保测评&#xff1a;如何进行有效的安全漏洞管理”这一主题&…

qrcode生成二维码并下载【带logo图标】【带文字描述】

qrcode官网地址&#xff1a;http://jeromeetienne.github.io/jquery-qrcode/ 结果图&#xff1a; 不带文字 带文字 遇到问题&#xff1a; 1、中文乱码&#xff1a;需要先将中文字体转码。 2、qrcode.js生成的二维码是没有白边的&#xff0c;需要重新绘制边框logo文字 3、将生成…