大数据分析如何进行日志采集

大数据分析如何进行日志采集

news2026/2/11 4:11:32

最近经常和技术大牛在交流，每次的碰撞都会让我产生更多的想法。例如这次谈到的，某企业信息化用了二三十种的公有云服务、有二十多种业务系统的数据库使用了同一个物理库、云产品的稳定性是值得肯定的。今天我们就来谈一谈日志在数据库中的作用以及如何采集日志。
在这里插入图片描述

一、为什么采集日志

提到大数据，第一步总是数据的采集，有了原始数据，才有接下来的存储、处理、分析、应用、展示。

数据采集，有两个难点，一是如何采集到数据（技术问题），二是非本公司的数据如何能拿到（政策问题）。

政策问题更多是靠双方的平等交换，为数据提供方带来利益，这个问题相比技术问题更难有效持久解决。我们今天重点讨论如何采集数据这个技术问题。

二、如何采集日志数据

采集数据一般来讲，有两种技术方式。一种是直接对已入库的数据库中直接抽取数据，另一种是数据需要自己去从用户的使用行为中采集。我们重点讲第二种，如何采集行为数据。

如Html的网页、H5的手机页面，WWW服务器会自动将访问网页的行为检测探针与真实网页内容一起返回给客户的PC、手机。

当行为检测探针的JavaScript代码为有效触发时，将日志数据源源不断地送给公有云中的日志服务。日志服务原则上不作业务处理，仅进行简单日志保存。

为提升日志的真实有效性，日志服务可以提供一些增值服务，例如非法日志的恶意攻击，实现较复杂。

对于手机端的APP程序，一般会将探针内嵌到SDK中，将日志进行汇聚后再送到日志服务。

客户端上传一般采用http的POST方式进行上传，放到当天的access_log文件中。

三、日志服务分流处理

大家一定会联系到，日志服务器的压力很大，成千上万的客户端都会向日志服务中送数据，如何解决，我们再继续分析。

一方面，我们可以进行分流处理，将关键、非关键的日志送入不同的日志服务器。

另一方面，对同种类的日志可以通过Hash等方式选择日志服务器，尽量让更多的日志服务分担任务。

对于在高峰期的日志上报请求，我们也可以用于将非关键日志限流，先本地客户端存储，低谷期再上传的处理方案。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/89193.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

[附源码]Python计算机毕业设计SSM基于java语言的在线电子书阅读系统（程序+LW)

[附源码]Python计算机毕业设计SSM基于java语言的在线电子书阅读系统（程序+LW)

项目运行环境配置： Jdk1.8 Tomcat7.0 Mysql HBuilderX（Webstorm也行） Eclispe（IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持）。项目技术： SSM mybatis Maven Vue 等等组成，B/S模式 M…

阅读更多...

基于jsp+mysql+ssm小熊猫水果管理系统-计算机毕业设计

基于jsp+mysql+ssm小熊猫水果管理系统-计算机毕业设计

项目介绍小熊猫水果管理系统是水果商业贸易中的一条非常重要的道路，可以把其从传统的实体模式中解放中来，网上购物可以为消费者提供巨大的便利。通过小熊猫水果管理系统这个平台，可以使用户足不出户就可以了解现今的流行趋势和丰富的水果信…

阅读更多...

在中国程序员能不能干一辈子？

在中国程序员能不能干一辈子？

在中国程序员当然能干一辈子，因为35岁的程序员已经自动死亡，全网销声匿迹，查无此人了，这辈子已经玩完了（雾开个玩笑，就是看够了那些焦虑文学，我只想说： 程序员到35岁、45岁、55岁&…

阅读更多...

【LeetCode】1697. 检查边长度限制的路径是否存在

【LeetCode】1697. 检查边长度限制的路径是否存在

题目描述给你一个 n 个点组成的无向图边集 edgeList ，其中 edgeList[i] [ui, vi, disi] 表示点 ui 和点 vi 之间有一条长度为 disi 的边。请注意，两个点之间可能有超过一条边。给你一个查询数组queries ，其中 queries[j] [pj, qj, limi…

阅读更多...

外部注意力机制与内部注意力机制

外部注意力机制与内部注意力机制

自注意力是注意力机制的一种特殊情况，其核心思想为通过计算特征内部元素之间的联系来获得大范围内的依赖关系。而在外部注意力中，key被拿到了网络外部，因此可以习得数据集的全局状况。自注意力机制中，输入特征F被投射到query矩阵…

阅读更多...

Qt扫盲-QAbstractSlider理论总结

Qt扫盲-QAbstractSlider理论总结

QAbstractSlider理论总结1. 概述2. 常用属性3. 信号1. 概述 QAbstractSlider 其实就是 QScrollBar, QSlider and QDial 的父类，也就是抽象类定义了Slider这种控件的一些公共属性，其实就是一个抽象滚动条的主要属性。就比如一个具体的滑动条&#xff0c…

阅读更多...

服务器load高问题定位和优化

服务器load高问题定位和优化

服务器开发系列文章目录服务器开发系列前言一、原因分析与定位？总结前言什么是Load？什么是Load Average? 　　Load 就是对计算机干活多少的度量（WikiPedia：the system Load is a measure of the amount of work that a comput…

阅读更多...

isaac gym（二）仿真setup（代码齐全）

isaac gym（二）仿真setup（代码齐全）

目录 .1 Simulation Setup .2 Creating a Simulation 2.1 Simulation Parameters 2.1.1 Up Axis 2.2 Creating a Ground Plane .3 Loading Assets .4 Environments and Actors 4.1 env 4.2 actors 4.3 Test .5 Running the Simulation .6 Adding a Viewer 编辑 .7 Th…

阅读更多...

03_1排序算法：冒泡排序、选择排序、插入排序

03_1排序算法：冒泡排序、选择排序、插入排序

开始系统学习算法啦！为后面力扣和蓝桥杯的刷题做准备！这个专栏将记录自己学习算法是的笔记，包括概念，算法运行过程，以及代码实现，希望能给大家带来帮助，感兴趣的小伙伴欢迎评论区留言或者私信博…

阅读更多...

专访 | 刘乔升：开源是人类智力劳动最好的组织形式

专访 | 刘乔升：开源是人类智力劳动最好的组织形式

OpenMLDB： 可以请你先自我介绍一下吗？ 刘乔升： 我叫刘乔升，来自复旦大学，就读于软件工程专业，是 2022 开源之夏 OpenMLDB Go SDK 项目的贡献者。在参加本届开源之夏活动前，我就有参加过一些开源…

阅读更多...

自定义maven骨架

自定义maven骨架

目录一、自定义maven骨架 1、先创建一个新的工程、添加你需要的结构目录及pom所需要的依赖文件，以这个工程为模板，创建框架 2、添加在pom文件中添加依赖，com.test文件中这个坐标与maven仓库相对应 3、点击Edit....会有一个弹窗 4、点击加…

阅读更多...

如何在SpringBoot中设置HTTP缓存，你知道么？

如何在SpringBoot中设置HTTP缓存，你知道么？

在工作之余阅读缓存相关的书籍时，看到了http缓存相关的知识，HTTP 缓存机制是一个 web 性能优化的重要手段，无论是做前端还是做web后台，都可能会用得到它，应该是知识体系库中的一个基础环节，以前这一块学的不…

阅读更多...

TAPD新增需求自动写入腾讯文档

TAPD新增需求自动写入腾讯文档

【实现效果：】TAPD新增需求/缺陷，可以自动写入腾讯文档智能表，方便通过腾讯文档灵活管理自己的项目排期，并且通过不同的视图效果，实现简单的需求统计/分组迭代，通过数据关联及时跟进延期项目。【准备工作…

阅读更多...

引用类型 - JavaScript 数组对象、遍历、复制、冒泡排序、选择排序、数组方法、数组去重

引用类型 - JavaScript 数组对象、遍历、复制、冒泡排序、选择排序、数组方法、数组去重

写在前面哎呀呀，每次都是要沉淀好久好久才能更一篇文章…基本上半个月都很难出一篇，但还是想把这个系列做起来，主要是为了记录自己学习和开发的过程，以便在面试的时候讲项目，能说得头头是道(◍•ᴗ•◍) 马上就要开…

阅读更多...

Clickhouse

Clickhouse

目录 Clickhouse简介整体架构数据接入层数据存储层数据服务层数据应用层 Clickhouse简介目前企业用户行为日志每天百亿量级，虽然经过数仓的分层以及数据汇总层通用维度指标的预计算，有些个性化的分析场景还是需要直接编写程序或sql查询&…

阅读更多...

python人工智能学习需要学什么？

python人工智能学习需要学什么？

前言如果要从科技领域找出最大的变化和革新，那么我们很难不说到“人工智能”这个关键词。人工智能催生了大量新技术、新企业和新业态，为个人、企业、国家乃至全球提供了新的经济增长点，上到谷歌、苹果、百度等巨头，下到各类创业…

阅读更多...

发布-订阅模式解读

发布-订阅模式解读

发布-订阅模式先简单说一下发布订阅模式各个组件的定义: 发布者 Publisher : 状态改变时 , 向消息中心发送事件 ; 订阅者 Subscriber : 到消息中心订阅自己关心的事件 ; 消息中心 : 负责维护一个消息队列 , 根据消息类型将消息转发给对应的订阅者 ; 下面按照该…

阅读更多...

差错控制方法----循环冗余码计算

差错控制方法----循环冗余码计算

差错控制方法----循环冗余码计算循环冗余码，又称为多项式码。CRC的工作方法是在发送端产生一个冗余码，附加在信息位后面一起发送到接收端，接收端收到的信息按发送端形成循环冗余码同样的算法进行校验，如果发现错误，则…

阅读更多...

（附源码）php校园电子图像信息采集系统毕业设计 010930

（附源码）php校园电子图像信息采集系统毕业设计 010930

目录摘要 1 1 绪论 1 1.1 研究背景 1 1.2研究内容 1 1.3论文结构与章节安排 1 2 校园电子图像信息采集系统系统分析 3 2.1 可行性分析 3 2.2 系统流程分析 3 2.2.1 数据增加流程 3 2.2.2 数据修改流程 4 2.3.3数据删除流程 4 2.3 系统功能分析 4 2.3.1 功能性分析 4 2.3.2 …

阅读更多...

多态——C++第三大特性

目录一、多态的概念 1、概念二、多态的定义及实现 1、构成条件 2、虚函数 3、虚函数的重写 4、C11提供了override和final两个关键字，可以帮助用户检测是否重写 5、重载、覆盖（重写）、隐藏（重定义）的对比三、…

阅读更多...

推荐文章

最新文章