网日志处理中的应用架构-《大数据时代的IT架构设计》

news2024/12/27 18:04:34

用户的上网行为中蕴含着大量的客户特征和客户需求信息,这些信息至关重要,这就要求用户的上网日志记录必须被保存,而且还需要进行数据分析挖掘处理,然后根据处理结果定义用户的行为习惯,为电信运营商实现精细化运营提供重要的营销依据。

上网日志数据处理方法的流程:

1.对上网日志数据的URL地址进行提取。

2.对已知的URL数据,按照基准URL分类准则进行分类。

3.对未知的URL地址,首先爬取网页数据,然后对爬取的网页数据按照网页分类模型,进行网页分类,不断优化模型,提高网页分类的准确性。

4.根据每个人访问网址和对应网址的网页分类,利用模型统计出每个手机号码的个人喜好,为精准营销提供依据。

接口层 

接口层负责与外部系统的数据进行交换,包括用户数据、上网日志数据的采集,互联网网页内容的爬取和对外围系统提供访问接口。

数据接口可实现对关系型数据库,如Oracle、DB2等的数据交换,包括采集和加载过程,同时也支持文件类型的数据,可以通过FTP等方式进行采集。系统对外提供统一访问接口,具有开放性、高性能、可监控管理和安全性等特征。

数据层 

数据层是分布式大数据处理平台,从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据模型,将数据加载到分布式存储中去。通过分布式计算框架可以实现数据的清洗、转换、校验和装载等过程。

资源层 

由于分布式架构带来的硬件部署的复杂度,需要对物理资源层和系统平台层提供进一步的抽象,以提供自动化部署和弹性的运维能力,因此资源层实现了对物理资源的自动部署和动态扩展,对分布式集群中不同角色进行灵活部署。

功能层 

功能层实现了数据处理流程模块的模块化处理,提供集群的访问控制,并负责Hadoop集群的运行管理和系统报警日志管理。数据处理能够进行任意串并联的流程调度,并且能够控制节点的优先级、超时时间、重试次数,同时具备路由判断能力,能够在多分支的情况下通过条件进行不同的流程流转。采用异步调度策略,能够支持大并发量的调度。

应用层 

负责应用功能的具体算法实现。实现了网页分类索引,通过互联网注册URL及其类别的爬取,对数据进行统一管理,并置于持久化存储中。将其中的类别进行模块化重组,划分至对应的层次结构,如(社交-社区)或(社交-微博),对类别进行索引。实现了词库分类管理,通过对网络热门词汇及常用词汇的爬取,根据所属类别构建分词词库。词库定期更新,不断完善。实现了用户行为统一分析,基于客户的访问行为,识别其偏好特征,根据内容偏好特征进行客户细分,并支持目标客户群提取,以便支撑营销活动,实现了URL地址统一管理。

展示层 

负责将应用功能处理结果通过Web页面展示,并且提供交互页面,熟练使用各种应用处理功能,并对处理结果进行动态展示。

网络爬虫 

负责从互联网系统中爬取网页的具体内容信息。具体处理流程是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。程序从日志文件中提取URL地址,并进行过滤、去重操作。其中过滤操作去除图片、视频、软件等内容的URL地址;去重会把重复的URL、已经抓取的URL、已经分类的URL地址去掉。剩下的URL地址送入爬虫的地址库中,爬虫会根据一定的规则产生要抓取的URL地址,然后通过MapReduce的方式并发抓取产生的URL地址,最终把抓取到的URL地址的内容存储到HDFS文件系统中。

由于网络爬取流程需要互联网资源支持,数据处理Hadoop集群是和电信运营商内部网络互联,而且Hadoop集群的安全处理措施不够完善,因此,它们之间的访问需要严格控制,以保证网络部署安全。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/355956.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【数据库】Clickhouse 实践之路

文章目录背景Clickhouse简介为什么选择ClickhouseClickhouse特性Clickhouse建设整体架构数据接入层数据存储层数据服务层数据应用层Clickhouse运维管理平台配置文件结构元数据管理自动化运维用户管理集群操作监控与报警Clickhouse应用BI查询引擎核心诉求选型对比集群构建问题及…

基于jeecgboot的flowable流程设计器的几个bug修复

因为今天在用任务监听器的时候,出现几个bug,所以一并修复与处理。 一、建立任务监听器后,删除不了 主要有两个原因,一个是点击删除没反应,实际上是弹出框跑到后面去了,说明还是z-index问题,调整…

.Net Core中使用NEST简单操作Elasticsearch

C#中访问Elasticsearch主要通过两个包NEST和Elasticsearch.Net,NEST用高级语法糖封装了Elasticsearch.Net可以通过类Linq的方式进行操作,而Elasticsearch.Net相比之下更为原始直接非常自由。注意:ES的8.X以上的版本有新的包Elastic.Clients.E…

二极管的“几种”应用

不知大家平时有没有留意,二极管的应用范围是非常广的,下面我们来看看我想到几种应用,也可以加深对电路设计的认识: A,特性应用: 由于二极管的种类非常之多,这里这个大类简单罗列下&#xff1a…

SpringCloud Alibaba集成Dubbo实现远程服务间调用

SpringCloud Alibaba集成Dubbo实现远程服务间调用 工程创建 一、创建springBoot分模块项目,父工程:springcloud-alibaba以及子模块product-dubbo-provider、order-dubbo-consumer等 项目基本结构图如下所示: 二、依赖引入 在以上两个子模块…

数值方法笔记1:数字表示与误差分析

1 有意义数位概念与有意义数位损失1.1 怎么分析误差2 逼近阶 与渐近记法3 误差传播与稳定性1 有意义数位概念与有意义数位损失 整数的二进制表示使用短除法,网上有很多文章,这里就不再过多赘述了。 提一嘴小数的二进制表示。下面列举了一个例子。 在表…

【Spark分布式内存计算框架——Spark SQL】12. External DataSource(下)rdbms 数据

6.7 rdbms 数据 回顾在SparkCore中读取MySQL表的数据通过JdbcRDD来读取的,在SparkSQL模块中提供对应接口,提供三种方式读取数据: 方式一:单分区模式 方式二:多分区模式,可以设置列的名称,作为…

实例三:MATLAB APP design-多项式函数拟合

一、APP 界面设计展示 注:在左侧点击数据导入,选择自己的数据表,如果数据导入成功,在右侧的空白框就会显示数据导入成功。在多项式项数右侧框中输入项数,例如2、3、4等,点击计算按钮,右侧坐标框就会显示函数图像,在平均相对误差下面的空白框显示平均相对误差。

buu [NPUCTF2020]Classical Cipher 1

题目描述: 题目分析: 首先输入密码 {gsv_pvb_rh_zgyzhs} 后,得到:可以得知密码是错误的,再看看密码 {gsv_pvb_rh_zgyzhs} ,排列无序,那么尝试用凯撒与栅栏解密,发现还是解不出&…

Python基础3

目录 1. 函数多返回值 2. 函数多种传参方式 3. 匿名函数 3.1 函数作为参数传递 3.2 lambda匿名函数 4. 文件的读取操作 4.1 open()打开函数 4.2 读操作方法 4.3 文件的写入 4.4 文件的追加 5. 异常的捕获方法 5.1 捕获常规异常 5.2 捕获指定…

Spring Boot + Redis 实现分布式锁

一、业务背景有些业务请求,属于耗时操作,需要加锁,防止后续的并发操作,同时对数据库的数据进行操作,需要避免对之前的业务造成影响。二、分析流程使用 Redis 作为分布式锁,将锁的状态放到 Redis 统一维护&a…

ESP32学习--基于Mircopython-01

目录 第一步-开发环境搭建 第二步:点亮LED灯 第三步:ESP32连接wifi 1. 设置工作模式 第四步:PC机控制ESP32LED灯 课程链接 基础01-ThonnyMicroPythonESP32环境搭建_哔哩哔哩_bilibili 第一步-开发环境搭建 软件安装---固件下载 必须…

流程引擎之Flowable简介

背景Flowable 是一个流行的轻量级的采用 Java 开发的业务流程引擎,通过 Flowable 流程引擎,我们可以部署遵循 BPMN2.0 协议的流程定义(一般为XML文件)文件,并能创建流程实例,查询和访问流程相关的实例与数据…

基于RK3588的嵌入式linux系统开发(五)——uboot优化修改(按任意按键停止autoboot)

我们通常情况下,芯片进入uboot后,会根据设置的bootdelay时间进行倒数计数。这时候在终端按任意键,即可退出autoboot,进入uboot的命令行模式。 官方提供的uboot源码中,为了防止调试串口干扰导致不能进入系统&#xff0c…

Vue3电商项目实战-分类模块5【12-二级类目-结果区-排序组件、13-二级类目-结果区-数据加载、14-二级类目-结果区-进行筛选】

文章目录12-二级类目-结果区-排序组件13-二级类目-结果区-数据加载14-二级类目-结果区-进行筛选12-二级类目-结果区-排序组件 目的:封装排序组件,完成排序切换效果 大致步骤: 定义一个组件 sub-sort,完成基础布局在 sub.vue 组件…

Java:Linux(CentOS)安装、配置及相关命令

目录一、VMware安装二、CentOS安装1、安装过程2、加载ISO2.1 桌面的设置三、VI/VIM编辑器1、一般模式2、编辑模式3、命令模式4、模式间转换四、网络配置和系统管理操作1、配置子网IP和网关2、配置虚拟机ip地址2.1 ifconfig 查询ip地址2.2 修改IP地址3、配置主机名3.1 hostname …

ChatGPT对于从业人员影响的个人浅见

文章目录前言ChatGPT简介AI简介ChatGPT对从业者的影响参考资料前言 ChatGRT最近很火,网上有一些观点,他会取代很多职业,让产业产生颠覆性的变化。今天聊聊自己的想法,他的出现,是否会让我(程序员&#xff…

【opencv 系列】第3章 图像的8种变换

文章目录前言上代码1.1 复习读取和显示1.2 图像放大、缩小 cv2.resize()1.3 图像平移1.4 图像旋转1.5 图像仿射变换1.6 图像的裁剪1.7 位运算(AND, OR, XOR)1.8 图像的分离和融合1.9 颜色空间 color space前言 坦白说,这一章我认为是整个opencv系列最难的一张&…

Linux设备驱动模型与 sysfs实现分析

RTOS和Linux系统上开发驱动的方式非常的不同,在RTOS系统下,驱动和驱动之间并没有实质性的联系,不同的驱动和BSP之间仅仅通过一层很薄很薄的设备管理框架聚合在一起构成RTOS的设备管理子系统。图形化表示如下: 设备驱动&BSP之间互相独立,互不影响,互不依赖,独立实现,…

Damask和abaqus晶体塑性联合仿真培训通知

一 软件介绍 DAMASK 是一个统一的多物理晶体塑性模拟包。连续体力学边值问题的求解需要连接每个材料点的变形和应力的本构响应,该问题在 DAMASK 中基于晶体可塑性使用各种本构模型和均质化方法能够被有效解决。除此之外,孤立地处理力学已不足以研究新兴的先进高强度…