大数据期末课设~电商网站日志数据分析

news2024/10/6 14:35:10

目录

一、背景介绍... 1

二、大数据平台架构设计... 2

三、大数据平台系统设计... 7

四、数据分析与达成目标... 11

五、Spark综合编程与python可视化... 33

六、总结与体会... 50

一、背景介绍

一般情况下,大数据平台指的是使用了Hadoop、Spark、Storm、Flink、Blink等这些分布式、实时或者离线计算框架,并在上面运行各种计算任务的平台。建设大数据平台的最终目的是服务于业务需求,解决现有业务问题或者创造新的机会。业务部门可能并不关心是采用大数据技术,还是传统的数据库技术,是否采用大数据技术的主要依据是数据量。如果出现任务运行很久的情况,或者因为计算量太大现有技术不能满足,又或者有大量半结构化、非结构化数据需要处理的时候,可能就有大数据的诉求了。

二、大数据平台架构设计

大数据平台架构的设计包括整体框架设计和整体技术架构设计。

1、大数据平台整体架构

大数据平台整体架构可分为七大部分:目录管理、数据集成、数据资产管理、数据治理、数据开发、数据分析、数据共享及数据安全。

  • 目录管理

通过盘点和梳理业务数据,编制、发布数据目录,规划和指导数据的接入、管理、治理、开发、共享等。

  • 数据集成

为大数据平台提供基础支撑性服务,提供多种数据接入工具,实现结构化和非结构化的数据的汇聚接入,并支持数据的预处理,为大数据平台提供原始数据支撑。

  • 数据资产管理

通过管理数据标准、元数据、数据资源等,提高数据资产的价值。

  • 数据治理

规范数据的生成以及使用,发现并持续改善数据质量。

  • 数据开发

提供大数据开发、分析、挖掘等功能。非专业的业务人员也可以利用图形化的IDE进行数据分析。

  • 数据分析

提供从基本数据查询统计、数据交叉汇总、自由钻取分析、多维数据分析等多层次的数据分析功能。

  • 数据共享

实现不同部门、不同格式数据的共享交换,以及异构系统之间、新老系统之间的信息的透明交换。

  • 数据安全

提升一系列安全工具,包括数据加密、数据脱敏、数据备份、日志审计等。

2、大数据平台技术架构

大数据平台技术架构从下往上依次为数据源层、数据获取层、数据存储层、数据处理层、数据应用层。

  • 数据源层

非结构化数据:包括图片、声音、视频等,这类数据通常无法直接知道它的内容,数据库通常将它保存在一个BLOB字段中。一般的做法是,建立一个包含三个字段的表(编号 number、内容描述 varchar(1024)、内容 blob)。引用通过编号,检索通过内容描述。

半结构化数据:半结构化数据具有一定的结构性,但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。其存储方式有两种:一种是化解为结构化数据,另一种是用XML格式来组织并保存到CLOB字段中。

  • 数据获取层

数据获取层的主要作用是实现多源异构数据的采集、聚合、传输及预处理,集成多种数据采集工具。

Sqoop(发音:skup)是一款开源工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据传递。它可以将一个关系型数据库(MySQL ,Oracle ,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

Flume(发音:fluːm)是一个分布式的海量日志采集、聚合和传输系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

消息队列(MQ)是一种应用程序对应用程序的通信方法。应用程序通过写和检索出入列队的针对应用程序的数据(消息)来通信,而无需专用连接来链接它们。消息传递指的是程序之间通过在消息中发送数据进行通信,而不是通过直接调用彼此来通信。

Kettle是一款开源ETL工具,可以跨平台上运行,绿色无需安装,数据抽取高效稳定。中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

kettle四大家族:

Chef(中文:厨师):工作(job),设计工具 (GUI方式);

Kitchen(中文:厨房):工作(job)执行器 (命令行方式);

Spoon(中文:勺子):转换(transform),设计工具 (GUI方式)

Pan(中文:平底锅):转换(transform)执行器 (命令行方式)

  • 数据存储层

关系数据库:Mpp(大规模并行处理)技术是基于关系数据库的成熟技术,伴随着分布式与并行数据库技术的发展而来。

非关系数据库:NoSQL(NoSQL = Not Only SQL ),意即“不仅仅是SQL”。用以解决大规模数据集合多重数据种类问题。分为四大类:键值(Key-Value)存储数据库(如Redis),列存储数据库(如HBase),文档型数据库(SequoiaDB),图形(Graph)数据库(如Neo4J)。

分布式文件存储:HDFS是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它具有高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征,为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。FastDFS是一个开源的轻量级分布式文件系统。功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。

全文索引:Solr是以Lucene搜索库为核心,提供全文索引和搜索的开源工具,提供REST的HTTP/XML和JSON的API。ES(ElasticSearch)是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。

  • 数据处理层

离线数据处理:大数据离线处理一般使用 Hdfs或MPP 存储数据,使用MapReduce、Spark做批量计算,计算完成的数据如需数据仓库的存储,直接存入 Hive , 然后从Hive 进行展现。

实时数据处理:是指计算机对现场数据在其发生的实际时间内进行收集和处理的过程。


三、大数据平台系统设计

1、目录管理系统

目录管理系统用于盘点和梳理业务数据,编制发布业务目录,规划和指导数据的采集、处理、管理和共享等。一般包括目录分类管理、目录编制、审核和发布功能。

2、数据采集系统

数据采集系统为大数据平台提供基础支撑性服务,构建高效、易用、可扩展的数据传输通道。

3、数据资产管理系统

数据资产管理系统主要作用为标准数据管理、元数据管理、数据资源管理和数据资产盘点。

标准数据管理:管理对象为字典、数据元(用于业务方标准化管理业务字段),形成数据标准体系。

元数据管理:元数据是所有系统、文档和流程中包含的所有数据的语境,是生数据的知识。

·元模型管理:获取并展示不同数据库类型的元模型元素及属性信息;

·数据源管理:新增、编辑、维护数据库信息;

·元数据注册:包括表、视图、索引、字段、列族、消息等各类元模型下的元数据;

·元数据查看:按数据源查看已注册的所有元数据,并可查看元数据的关联关系、血缘关系。

数据资源管理:对数据资源进行目录化管理,形成有层级、有结构的数据资源集市。

·数据目录分类:实现数据目录的分类设置;

·数据目录编制:实现数据目录的新增、修改、删除、停/启等;

·业务目录映射:配置业务目录与数据目录的映射关系;

数据资产盘点:数据资产仪表盘、数据资产查看。

4、数据治理系统

数据治理系统用于规范数据的生成以及使用,改进数据质量,对数据进行加工处理,提升数据价值。提供识别和度量数据质量能力、数据清洗转换能力、数据加工三个核心能力。

数据质量管理:包括规则管理(准确性、完整性、唯一性、一致性、及时性、业务关联性等)、任务配置、检查报告。

数据规整管理:包括格式转换、字典转换、内容转换、任务管理、日志等。

数据加工:模型定义、模型调度。

5、数据共享系统

数据共享系统依托数据资源目录,按照数据交换标准,实现数据资源跨部门、跨层级、跨区域共享交换。提供资源展示、检索、申请、使用、下载能力,用户管理和资源授权能力,以及数据库表、服务接口、文件等类型共享交换能力。

6、数据开发系统

数据开发系统使用大数据或人工智能算法组件对数据进行分析、挖掘,形成数据服务产品。数据开发管理:包括应用工程管理、计算任务管理、任务调度管理、资源管理等。应用开发工具:提供在线开发IDE、数据源控件库、预处理控件库、模型控件库、可视化控件库、输出控件库、挖掘算法库等。

7、数据分析系统

对接各种业务数据库、数据仓库以及大数据平台,为用户提供从基本数据查询统计、数据交叉汇总、自由钻取分析、多维数据分析等多层次的数据分析功能。用户只需用鼠标拖拽指标和维度,即可产生数据分析结果。同时提供丰富的统计图表用于分析结果的可视化展示。

8、引入本次课题

随着大数据时代的到来,企业挖掘出隐藏巨大的数据价值给带来了更多的市场机会。大数据存储,处理和处理的研究已是企业未来发展的趋势,因此,将开展基于Hadoop + Hive框架进行电子商务数据分析,搭建一个大数据集群平台,用于通过电商案例的存储,处理,分析和可视化展示的实验迎向困难该挑战

获取完整版Word资源请点击以下链接

https://download.csdn.net/download/qq_53142796/87268564

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/81409.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

可交易性(tradability)检验即协整性检验:线性关系

两个时间序列的线性关系表示为: 左边是两个时间序列的线性组合。是协整系数。 右边是残差序列(residual series),表示为由两部分组成。是均衡值(equilibrium value),是一个均值为0的时间序列,可以构造为均…

系统 CPU 突然飙升且 GC 频繁,如何排查

处理过线上问题的同学基本上都会遇到系统突然运行缓慢,CPU 100%,以及Full GC次数过多的问题。 当然,这些问题的最终导致的直观现象就是系统运行缓慢,并且有大量的报警。 本文主要针对系统运行缓慢这一问题,提供该问题…

R语言中的岭回归、套索回归、主成分回归:线性模型选择和正则化

概述和定义 在本文中,我们将考虑一些线性模型的替代拟合方法,除了通常的 普通最小二乘法。这些替代方法有时可以提供更好的预测准确性和模型可解释性。最近我们被客户要求撰写关于模型选择的研究报告,包括一些图形和统计输出。 主成分分析P…

19. Dropout从零代码实现以及简洁实现

1. 从零实现 要实现单层的暂退法函数, 我们从均匀分布U[0,1]中抽取样本,样本数与这层神经网络的维度一致。 然后我们保留那些对应样本大于p的节点,把剩下的丢弃。 在下面的代码中,我们实现 dropout_layer 函数, 该函…

【统一融合:U2Fusion】

U2Fusion: A Unified Unsupervised Image Fusion Network (U2Fusion:一种统一的无监督图像融合网络) 研究提出了一种新颖的统一监督和管理端到端图像融合网络,称为U2Fusion,能够解决不同的融合问题,包括多模态,多曝光,和多聚焦融合。利用特征…

网络0323和网络2303分类过程的比较

( A, B )---2*30*2---( 1, 0 )( 0, 1 ) 用网络分类A和B,让A是(0,0)(1,1),让B是(1,0)(1,1)。测试集均为&#…

MySQL学习记录(8)MySQL锁

5、锁 5.1、概述 ​ 锁是计算机协调多个进程或线程并发访问某一资源的机制。在数据库中,除传统的计算资源(CPU、 RAM、I/O)的争用以外,数据也是一种供许多用户共享的资源。如何保证数据并发访问的一致性、有 效性是所有数据库必…

数字经济2023前瞻

判断1:“超个性化”已成数字化核心诉求 判断2:瞄准“既要又要还要”,业务与技术逼近“同心圆” 判断3:数据要素市场化配置的序幕拉开 判断4:产业数字化技术开源,打造深水区的群智协同平台 判断5:传统龙头企业的数字化“溢出”,实现赚钱传承双丰收 判断6:工业互联网将成…

Python学习----property属性上下文管理器生成器深拷贝浅拷贝正则表达式

property属性 property 属性就是负责把类中的一个方法当作属性使用,这样可以简化代码使用。 定义property属性有两种方式 1、装饰器方式 2、类属性方式 装饰器方式: 原本私有属性,我们不能直接访问,只能通过方法简介进行访问。…

网络安全观察报告 惯犯观察

执行摘要 从 1987 年 9 月 14 日,中国向世界发出第一封电子邮件到如今,中国的互联网发展已过去整整 31 个年头。从消费互联、产业互联到万物互联,互联网正在加速改变我们的交流方式和交易方式,一次次 004.重塑了国家的经济形态和…

[附源码]Python计算机毕业设计宠物用品购物网站Django(程序+LW)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等…

springboot+vue基本微信小程序的校园二手物品交易平台系统

在大学校园里,存在着很多的二手商品,但是由于信息资源的不流通以及传统二手商品信息交流方式的笨拙,导致了很多仍然具有一定价值或者具有非常价值的二手商品的囤积,乃至被当作废弃物处理。现在通过微信小程序的校园二手交易平台&a…

系统集成项目管理工程师2022年下半年广东卷下午案例分析题及答案

本系列文章将会对系统集成项目管理工程师考试中出现的各类案例分析题进行汇总解析,并给出分析过程,帮助考生备考复习。 更多复习内容请在微信搜索小程序 “系统集成项目管理工程师高频考点”。 1、A公司承接了一个信息系统开发项目,任命小安…

【现代机器人学】学习笔记四:一阶运动学与静力学

这节课的内容主要讲速度的正向运动学(也就是位置的一阶导数,所以叫一阶运动学)和静力学,这也是本书首次出现动力学相关的内容(刚体运动那节提到的力旋量算是一个概念的介绍)。 个人结合平时的工程项目看&a…

【DeepFuse:无监督用于与极端曝光图像】

DeepFuse: 一种深度无监督的方法,用于与极端曝光图像对进行曝光融合 DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pairs 传统手工进行的MEF(多曝光融合),对输入条件变化大的鲁棒性…

算法6.7BFS 算法6.8-6.9最小生成树

一个不知名大学生,江湖人称菜狗 original author: jacky Li Email : 3435673055qq.com Time of completion:2022.12.10 Last edited: 2022.12.11 目录 算法6.7BFS 第1关:算法6.7 BFS 任务描述 相关知识 编程要求 输入输出说明 测试说明…

[论文解析] Diffusion Models Beat GANs on Image Synthesis

code link: https://github.com/openai/guided-diffusion. 文章目录OverviewWhat problem is addressed in the paper?What is the key to the solution?What is the main contribution?Potential fundamental flaws; how this work can be improved?ContentsDiffusion mod…

web前端期末大作业:基于html化妆品购物商城项目的设计与实现——化妆品官方网站设计与实现(HTML+CSS+JS)

🎉精彩专栏推荐 💭文末获取联系 ✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主 💂 作者主页: 【主页——🚀获取更多优质源码】 🎓 web前端期末大作业: 【📚毕设项目精品实战案例 (10…

【cocos源码学习】cocos2d-x-4.0 Android Demo工程结构的简析

说明 使用cocos new创建的Android工程,并对其进行简单的结构分析 Android工程结构 基于gradle构建的Android工程是于模块来组织的,工程根目录本身是一个主模块,其它为子模块,每个模块都有一个build.gradle文件,主模…

Java基本微信小程序的智能图书管理系统 计算机毕业设计

本设计旨在研究一种社区图书管理系统设计与实现系统,以各种浏览器web页面加上云服务器后端服务系统,通过这一设计过程,进一步熟悉web前端开发技术和云服务器后端开发技术和方法,培养理论联系实际及知识的综合运用能力。 图书管理系…