大数据项目之电商数仓、用户行为日志、服务器和JDK准备、模拟数据

news2025/1/11 6:06:37

文章目录

  • 3. 用户行为日志
    • 3.4 服务器和JDK准备
      • 3.4.1 服务器准备
      • 3.4.2 编写集群分发脚本xsync
      • 3.4.3 SSH无密登录配置
      • 3.4.4 JDK准备
      • 3.4.5 环境变量配置说明
    • 3.5 模拟数据
      • 3.5.1 使用说明
        • 3.5.1.1 将application.yml、gmall2020-mock-log-2021-10-10.jar、path.json、logback.xml上传到hadoop102的/opt/module/applog目录下
          • 3.5.1.1.1 创建applog路径
          • 3.5.1.1.2 上传文件到/opt/module/applog目录
        • 3.5.1.2 配置文件
          • 3.5.1.2.1 application.yml文件
          • 3.5.1.2.2 path.json,该文件用来配置访问路径
          • 3.5.1.2.3 logback配置文件
        • 3.5.1.3 生成日志
          • 3.5.1.3.1 进入到/opt/module/applog路径,执行以下命令
          • 3.5.1.3.2 在/opt/module/applog/log目录下查看生成日志
        • 3.5.1.4 分发数据
      • 3.5.2 集群日志生成脚本
        • 3.5.2.1 在/home/summer/bin目录下创建脚本lg.sh
        • 3.5.2.2 在脚本中编写如下内容
        • 3.5.2.3 修改脚本执行权限
        • 3.5.2.4 将脚本分发一下
        • 3.5.2.5 启动脚本
        • 3.5.2.6 分别在hadoop102、hadoop103的/opt/module/applog/log目录上查看生成的数据

3. 用户行为日志

3.4 服务器和JDK准备

3.4.1 服务器准备

可以看我之前写的文章

VMware 安装

VMware 安装CentOS7配置环境、安装虚拟机、选择cd/dvd的方式安装系统、系统安装引导界面、需要定制化的内容、配置磁盘分区、修改主机名、网络配置、修改windows的主机映射文件

远程终端工具Xshell、Xftp传输工具、VMware 、CentOS7的下载、安装和使用教程(完整版) 我这篇文章用的是CentOS7,该项目使用的是CentOS7.5,所以大家使用镜像的时候调整为7.5即可

模板虚拟机环境准备、卸载虚拟机自带的JDK、安装epel-release、配置summer用户具有root权限,方便后期加sudo执行root权限的命令

克隆虚拟机、利用模板机hadoop100,克隆三台虚拟机:hadoop102 hadoop103 hadoop104、修改克隆机IP和主机名称、网络配置

我这个使用的内存应该是2G,大家将Hadoop102调整到6G,Hadoop103调整到4G,Hadoop104调整到4G

3.4.2 编写集群分发脚本xsync

本地运行模式(官方WordCount)、完全分布式运行模式(开发重点)、scp安全拷贝、rsync 远程同步工具、xsync集群分发脚本、同步环境变量配置(root所有着)

3.4.3 SSH无密登录配置

SSH无密登录配置、生成公钥和私钥、集群配置、集群部署规划、默认配置文件、核心配置文件、HDFS配置文件、YARN配置文件、MapReduce配置文件、在集群上分发配置好的

3.4.4 JDK准备

在hadoop102安装JDK、配置JDK环境变量、测试JDK是否安装成功

3.4.5 环境变量配置说明

Linux的环境变量可在多个文件中配置,如/etc/profile,/etc/profile.d/*.sh,~/.bashrc,~/.bash_profile等,下面说明上述几个文件之间的关系和区别。
bash的运行模式可分为login shell和non-login shell。
例如,我们通过终端,输入用户名、密码,登录系统之后,得到就是一个login shell。而当我们执行以下命令ssh hadoop103 command,在hadoop103执行command的就是一个non-login shell。

在这里插入图片描述

这两种shell的主要区别在于,它们启动时会加载不同的配置文件,login shell启动时会加载/etc/profile,~/.bash_profile,~/.bashrc。non-login shell启动时会加载~/.bashrc。
而在加载~/.bashrc(实际是~/.bashrc中加载的/etc/bashrc)或/etc/profile时,都会执行如下代码片段,

在这里插入图片描述

因此不管是login shell还是non-login shell,启动时都会加载/etc/profile.d/*.sh中的环境变量。

3.5 模拟数据

3.5.1 使用说明

3.5.1.1 将application.yml、gmall2020-mock-log-2021-10-10.jar、path.json、logback.xml上传到hadoop102的/opt/module/applog目录下

3.5.1.1.1 创建applog路径

在这里插入图片描述

3.5.1.1.2 上传文件到/opt/module/applog目录

在这里插入图片描述gmall2020-mock-log-2021-10-10.jar
这个文件已运行就会生成用户行为数据

[summer@hadoop102 applog]$ java -jar gmall2020-mock-log-2021-10-10.jar

在这里插入图片描述在这里插入图片描述

3.5.1.2 配置文件

3.5.1.2.1 application.yml文件

可以根据需求生成对应日期的用户行为日志。

# 外部配置打开
logging.config: "./logback.xml"
#业务日期  注意:并不是Linux系统生成日志的日期,而是生成数据中的时间
mock.date: "2020-06-14"

  #模拟数据发送模式
mock.type: "log"
#mock.type: "http"
#mock.type: "kafka"
  #http模式下,发送的地址
mock.url: "http://localhost:8090/applog"

mock:
  kafka-server: "hdp1:9092,hdp2:9092,hdp3:9092"
  kafka-topic: "ODS_BASE_LOG"

  #启动次数
mock.startup.count: 200
  #设备最大值
mock.max.mid: 1000000
  #会员最大值
mock.max.uid: 1000
  #商品最大值
mock.max.sku-id: 35
  #页面平均访问时间
mock.page.during-time-ms: 20000
  #错误概率 百分比
mock.error.rate: 3
  #每条日志发送延迟 ms
mock.log.sleep: 20
  #商品详情来源  用户查询,商品推广,智能推荐, 促销活动
mock.detail.source-type-rate: "40:25:15:20"

#领取购物券概率
mock.if_get_coupon_rate: 75

#购物券最大id
mock.max.coupon-id: 3

  #搜索关键词  
mock.search.keyword: "图书,小米,iphone11,电视,口红,ps5,苹果手机,小米盒子"

# 男女浏览商品比重(35sku)
mock.sku-weight.male: "10:10:10:10:10:10:10:5:5:5:5:5:10:10:10:10:12:12:12:12:12:5:5:5:5:3:3:3:3:3:3:3:3:10:10"
mock.sku-weight.female: "1:1:1:1:1:1:1:5:5:5:5:5:1:1:1:1:2:2:2:2:2:8:8:8:8:15:15:15:15:15:15:15:15:1:1"


在这里插入图片描述
这里滚动的方式是以文件的形式进行滚动的,而这个文件滚动的日期是和服务器的时间是相关的,而模拟的数据是2020年的数据,所以这里的日期会不匹配,在生产情况下是没有问题的,因为当天的数据当天就处理了,所以日期基本上是没有问题的。

修改如下内容

3.5.1.2.2 path.json,该文件用来配置访问路径

根据需求,可以灵活配置用户点击路径

[
  {"path":["home","good_list","good_detail","cart","trade","payment"],"rate":20 },
  {"path":["home","search","good_list","good_detail","login","good_detail","cart","trade","payment"],"rate":30 },
  {"path":["home","search","good_list","good_detail","login","register","good_detail","cart","trade","payment"],"rate":20 },
  {"path":["home","mine","orders_unpaid","trade","payment"],"rate":10 },
  {"path":["home","mine","orders_unpaid","good_detail","good_spec","comment","trade","payment"],"rate":5 },
  {"path":["home","mine","orders_unpaid","good_detail","good_spec","comment","home"],"rate":5 },
  {"path":["home","good_detail"],"rate":20 },
  {"path":["home"  ],"rate":10 }
]

3.5.1.2.3 logback配置文件

可配置日志生成路径,修改内容如下

<?xml version="1.0" encoding="UTF-8"?>
<configuration>
    <property name="LOG_HOME" value="/opt/module/applog/log" />
    <appender name="console" class="ch.qos.logback.core.ConsoleAppender">
        <encoder>
            <pattern>%msg%n</pattern>
        </encoder>
    </appender>

    <appender name="rollingFile" class="ch.qos.logback.core.rolling.RollingFileAppender">
        <rollingPolicy class="ch.qos.logback.core.rolling.TimeBasedRollingPolicy">
            <fileNamePattern>${LOG_HOME}/app.%d{yyyy-MM-dd}.log</fileNamePattern>
        </rollingPolicy>
        <encoder>
            <pattern>%msg%n</pattern>
        </encoder>
    </appender>
    <!-- 将某一个包下日志单独打印日志 -->
    <logger name="com.atguigu.gmall2020.mock.log.util.LogUtil"
            level="INFO" additivity="false">
        <appender-ref ref="rollingFile" />
         <appender-ref ref="console" />
    </logger>

    <root level="error"  >
        <appender-ref ref="console" />
        <!-- <appender-ref ref="async-rollingFile" />  -->
    </root>
</configuration>

3.5.1.3 生成日志

3.5.1.3.1 进入到/opt/module/applog路径,执行以下命令
[summer@hadoop102 applog]$ java -jar gmall2020-mock-log-2021-10-10.jar

在这里插入图片描述在这里插入图片描述

3.5.1.3.2 在/opt/module/applog/log目录下查看生成日志
[summer@hadoop102 log]$ ll

在这里插入图片描述

3.5.1.4 分发数据

将Hadoop102上的/opt/module/applog目录分发到103
在这里插入图片描述

[summer@hadoop102 module]$ xsync applog/

在这里插入图片描述在这里插入图片描述
将104上的删掉applog文件

3.5.2 集群日志生成脚本

在hadoop102的/home/summer目录下创建bin目录,这样脚本可以在服务器的任何目录执行。

3.5.2.1 在/home/summer/bin目录下创建脚本lg.sh

[summer@hadoop103 bin]$ vim lg.sh

在这里插入图片描述

3.5.2.2 在脚本中编写如下内容

#!/bin/bash
for i in hadoop102 hadoop103; do
    echo "========== $i =========="
    ssh $i "cd /opt/module/applog/; java -jar gmall2020-mock-log-2021-10-10.jar >/dev/null 2>&1 &"
done 

在这里插入图片描述
注:
①/opt/module/applog/为jar包及配置文件所在路径
②/dev/null代表Linux的空设备文件,所有往这个文件里面写入的内容都会丢失,俗称“黑洞”。
标准输入0:从键盘获得输入 /proc/self/fd/0
标准输出1:输出到屏幕(即控制台) /proc/self/fd/1
错误输出2:输出到屏幕(即控制台) /proc/self/fd/2

3.5.2.3 修改脚本执行权限

[summer@hadoop103 bin]$ chmod 777 lg.sh

在这里插入图片描述

3.5.2.4 将脚本分发一下

[summer@hadoop103 bin]$ xsync lg.sh

在这里插入图片描述

3.5.2.5 启动脚本

[summer@hadoop102 module]$ lg.sh

在这里插入图片描述

3.5.2.6 分别在hadoop102、hadoop103的/opt/module/applog/log目录上查看生成的数据

在这里插入图片描述在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/542.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言】经典编程题

文章目录1. Fibonacci数列 ⭐️2. 替换空格 &#x1f31f;3. 找单身狗 &#x1f4ab;4. 模拟实现 atoi ✨1. Fibonacci数列 ⭐️ 做题链接&#xff1a;Fibonacci数列 Fibonacci数列是这样定义的&#xff1a; F[0] 0 F[1] 1 for each i ≥ 2: F[i] F[i-1] F[i-2] 因此&…

[数据结构初阶]算法的时空复杂度

目录 算法效率 如何衡量一个算法的好坏 算法的复杂度 时间复杂度 时间复杂度的概念 大O的渐进表示法 常见时间复杂度计算举例 例一&#xff1a; 例二&#xff1a; 例三&#xff1a; 例四&#xff1a…

C规范编辑笔记(三)

继上篇我们的C规范编辑笔记(二)后&#xff0c;我们今天开始分享第三篇笔记&#xff0c;话不多说&#xff0c;我们开始~ 1、一个 tab 键盘等于四个空格键。我们在编程的时候最好使用空格键而不是使用 tab 键&#xff0c;当两个编译器的 tab 键设置的大小不一样的时候&#xff0…

无人机基础知识:多旋翼无人机自动控制原理与算法

无人机基础知识&#xff1a;多旋翼无人机自动控制原理与算法前言无人机自动控制器PID控制算法前言 无人机&#xff08;Unmanned Aerial Vehicle&#xff09;&#xff0c;指的是一种由动力驱动的、无线遥控或自主飞行、机上无人驾驶并可重复使用的飞行器&#xff0c;飞机通过机…

Linux:进程描述、进程创建(fork)、进程状态(僵尸进程、孤儿进程)

目录操作系统进程的基本概念进程创建&#xff08;fork)进程状态僵尸进程孤儿进程操作系统 操作系统是一个管理计算机软硬件资源的软件&#xff0c;它包括内核&#xff08;进程管理&#xff0c;内存管理&#xff0c;文件管理&#xff0c;驱动管理&#xff09;和其他程序&#x…

神经网络输出表达式,神经网络数据格式

1、BP神经网络输入输出格式问题 在你的代码基础上说了。 clc;clear; close all; pload(originaldata.txt);%你问题最后说的数据文件名跟这个不同。 p1p; t[1];% 这个输出&#xff08;Targets&#xff09;应该和输入数据对应&#xff0c;输入数据有10个&#xff0c;输出应该也是…

如何从0到1搭建一个个人网站

前言 如何从0到1搭建一个可以外网访问的项目&#xff1f; 我就用自己的服务器给大家举例&#xff0c;怎么从0到1搭建一个学生和新手可以用来面试的项目&#xff0c;老手也可以回忆一下自己逝去的青春。 服务器在激活的时候会让你选系统&#xff0c;这个时候敖丙我个人建议&a…

软考 | 计算机系统

CPU 计算机系统硬件组成 计算机系统是由软硬件共同组成&#xff0c;协同运行程序。计算机的基本硬件由 运算器、控制器、存储器、输入设备、输出设备 5 大部件组成。其中&#xff0c;运算器和控制器等部件集成到一起的部分称为中央处理器&#xff08;CPU&#xff09;。CPU 是…

离线数仓 (八) --------- 数仓分层

目录一、为什么要分层二、数据集市和数据仓库区别三、数仓命名规范1. 表命名2. 脚本命名3. 表字段类型一、为什么要分层 分层说明&#xff1a; ODS 层&#xff1a;原始数据层&#xff0c;存放原始数据&#xff0c;直接加载原始日志、数据&#xff0c;数据保持原貌不做处理。 …

【C++】命名空间输入输出缺省参数函数重载

​&#x1f320; 作者&#xff1a;阿亮joy. &#x1f386;专栏&#xff1a;《吃透西嘎嘎》 &#x1f387; 座右铭&#xff1a;每个优秀的人都有一段沉默的时光&#xff0c;那段时光是付出了很多努力却得不到结果的日子&#xff0c;我们把它叫做扎根 目录&#x1f449;什么是C&…

链路状态路由协议 OSPF (一)

作者简介&#xff1a;一名在校云计算网络运维学生、每天分享网络运维的学习经验、和学习笔记。 座右铭&#xff1a;低头赶路&#xff0c;敬事如仪 个人主页&#xff1a;网络豆的主页​​​​​​ 目录 前言 一.OSPF的基本概念 1.什么是OSPF 2.OSPF路由协议概述 (1)内部…

网络安全知识之什么是网络安全?

网络安全的概念&#xff0c;有很多不同的定义。在一些场合中&#xff0c;我们最多的考虑的还是网络的技术安全&#xff0c;但是技术延伸出来的安全又会涉及到社会安全、文化安全、国家安全等等。 网络安全的概念&#xff0c;有很多不同的定义。在一些场合中&#xff0c;我们最多…

升级全新网络方案,给你低成本、高性能的裸金属体验

摘要&#xff1a;对政企、金融客户来说&#xff0c;裸金属服务器相比于云服务器&#xff0c;更能满足他们对性能和稳定性的要求。但裸金属服务器的网络实现&#xff0c;却存在成本高、灵活性差、成熟度不足等问题。为解决这些问题&#xff0c;华为云Stack有一套增强版的网络方案…

Unity Rigidbody实现爬坡功能

文章目录&#x1f388; 简介&#x1f388; 实现原理&#x1f388; 实现代码&#x1f388; 简介 人物移动功能的实现或许用到Character Controller组件或许用到Rigidbody刚体组件&#xff0c;前者可以直接实现在某些高地不平的地面上移动&#xff0c;而后者想要在具有一定角度的…

分布式事务Seata源码解析十:AT模式回滚日志undo log详细构建过程

文章目录一、前言二、准备undo log0、undo log 样例1&#xff09;undo log表结构2&#xff09;rollback_info&#xff08;回滚日志数据&#xff09;1、before image的构建1&#xff09;业务表元数据信息TableMeta1> Caffeine缓存数据获取2> Caffeine缓存自动刷新2&#x…

[Linux打怪升级之路]-vim编辑器(看就能马上操作噢)

前言 作者&#xff1a;小蜗牛向前冲 名言&#xff1a;我可以接受失败&#xff0c;但我不能接受放弃 如果觉的博主的文章还不错的话&#xff0c;还请点赞&#xff0c;收藏&#xff0c;关注&#x1f440;支持博主。如果发现有问题的地方欢迎❀大家在评论区指正。 目录 一、vim的…

语音合成 GAN Vocoders 总览

Loss 函数简称与全称的对应关系 Short NameFull Nameadvadversial lossFMFeature MatchingMSDMulti-Scale Discriminatormr-STFTMulti-resolution STFT lossfmr-STFTfull band Multi-resolution STFT losssmr-STFTsub band Multi-resolution STFT lossMelMel-Spectrogram Loss…

Mybatis----多表查询

目录 返回类型 resultType resultMap 1、字段映射 2、多表查询 动态SQL if标签 where标签 set标签 choose(when,otherwise) 语句 trim标签 for-each标签 SQL片段 返回类型 resultType Mybatis在查询时&#xff0c;一定要指定返回类型&#xff1b;而其他操作&#xff0…

BH1750 传感器实战教学 —— 硬件设计篇

前言 前面刚写了一篇 《BH1750 光照传感器文档详解 及 驱动设计》&#xff0c;今天来写一篇简单的传感器实战教学。 文章如下&#xff1a;BH1750 光照传感器文档详解 及 驱动设计 那有些朋友就疑惑了&#xff0c;在上一篇文章其实我们基本都测试成功了&#xff0c;驱动也写了…

现代操作系统原理与实现

突然更新&#xff0c;为了水一个1024徽章拿随书笔记来发发&#xff08;嘿嘿 原文链接&#xff1a;https://github.com/yanyanran/YBlog/blob/main/%E7%8E%B0%E4%BB%A3%E6%93%8D%E4%BD%9C%E7%B3%BB%E7%BB%9F%E5%8E%9F%E7%90%86%E4%B8%8E%E5%AE%9E%E7%8E%B0.md 一、操作系统结构…