大数据周会-本周学习内容总结015

news2024/12/23 13:14:34

开会时间:2023.05.28 15:30 线下会议

目录

01【fhzny项目】

02【Spark】

03【调研-数仓构建】

3.1【数仓构建,流程图、架构图、使用场景】

场景选择

组件设计

构建流程

04【专利】

05【导师点评】


01【fhzny项目】

  1. GitLab
  2. MyBatis-Plus
  3. Springboot,黑马瑞吉外卖项目视频
  4. 算法模块和镜像模块代码
  5. docker

02【Spark】

sparkSql

03【调研-数仓构建】

分享“数仓构建”,流程图、架构图、使用场景,五分钟。

数仓构建(场景实时、离线、组件、流程)(第二周)【元数据管理、主数据】

3.1【数仓构建,流程图、架构图、使用场景】

数仓(Data Warehouse)是一个用于集成、管理和分析组织内部和外部数据的存储系统。数仓构建的过程涉及多个方面,包括场景选择(实时和离线)、组件设计和构建流程。下面是一个常见的数仓构建的概述。

场景选择

  1. 实时场景(Real-time):适用于需要快速获取最新数据并进行实时分析和决策的情况。这种场景通常涉及数据流处理和流式计算,要求低延迟和高吞吐量。
  2. 离线场景(Offline):适用于对历史数据进行批处理分析和决策支持的情况。这种场景通常使用批处理作业和离线计算,能够处理大规模的数据集。

组件设计

  1. 数据抽取(Extraction):从各个数据源(例如数据库、日志文件、API)中提取数据,并进行必要的清洗和转换,以满足数据仓库的要求。
  2. 数据存储(Storage):选择合适的存储技术和架构,例如关系型数据库、列式数据库或者分布式文件系统,用于存储数据仓库中的数据。
  3. 数据转换和集成(Transformation and Integration):对抽取的数据进行转换和整合,以便进行分析。这包括数据清洗、格式转换、字段映射等操作。
  4. 数据加载(Loading):将转换和整合后的数据加载到数据仓库中,保证数据的完整性和一致性。可以使用批量加载或者增量加载的方式。
  5. 数据建模(Modeling):设计和创建数据仓库的逻辑模型,包括维度模型和事实模型。这有助于提供用户友好的数据访问和分析方式。

构建流程

  1. 需求分析:明确业务需求和数据分析目标,确定需要收集和分析的数据类型和来源。
  2. 数据源识别和接入:确定需要接入的数据源,并制定相应的数据接入策略和技术方案。
  3. 数据抽取和清洗:实施数据抽取和清洗的过程,确保数据的准确性和一致性。
  4. 数据转换和集成:将清洗后的数据进行转换和整合,形成统一的数据模型。
  5. 数据存储和加载:选择合适的存储技术和加载方式,将整合后的数据加载到数据仓库中。
  6. 数据建模和优化:设计和创建数据仓库的逻辑模型,对数据进行建模和优化,以满足用户的查询和分析需求。
  7. 数据访问和分析:提供用户友好的数据

04【专利】

做一个工具实现mysql与es数据的完全一致。

linux,三个节点的es集群。

在mysql中编写包含json类型字段的数据表,将mysql中的数据插入到es中后,mysql中的json数据插入es后效果如下:

05【导师点评】

模型创新点、模型的改造与创新、一个新的应用场景。

  1. 算法创新点
  2. 场景创新点

mysql->es

canal记录数据的变化,加入触发器,一旦表变化,写到另外一个表。

canal更改配置文件,很多企业不让更改配置文件。

一种算法型的东西,快速地查找数据条数是否一样。

es—>es

flink-cdc,更改binLog,企业不让改。

es到es的数据备份,快速定位-二分查找,数量核对,

集群数据备份

高考大数据的数据备份与迁移及数据变化。

系统、分析模型、xxx。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/579879.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java001——基本的Dos命令

打开CMD的方式 1、win10:开始->系统->命令提示符 win11:开始->windows工具->命令提示符 2、Win键R输入cmd 打开控制台 3、进入文件夹,按住shift键鼠标右键点击,在此…

路径规划算法:基于萤火虫优化的路径规划算法- 附代码

路径规划算法:基于萤火虫优化的路径规划算法- 附代码 文章目录 路径规划算法:基于萤火虫优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化算法…

[第一章 web入门]SQL注入-1

拿到题目是一篇日记,是GET型请求方式,我们可以直接在url栏中注入数据 判断注入类型,页面有回显所以不是整型注入 id 1 and 1 2 id 1 页面无回显,判断为字符型注入,闭合符应该就是单引号 id 1 order by 4-- 无回显&…

C#,码海拾贝(26)——求解“一般带状线性方程组”之C#源代码,《C#数值计算算法编程》源代码升级改进版

using System; namespace Zhou.CSharp.Algorithm { /// <summary> /// 求解线性方程组的类 LEquations /// 原作 周长发 /// 改编 深度混淆 /// </summary> public static partial class LEquations { /// <summary> /…

Reorder buffer and Reservation station

Reoder buffer(ROB) 为了解决异常问题 instruction 的decode阶段被写入缓冲区的条目&#xff0c;指令完成的话&#xff0c;向缓冲区写入结果&#xff0c;最早decode的指令&#xff08;程序顺序&#xff09;如果没有被标记异常的话&#xff0c;写入reg file register rename …

基于STM32的IIC驱动协议实现

目录 1.简介 2.特点 3.协议细节 1.简介 IIC(Inter&#xff0d;Integrated Circuit)总线是一种由 PHILIPS 公司开发的两线式串行线&#xff0c;用于连接微控制器及其外围设备。它是由数据线 SDA 和时钟 SCL 构成的串行总线&#xff0c;可发送和接收数据。在 CPU 与被控 IC 之…

第一部分-基础篇-第一章:PSTN与VOIP(下篇)

文章目录 序言上一篇文章&#xff1a;1.6 电路交换与分组交换1.6.1 电路交换1.6.2 分组交换 1.7 VoIP1.8 IMS1.8.1 什么是IMS1.8.2 IMS的特点1.8.3 IMS核心网元&#xff08;1 &#xff09; CSCF&#xff08;2 &#xff09; MGCF&#xff08;3 &#xff09; IM-MGW&#xff08;5…

【数据结构】--单链表力扣面试题⑤链表分割

目录 一、有相对顺序的链表分割 二、无相对顺序的链表分割 一、有相对顺序的链表分割 题述&#xff1a;现有一链表的头指针ListNode* phead,给一定值x,编写一段代码将所有<x的结点排在其余结点之前&#xff0c;且不能改变原来的数据顺序&#xff0c;返回重新排序后的链表的…

Three.js加载FBX模型并解析骨骼动画

通过Threejs先加载一个.FBX格式的三维模型文件&#xff0c;然后解析该文件中的骨骼动画信息。 FBX 加载器FBXLoader.js <!-- 引入fbx模型加载库FBXLoader --> <script src"http://www.yanhuangxueyuan.com/versions/threejsR92/examples/js/loaders/FBXLoader.…

Linux源码包的安装与升级

文章目录 Linux源码包的安装与升级什么是源代码、编译器与可执行文件什么是函数库什么是make与configure什么是Tarball的软件如何安装与升级软件 Linux源码包的安装与升级 如果你想在自己的Linux服务器上运行网站&#xff0c;就需要安装一个Web服务器软件&#xff0c;否则无法…

测试工程师 | 测试基础知识点速查

文章目录 1. 测试介绍2. 测试的分类2.1 按照测试阶段划分&#xff08;4种&#xff09;2.2 按照代码可见度划分&#xff08;3种&#xff09;2.3 是否运行代码&#xff08;2种&#xff09;2.4 是否按照自动化&#xff08;2种&#xff09;2.5 其它测试&#xff08;4种&#xff09;…

深入篇【C++】CC++内存管理:new/delete底层原理剖析+思维导图总结

深入篇【C】C&C内存管理&#xff1a;new/delete底层原理剖析思维导图总结 Ⅰ.C/C内存分布Ⅱ.C的内存管理Ⅲ.C的内存管理①.new/delete操作内置类型总结&#xff1a; ②.new/delete操作自定义类型总结: ③.operator new与operator delete总结&#xff1a; ④.new/delete底层…

【C++String类使用】万字详解保姆级教学,手把手教你使用string类。

string类的使用 什么是string类&#xff1f;string构造string();string (const char* s);string (const string& str);string (const string& str, size_t pos, size_t len npos);string (const char* s, size_t n);string (size_t n, char c);template < class In…

《The Element of Style》阅读笔记 —— 章节 III A Few Matters of Form

前言&#xff1a;本篇为书籍《The Element of Style》第三章的阅读笔记。 本书电子版链接&#xff1a;http://www.jlakes.org/ch/web/The-elements-of-style.pdf 章节 I Elementary Rules of Usage 阅读笔记&#xff1a;链接章节 II Elementary Principles of Composition 阅读…

JavaScript进阶之路(一)初学者的开始

一&#xff1a;写在前面的问题和话 一个javascript初学者的进阶之路&#xff01; 背景&#xff1a;3年后端&#xff08;ASP.NET&#xff09;工作经验&#xff0c;javascript水平一般般&#xff0c;前端水平一般般。学习资料&#xff1a;犀牛书。 如有误导&#xff0c;或者错…

Git日常使用技巧 - 笔记

Git日常使用技巧 - 笔记 Git是目前世界上最先进的分布式版本控制系统 学习资料 廖雪峰 学习视频 https://www.bilibili.com/video/BV1pX4y1S7Dq/?spm_id_from333.337.search-card.all.click&vd_source2ac127043ccd79c92d5b966fd4a54cd7 Git 命令在线练习工具 https://l…

多线程 -- Thread类的基本用法

本篇重点 什么是变量捕获?? 有关线程的操作 线程创建线程中断线程等待线程休眠获取线程实例目录 1. 线程创建2. 线程中断变量捕获 线程的六种状态NEW 状态TERMNATED 状态RUNNABLE 就绪状态TIMED_WAITING 状态 1. 线程创建 关于线程的创建看上篇博客, 里面为线程的创建提供…

数据库事务到底是什么?

目录 场景&#xff08;两个用户之间进行转账操作&#xff09;&#xff1a; 需要的操作步骤&#xff1a; 事务 事务的四大特性&#xff1a; 一、原子性 &#xff08;1&#xff09;什么是回滚操作 &#xff08;2&#xff09;数据库恢复操作&#xff0c;如何知道数据恢复如初…

C++ Stack&queue&deque

C Stack&#xff06;queue&#xff06;deque &#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;C &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&#x1f349;留言 本博客主要内容主要讲解了栈和…

如何在华为OD机试中获得满分?Java实现【字符串通配符】一文详解!

✅创作者&#xff1a;陈书予 &#x1f389;个人主页&#xff1a;陈书予的个人主页 &#x1f341;陈书予的个人社区&#xff0c;欢迎你的加入: 陈书予的社区 &#x1f31f;专栏地址: Java华为OD机试真题&#xff08;2022&2023) 文章目录 1、题目描述2、输入描述3、输出描述…