大数据周会-本周学习内容总结018

news2024/11/12 23:40:46

开会时间:2023.06.18 15:00 线下会议

01【调研-数据分析(质量、ETL、可视化)】

ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。

数据分析是指通过收集、清洗、整理和解释数据,以提取有价值的信息和洞察力的过程。在数据分析中,有几个重要的方面需要考虑,包括数据质量、ETL(抽取、转换和加载)和可视化。

  1. 数据质量: 数据质量是确保数据准确、完整、一致和可靠的度量。在数据分析中,数据质量对于得出准确的结论和做出正确的决策至关重要。以下是一些确保数据质量的常见方法:
    1. 数据清洗:去除数据中的重复项、空值、异常值和错误数据。
    2. 数据验证:检查数据是否符合事先定义的规则和约束。
    3. 数据整合:将来自不同来源的数据整合在一起,确保数据的一致性和完整性。
    4. 数据审查:评估数据的准确性、完整性和一致性,并解决潜在的数据质量问题。
  2. ETL(抽取、转换和加载): ETL是指将数据从各种来源(如数据库、日志文件、API等)中抽取出来,进行必要的转换和清洗,然后加载到目标系统中进行分析的过程。以下是ETL过程的主要步骤:
    1. 数据抽取:从各种来源中提取数据,通常使用查询、API调用或文件导入等方法。
    2. 数据转换:对抽取的数据进行清洗、整合、转换和规范化,以便符合分析的需求。
    3. 数据加载:将转换后的数据加载到目标系统(如数据仓库、数据湖等)中,以便进行进一步的分析和可视化。
  3. 可视化: 可视化是将数据转换为图表、图形和其他可视元素的过程,以便更好地理解和传达数据中的模式、趋势和洞察力。以下是可视化的一些常见方法和工具:
    1. 图表和图形:使用柱状图、折线图、饼图、散点图等图表类型来展示数据。
    2. 仪表板:通过将多个图表和指标组合在一起,提供对数据的全面和实时的可视化展示。
    3. 数据可视化工具:例如Tableau、Power BI、Matplotlib、D3.js等工具,提供丰富的可视化功能和交互性,帮助用户更好地探索和解释数据。

综上所述,数据分析过程涉及到确保数据质量、进行ETL以及进行数据可视化,以获得准确、可靠且有意义的结果和洞察力。

ETL常用的三种工具介绍及对比Datastage,Informatica和Kettle

ETL常用的三种工具介绍及对比Datastage,Informatica和Kettle

1.1【流程图】

1.2【架构图】

1.3【使用场景】

1.4【技术架构】

02【fhzn项目】

2.1【es多维度检索接口】

多维度检索方案设计,es多条件查询接口。

接口编写、git提交代码。

2.2【AI算法库资料整理】

第一阶段任务,参考两个推荐文献,抽象出 AI 领域的一个总体结构,包括内部包含的不同类别的算法和常用算法。这里可以参考分成四个部分总结。

  1. 第一部分:关于 AI 领域的发展历程、由一开始的专家系统到后面的神经网络做一个全局的说明和叙述。
  2. 第二部分:阐述 AI 领域内一些概念或术语上的解释,如训练、损失、评估器优化器之类的概念。
  3. 第三部分:是理论层面的,包括回归、分类等任务常见算法。
  4. 第四部分:列出不同目前工业领域 AI 火热的领域,如 NLP、视觉领域,再往下细分,列出一些更细的方向和每个方向下的常见算法,先把总体的资料库骨架抽象出来后续填充内容。

神经网络与深度学习-邱锡鹏.pdf

03【专利】

fastDFS、轮循机制、

04【学习内容】

4.1【flink】

  1. 尚硅谷大数据Flink1.17实战教程-笔记01【Flink概述、Flink快速上手】
  2. 尚硅谷大数据Flink1.17实战教程-笔记02【Flink部署】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/660210.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tcl常用命令备忘录-正则命令篇

正则表达式是一种用于匹配、查找、替换文本中特定模式的工具。在Tcl脚本中,可以使用正则表达式对字符串进行匹配、查找和替换。 regexp 语法: regexp ?选项? 正则表达式 字符串 ?变量1 变量2 ...? 其中,?选项?为可选项,…

基于蒙特卡洛法的规模化电动汽车充电负荷预测(PythonMatlab实现)

目录 0 概述 1 蒙特卡洛模拟方法介绍 2 规模化电动汽车充电负荷预测计算方法 3 完整代码 0 概述 对于本文的研究,依据不同用途电动汽车影响因素的分布函数和设定参数,采用蒙特卡洛法,对各用途电动汽车的日行驶里程、起始充电时间概率分布参数进行随机抽样&#xff0…

linuxOPS系统服务_Linux下软件的安装方式之源码安装

Linux下有哪些软件安装方式 ① RPM软件包管理(软件名称.rpm) ② YUM软件包管理(使用yum命令install 软件名称) > 下载 安装一体化 ③ 源码编译安装(相对来说是最复杂的一种方式) 软件包类型 ☆ 二…

十二、docker学习-docker核心docker网络之bridge网络(2)

bridge网络 bridge网络表现形式就是docker0这个网络接口。容器默认都是通过docker0这个接口进行通信。也可以通过docker0去和本机的以太网接口连接,这样容器内部才能访问互联网。 # 查看docker0网络,在默认环境中,一个名为docker0的linux b…

Go语言的TCP和HTTP网络服务基础

目录 【TCP Socket 编程模型】 Socket读操作 【HTTP网络服务】 HTTP客户端 HTTP服务端 TCP/IP 网络模型实现了两种传输层协议:TCP 和 UDP,其中TCP 是面向连接的流协议,为通信的两端提供稳定可靠的数据传输服务;UDP 提供了一种…

NodeJSMongodbMVC管理开发⑨

文章目录 ✨文章有误请指正,如果觉得对你有用,请点三连一波,蟹蟹支持😘前言MVC思想开发 服务器代码演示 M层 Services 或 Model V层 Views C层 Controllers总结 ✨文章有误请指正,如果觉得对你有用&#xff0c…

C语言笔记之结构体总结

C语言笔记之结构体总结 code review! 文章目录 C语言笔记之结构体总结一.介绍二.3种结构体类型变量说明1. 先定义结构,再定义结构变量2. 定义结构体类型的同时说明变量3. 直接说明结构变量(匿名结构体) 四.结构体成员表示方法五.结构体指针做参数六.结构体初始化1…

阵列信号处理笔记(2):均匀线阵、均匀加权线阵、波束方向图

阵列信号处理笔记(2) 文章目录 阵列信号处理笔记(2)均匀线阵(Uniform Linear Array)均匀加权线阵波束方向图的关键参数附polardb.m用来计算HPBW的Mathematica代码,以及用于拟合的数据拟合的MATL…

二、DSMP/OLS等夜间灯光数据贫困地区识别——MPI和灯光指数计算

一、前言 其实在计算MPI和灯光指数之前,最重要是DMSP/OLS等夜间灯光指数的校正还有就是MPI计算,那么校正分为DMSP/OLS和NPP/VIIRS夜间灯光数据,DMSP/OLS夜间灯光数据校正主要采取不变目标区域法原理进行校正,当前对其有很多优化后的做法,但是万变不离其宗,核心思想还是没…

LeetCode257. 二叉树的所有路径

写在前面: 题目链接:LeetCode257. 二叉树的所有路径 题目难度:简单 编程语言:C 一、题目描述 给你一个二叉树的根节点 root ,按 任意顺序 ,返回所有从根节点到叶子节点的路径。 叶子节点 是指没有子节点的…

阿里P8架构师手码的Java工程师面试小抄在Github火了,完整版限时开源

网上的 JAVA 面试文档更是层出不穷。但是单单刷 JAVA 面试题就足够了吗? 答案显然是不够的!那么为什么呢? 因为现在的程序员就业环境早就和两年前不可同日而语了。 如果你在两年前面试: 就拿 JVM 来说,刷面试题可能…

Springboot+vue.js+协同过滤推荐+余弦相似度算法实现新闻推荐系统

Springbootvue.js协同过滤推荐余弦相似度算法实现新闻推荐系统 - 简书 针对海量的新闻资讯数据,如何快速的根据用户的检索需要,完成符合用户阅读需求的新闻资讯推荐?本篇文章主要采用余弦相似度及基于用户协同过滤算法实现新闻推荐&#xff0…

SpringMvc详解

SpringMvc用来代替展示层Servlet,均属于Web层开发技术 Servlet是如何工作的 1、导入Servlet依赖坐标 2、创建一个Servlet接口实现类,重写其中的所有方法 3、在Servlet实现类上加上WebServlet注解,用来配置Servlet访问路径 4、启动Tomca…

Misc(6)

隐藏的钥匙 还是一样挨个试,详细信息里没有发现flag信息,就用010打开试试 文件头正常,暂时没有发现隐藏文件 喝,多搜搜还是有收获的,一开始以为是有隐藏文件就利用ctrlf在010中进行搜索 分别搜索了txt和rar文件都没有反…

VLAN基础知识2_VLAN二层通信原理

目录 1.VLAN二层通信简介 2.同一交换机VLAN二层通信 3.跨交换机VLAN二层通信 4.VLAN二层通信实验 4.1 VLAN基本配置命令 4.2 VLAN配置步骤 4.3 VLAN二层通信实验效果 1.VLAN二层通信简介 VLAN是一个逻辑上的分组,可以将一个物理网络端口分割成多个虚拟网络&…

C++初始化列表详解

写在前面: 初始化列表是一种用于初始化成员变量的语法结构,它可以在类的构造函数中使用,用于初始化类的成员变量。 而 列表初始化指的是 是一种初始化变量的简洁方式,可以用花括号{}来表示。列表初始化可以用于各种类型的变量&…

某农业大学c/c++第五次实验(类和对象)

1.Time时间类 【问题描述】 设计一个Time类,并设计多个重载的构造函数,可以设置时间、进行时间的加减运算、按12小时格式和24小时格式输出时间。 例如: 其中构造函数Time::Time(int s)根据总秒数计算hour、minute、second并构造对象&#x…

C语言,BMP格式解析,生成不同位深的图片。

0.前言 目录 0.前言 1.BMP格式详解 1.1图片的构成 1.2BMP格式 1.2.1文件头 1.2.2位图信息头 1.2.3调色板 1.2.4位图数据 2.生成 3.总结 最近工作任务繁重且对我来说小有难度,但是没有困难的事情做起来怎么有收获呢? 今天推荐一本书《寻找光…

Windows10环境下载安装Oracle19c教程

Windows10环境下载安装Oracle19c教程 前言1. 官网下载2. 运行setup.exe2.1 解压缩2.2 报错解决 3.正式安装3.1 配置选项3.2 系统类3.3 oracle主目录用户3.4 安装位置3.5 先决条件检查3.6 安装产品3.7 安装完成3.8 完全卸载oracle(非必备) 4. 安装验证4.1 CMD验证4.2 SQL Plus4.…

本周大新闻|Quest游戏订阅服务曝光;平价版苹果XR头显25年推出

本周XR大新闻,AR方面,彭博苹果预计25年推出更亲民头显;Vision Pro外屏含微透镜;WWDC23苹果高管脱口秀爆料更多细节;外媒爆料称Vision Pro预期销量改为15万台;VitreaLab展示RGB激光背光技术。还是提前说一下…