大数据|大数据基础(概念向)

news2024/9/28 13:19:20

目录

📚大数据概念

🐇常见数据存储单位

🐇大数据的特点(5V)

🐇大数据 VS 数据库

🌟数据库

🌟大数据

📚大数据业务分析基本步骤

 🐇收集数据

 🐇整理数据

 🐇分析数据

 🐇数据可视化

📚大数据概念

  • 所有感官可以察觉的事物,能被记下来的,能够被查询到,就是数据(date)
  • 数据分析的前提是有数据,数据存储的目的是支撑数据分析
  • 大数据主要解决的问题:海量数据的存储和海量数据的计算问题

🐇常见数据存储单位

59871e9bfe704051b2384267451102da.jpg

🐇大数据的特点(5V)

🥕Volume(大):大数据的采集,计算,存储量都非常庞大。

🥕Variety(多):多种类和来源多样化。

🥕Value(值):大数据价值密度相对较低(抓小偷一大堆监控视频可能就一小段有用)

🥕Velocity(快):数据增长速度快,处理速度也快,获取速度的速度也要快。处理数据的效率是企业的生命。

🥕Veracity(信):数据的准确性和可信赖度,即数据的质量。

  • 全样而非抽样✔️
  • 效率而非精确✔️
  • 相关而非因果✔️

🐇大数据 VS 数据库

🌟数据库

类似于一个池塘养鱼,它数据规模小,类型单一先有模式后有数据(先有池塘后有鱼),处理对象为数据(池塘里的鱼)

🌟大数据

类似于大海捕鱼,它数据规模大,类型繁多先有数据后有模式(模式随数据增多不断演变),处理对象为“鱼”,并通过某些“鱼”判断其他鱼是否存在。


大数据应用场景:电商精确广告位;用户偏好精准营销等等。大数据监控我🤡


大数据处理面临的挑战:数据安全、数据存储和处理能力限制、数据完整性、隐私保护、数据质量(垃圾数据的泛滥)、广泛的异构性(变化与多样化)、新硬件给大数据处理带来的变革等。


📚大数据业务分析基本步骤

ca69a0b5a0024533ac2ede4fe5dc6c8b.jpg

 🐇收集数据

数据收集是按确定的数据分析框架,以收集相关数据的过程,它为数据分析提供了素材和依据。一般的数据来源主要有以下几种方式:

  • 数据库:每个公司都有自己的业务数据库
  • 公开出版物:可用于收集数据的公开出版物
  • 互联网,市场调查

 🐇整理数据

数据处理是指对收集到的数据进行加工处理,形成适合数据分析的样式。即在一堆数据中找出有价值有意义的数据。主要包括数据清洗、数据转化、数据提取、数据计算等处理方法。

 🐇分析数据

数据分析是指用适当的分析方法及工具,对处理的数据进行分析,提取有效信息,形成有效结论的过程。数据挖掘是一种高效的数据分析方法。一般来说,数据挖掘侧重解决四类数据分析问题:分类,聚类,关联和预测。

 🐇数据可视化

数据展现的过程,将数据可视化为图表。

2b3b785886b24841b3c381534de63ccc.jpg


 流处理是指按照流水线的方式处理数据,它能够快速处理大量的数据。而批处理是指按照批次的方式处理数据,通常在处理时间较长的情况下使用。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/366617.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

RockerMQ简介和单节点部署

目录一、RockerMQ简介二、Linux中单节点部署1、准备工作2、下载和解压3、修改初始内存4、启动5、查看进程6、发送接收消息测试7、关闭三、控制台的安装与启动(可视化页面)1、修改配置(1)修改端口号(2)指定RocketMQ的name server地…

企业知识管理常见的误区及解决方案

在企业信息化的背景下,越来越多的首席信息官(CIO)承担着促进组织知识管理实施的责任。然而,从实践的角度来看,虽然我国大多数知识管理实施项目都取得了一定的成果,但与预期有很大的不同,甚至许多…

这18个被全网吹爆了的AI绘画工具,分享给你!

伴随着ChatGPT的横空出世,一场史无前例的科技革命正在拉开序幕。 AI 拥有强大的信息储备和数据处理能力,无论是速度、质量,还是思维模式,都让人只呼不得了!写代码、造论文丝毫不在话下,甚至还能和你探讨茶…

当 Amazon Lambda 遇上 Apache APISIX 可以擦出什么火花?

本文首先介绍了什么是 Serverless,以及为什么需要 Serverless;其次,讲述了一个好的网关在 Serverless 架构下的重要性,而 APISIX 就是这样的一个网关;最后,本文重点介绍了 APISIX 中的 Serverless 类型的插…

您应该知道的几个安卓照片恢复应用程序

如果您不小心删除了存储在 Android 手机上的一些重要照片,该怎么办?如果您之前已创建备份,则只需将备份文件中的照片恢复到您的手机即可。但数据丢失往往是突然发生的,可能是由于误操作、恢复出厂设置或物理损坏等原因造成的。如果…

高性能低功耗4口高速USB2.0 HUB NS1.1S 兼容FE1.1

NS1.1S是一款高性能、低功耗4口高速 USB2.0 HUB 控制器,上行端口兼容高速 480MHz和全速12MHz两种模式,4个下行端口兼容高速480MHz、全速12MHz、低速1.5MHz三种模式。 NS1.1S采用状态机单事务处理架构,而非单片机架构,多个事务缓冲…

Java无法通过形参设置为null改变实参

文章目录问题描述问题例子问题分析问题描述 在实际业务开发过程中,我们会把实参传递给形参,在方法体内对引用对象进行构建或者修改,从而改变实参,因为对形参对象属性修改时,实参对象也会随着改变,详情请看&…

《Java核心技术》笔记——第六章

文章目录CH6.接口、lambda表达式与内部类1.接口基本2.常用接口3.lambda表达式4.内部类5.服务加载器与代理前章: 第三章~第五章的学习笔记CH6.接口、lambda表达式与内部类 1.接口基本 接口基本——interface声明,方法无需指明public(默认都是…

基于node vue的电商系统 mongodb express框架

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 基于node vue的电商系统 mongodb express框架前言技术栈基本功能普通用户管理员一、运行截图?二、使用步骤1.前端main.js2.后端admin路由前言 技术栈 本项目采用…

行业分析| OA系统中的实时通讯

前言 当前实时通讯市场中有QQ、MSN、网络电话以及视频会议等,同时也有各个互联网巨头推出的基于自身平台的实时通讯工具,比如,百度hi,淘宝旺旺等,相对而言其与纯粹的实时通讯工具不同,基于自身平台的实时通…

点击化学 PEG 试剂1858242-47-3,Propargyl丙炔基-PEG1-乙酸活性酯

Propargyl-PEG1-Acetic acid-NHS ester,丙炔基-聚乙二醇-乙酸琥珀酰亚胺酯,丙炔基-PEG1-乙酸活性酯,丙炔基-PEG1-乙酸-NHS 酯产品规格:1.CAS号:1858242-47-32.分子式:C9H9NO53.分子量:211.174.包…

ChatGPT商业前景如何?人工智能未来会如何发展?

ChatGPT不仅在互联网和多个行业引发人们的关注,在投资界还掀起了机构对人工智能领域的投资热潮。人工智能聊天程序ChatGPT在去年11月亮相之后,在推出仅两个月后,今年1月份的月活用户已达到了1亿,成为史上增长最快的消费者应用程序…

【selenium 自动化测试】如何搭建自动化测试环境,搭建环境过程应该注意的问题

最近也有很多人私下问我,selenium学习难吗,基础入门的学习内容很多是3以前的版本资料,对于有基础的人来说,3到4的差别虽然有,但是不足以影响自己,但是对于没有学过的人来说,通过资料再到自己写的…

UA-DETRAC数据集转YOLO格式

一: 数据集下载 链接:(后续添加) 二: 处理标注文件 先处理标注文件,UA-DETRAC提供的标注文件格式是VOC格式,需要先转为XML格式,然后再将每个XML文件转为YOLO文件。 下面提供两个代…

git 本地新建分支并进行合并

由于新的要求 不允许在线上直接clone下的git分支进行开发,只能本地新建分支再往线上分支合并远程库clone到本地库 git clone 需要下载的git地址注意我下载下来的是dev分支 根据实际情况进行分析git clone https://gitee.com/hello.git本地创建新的分支 git checkout…

Keil编译头文件iec_std_functions.h错误解决

Keil 编译IEC61131-3库,头文件,大量出现以下错误; cast to type ? is not allowed compiling resource1.c... ..\PLC\rts\matiec\lib\C\iec_std_functions.h(192): error: #119: cast to type "TIME" is not allowed…

公派访问学者的申请条件

知识人网海外访问学者申请老师为大家分享公派访问学者申请的基本条件以及哪些人员的申请是暂不受理的,供大家参考:一、 申请人基本条件:1.热爱社会主义祖国,具有良好的思想品德和政治素质,无违法违纪记录。2.具有良好专…

Java常见问题总结五

1、垃圾回收方式 SerialGC(串行垃圾回收):为单线程环境设计且使用一个线程进行垃圾回收,会暂停所有的用户线程。 ParalleGC(并行垃圾回收):对过GC线程并行工作,此时用户线程是停止的。 ConcMarkSweep(CMS):用户线程和GC线程同时执…

Tatuk GIS Developer Kernel for .NET 最新Crack

Tatuk GIS Developer Kernel for .NET 是一个地理SDK,它是受控代码和 .NET GIS SDK,用于为用户 Windows 操作系统创建 GIS 专业软件的过程。它被认为是一个完全用于 Win Forms 的 .NET CIL,WPF 的框架是为 C# 以及 VB.NET、VC、oxygen 以及最…

StarRocks携手零洞科技,助力碧桂园物业企业微信数字化项目

作者:零洞科技大数据部零洞科技有限公司(以下简称“零洞”),是碧桂园集团的核心联盟企业,致力于成为国内领先的数智空间解决方案服务商,业务场景覆盖户内及户外,在智慧家居板块,打造…