【大数据导论】大数据序言

news2024/10/6 4:02:17
各位大佬好 ,这里是阿川的博客,祝您变得更强

在这里插入图片描述 个人主页:在线OJ的阿川

大佬的支持和鼓励,将是我成长路上最大的动力在这里插入图片描述

阿川水平有限,如有错误,欢迎大佬指正在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

目录

  • 数据概念及类型及可用及组织形式
    • 数据概念
    • 数据类型
    • 数据的可用
    • 数据组织形式
  • 大数据的时代
    • 大数据技术
  • 中国大数据未来

数据概念及类型及可用及组织形式

数据概念

数据

  • 客观事件进行记录可以鉴别符号
  • 构成信息基本单位

在这里插入图片描述

数据类型

数据类型

  • 文本(字符型数据)

在这里插入图片描述

文本文件常见格式

在这里插入图片描述

  • 图片

在这里插入图片描述

图片常见格式

在这里插入图片描述

  • 音频

在这里插入图片描述

音频常见格式

在这里插入图片描述

  • 视频

在这里插入图片描述

视频常见格式
在这里插入图片描述

数据的可用

step1.数据清洗
脏乱数据进行清洗;将数据缺失和语义模糊等数据进行处理;数据类型不符合进行转换及解析
其中转换及解析常用工具和脚本语言

在这里插入图片描述

step2.数据管理

  • 将第1步后的数据放入数据库系统中进行管理和使用

step3.数据分析

  • 将第2步后的数据利用数据挖掘机器学习算法构建统计模型(其中首选R语言及它的CRAN综合类库)及大数据处理技术(主要为谷歌分布式编程模型MapReduceHadoop对其进行开源实现)进行分析

补充环节
step3.1 数据可视化

  • 用图像等可视化帮助人们进行直观理解数据

数据组织形式

文件

在这里插入图片描述

文件由文件系统进行管理

数据库软件开发基础与核心

在这里插入图片描述

其中,关系数据库之前主流的数据库,具有三种特性

  • 提供SQL语句进行各种查询操作
  • 支持事务一致性功能
  • 满足各种商业应用需求

在这里插入图片描述
其中,NoSQL数据库主要处理非结构化数据,而目前海量数据中90%都属于非结构化数据
在现在及未来的时代中,NoSQL数据库的使用将是大势所趋

大数据的时代

在如今的时代,数据的产生正处于爆炸式的增长
如今不管是移动端还是PC端、Mac端,甚至传感器、摄像头亦或是各种设备(家用电器电视汽车等等)无时无刻不在产生着大量的数据
大数据的时代已经来临,随着时代的发展越加迅猛
与此同时,对数据储存、处理与分析提出了更高的要求
与之所对应的 物联网、云计算和大数据孕育而生
大数据四个特性

  • 数据量大PB级别甚至到EP、ZP级别

在这里插入图片描述

  • 数据类型繁多 (可以是文本、图片、视频、音频等非结构化类型
  • 处理速度快 (每秒钟处理GB数据甚至更高
  • 价值密度低 (海量数据中,符合条件单点数据价值密度高
    在这里插入图片描述

大数据技术

大数据技术前提要求

  • 储存设备的容量需要
  • CPU处理能力需要
  • 网络宽带传输需要
    (抖个包袱:所以说搞大数据的电脑设备还是要有要求的)

大数据技术 四个流程

  • 数据采集与预处理
  • 数据储存与管理
  • 数据处理与分析
  • 数据可视化

中国大数据未来

大数据它是 赋能型专业 (可从大量的已知数据进行计算推出未知的理论
可以为各行业进行深度融合(可与制造业、金融业、交通行业、互联网行业、餐饮行业、能源行业、城市管理行业等等进行融合
也可以推动新技术和新应用不断涌现(其中大数据产业是一条相当庞大的产业链 [其中包含数据的贩卖、数据的储存与管理、数据的平台、数据的应用软件等产业] )

国家政策

2015年8月31日国务院发布了 《促进大数据发展行动纲要》
2021年11月30日工业和信息化部发布了《“十四五”大数据产业发展规划》
2022年12月19日 国务院发布了 《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》
地方政策
《河南省大数据产业发展行动计划(2022-2025)》
《黑龙江省大数据产业发展规划(2021—2025年)》
顺便说说:
我抽时间把一些地方的产业集群详细地了解了一遍,如果要从事大数据、人工智能等高创新方向的人才,建议首选但残酷的北京,其次选积极向未来布局的广东和江苏
夹带一个私货,由于阿川是四川的,所以说这里贴一个四川的产业集群

在这里插入图片描述
再加一个重庆的哈

在这里插入图片描述

大数据 专业
2016年开始,国内由北京大学、中南大学、对外经济贸易大学这三所大学,首个建立了"数据科学与大数据技术"的新工科专业。截至2023年,国内已有654所学校开展相关专业。
培养目标
掌握大数据相关技术具有较好数据、数理、编程、大数据的基础知识与技能,且能够运用大数据思维解决实际问题高级复合型人才
在学习中,与 数学、统计、计算机 三大领域密不可分
至少应该掌握概率论数理统计、线性代数、高等数学、离散数学、应用数学、统计学、程序设计、软件工程、计算机系统基础及组成原理、计算机网络、计算机操作系统、算法与数据结构、机器学习、深度学习、模式识别、云计算、网络爬虫、数据安全、数据清洗、数据挖掘、数据库系统、数据仓库、数据可视化、分布式并行编程、系统架构设计等编程语言建议选择Python、Java和R、Scala(尽量都学,如果实在没有时间,建议看下列图))

在这里插入图片描述

主要工作场所
互联网企业、金融机构、医疗机构、科研院所、高等院校、科技公司、传统企业

主要职位有:

在这里插入图片描述

好的,到此为止啦,祝您变得更强

在这里插入图片描述
想说的话

阿川的本篇博客,学习来源厦门大学林子雨老师的《大数据导论》(我反反复复学习了4遍哈并且做了相应的练习 然后才进行的这篇博客的书写)很累希望大佬支持一下

在这里插入图片描述

道阻且长 行则将至

个人主页:在线OJ的阿川大佬的支持和鼓励,将是我成长路上最大的动力 在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1879918.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里云oss实现图片上传

Bucket:存储空间是用户用于存储对象(Object,就是文件)的容器,所有的对象都必须隶属于某个存储空间。 SDK:Software Development Kit 的缩写,软件开发工具包,包括辅助软件开发的依赖…

黄冈师范学院2024年成人高等继续教育招生简章

黄冈师范学院,这座矗立在湖北黄冈的教育殿堂,以其深厚的文化底蕴和卓越的教学质量,吸引了无数求学者。如今,随着社会的快速发展和教育的不断进步,黄冈师范学院再次敞开怀抱,热烈迎接2024年成人高等继续教育…

详解flink sql, calcite logical转flink logical

文章目录 背景示例FlinkLogicalCalcConverterBatchPhysicalCalcRuleStreamPhysicalCalcRule其它算子FlinkLogicalAggregateFlinkLogicalCorrelateFlinkLogicalDataStreamTableScanFlinkLogicalDistributionFlinkLogicalExpandFlinkLogicalIntermediateTableScanFlinkLogicalInt…

原来“山水博客“的分类也是可以拖动排序的

这二天一直用“山水博客”写文章,发现一个问题,好象它的分类不能调整位置,这可是个大bug。首先,界面上没发现拖动相关按钮;如果按住分类拖动,会成这样: 后来仔细看了它的文档,发现它…

弹性力学讲义

弹性力学讲义 1. 基本假设和一些概念2. 应力3. 二维应力状态与摩尔库伦屈服准则 1. 基本假设和一些概念 力学:变形体力学–固体力学和流体力学(连续介质力学) 刚体力学–理论力学(一般力学) 物理受理后:要…

Forecasting from LiDAR via Future Object Detection

Forecasting from LiDAR via Future Object Detection 基础信息 论文:cvpr2022paper https://openaccess.thecvf.com/content/CVPR2022/papers/Peri_Forecasting_From_LiDAR_via_Future_Object_Detection_CVPR_2022_paper.pdfgithub:https://github.co…

聚焦 HW 行动,构筑重保邮件安全防线

随着信息技术的飞速发展,网络安全已成为国家安全的重要组成部分。HW行动作为国家级网络安全演练,通过模拟实战攻防,检验和提升国家关键信息基础设施的防护能力。 CACTER凭借多年HW防护经验,提供全面的邮件安全防护体系&#xff0…

RPC远程过程调用--Thrift

RPC远程过程调用–Thrift 简介 Thrift是一个由Facebook开发的轻量级、跨语言的远程服务调用框架,后进入Apache开源项目。支持通过自身接口定义语言IDL定义RPC接口和数据类型,然后通过编译器生成不同语言代码,用于构建抽象易用、可互操作的R…

从头开始构建一个小规模的文生视频模型

OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型,是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。 在这篇博客中,作者将展示如何将从头开始构建一个小规模的文本生成视频模型&a…

Web后端开发之前后端交互

http协议 http ● 超文本传输协议 (HyperText Transfer Protocol)服务器传输超文本到本地浏览器的传送协议 是互联网上应用最为流行的一种网络协议,用于定义客户端浏览器和服务器之间交换数据的过程。 HTTP是一个基于TCP/IP通信协议来传递数据. HTT…

成绩发布背后:老师的无奈与痛点

在教育的广阔天地里,教师这一角色承载着无数的期望与责任。他们不仅是知识的传播者,更是学生心灵的引路人。而对于班主任老师来说,他们的角色更加多元,他们不仅是老师,还必须是“妈妈”。除了像其他老师一样备课、上课…

Web3 前端攻击:原因、影响及经验教训

DeFi的崛起引领了一个创新和金融自由的新时代。然而,这种快速增长也吸引了恶意行为者的注意,他们试图利用漏洞进行攻击。尽管很多焦点都集中在智能合约安全上,但前端攻击也正在成为一个重要的威胁向量。 前端攻击的剖析 理解攻击者利用前端漏…

MaxKb/open-webui+Ollama运行模型

准备:虚拟机:centos7 安装Docker:首先,需要安装Docker,因为Ollama和MaxKB都是基于Docker的容器。使用以下命令安装Docker: sudo yum install -y yum-utils device-mapper-persistent-data lvm2 sudo yum…

Keil汇编相关知识

一、汇编的组成 1.汇编指令:在内存中占用内存,执行一条汇编指令会让处理器进行相关运算 分类:数据处理指令,跳转指令,内存读写指令,状态寄存器传送指令,软中断产生指令,协助处理器…

生成式AI如何赋能教育?商汤发布《2024生成式AI赋能教育未来》白皮书

生成式AI正在各个行业中展现出巨大的应用前景。在关系国计民生的教育行业,生成式AI能够催生哪些创新模式? 6月28日,商汤科技受邀参加2024中国AIGC应用与发展峰会,并在会上发布《2024生成式AI赋能教育未来》白皮书,提出…

Django之阿里云短信

短信验证 短信验证,首先得选择一个短信发送服务器上,本文档使用阿里云实现短信发送功能 阿里云短信网 网址:短信服务_企业短信营销推广_验证码通知-阿里云 注册账号 新账号赠送100条,可以不用充值,即可进行测试 接入 短信 进行 个人实名认证 编写代码执行 安装依赖模块 p…

html5 video去除边框

video的属性: autoplay 视频在就绪后自动播放。 controls 显示控件,比如播放按钮。 height 设置视频播放器的高度。 width 设置视频播放器的宽度。 loop 循环播放 muted 视频的音频输出静音。 poster 视频加载时显示的图像,或者在用户点击播…

全球最大智能立体书库|北京:3万货位,715万册,自动出库、分拣、搬运

导语 大家好,我是社长,老K。专注分享智能制造和智能仓储物流等内容。 新书《智能物流系统构成与技术实践》 北京城市图书馆的立体书库采用了先进的WMS(仓库管理系统)和WCS(仓库控制系统),与图书…

【机器学习】机器学习的重要技术——生成对抗网络:理论、算法与实践

引言 生成对抗网络(Generative Adversarial Networks, GANs)由Ian Goodfellow等人在2014年提出,通过生成器和判别器两个神经网络的对抗训练,成功实现了高质量数据的生成。GANs在图像生成、数据增强、风格迁移等领域取得了显著成果…

老师期末工作怎么减负?

期末,一个学期的尾声,也是老师们最为忙碌的时刻。在这段时间里,我们不仅要完成教学任务,还要准备期末考试、批改试卷、撰写学生评语、制定假期计划等一系列繁重的工作。那么,如何在这样紧张的期末工作中为自己减负呢&a…