大数据的基础知识上(大数据的概念和生态、linux系统与命令、虚拟机导入、虚拟机额配置和联网)

news2025/1/12 12:18:10

目录

    • 一、数据分析的方向
    • 二、数据分析步骤
      • 1.明确分析目的和思路
      • 2.数据传输收集过程
      • 3.数据处理
      • 4.数据分析
      • 5.数据展现
      • 6.报告撰写
    • 三、数据是什么 大数据时代
      • 大数据的应用有哪些
    • 四、分布式和集群
      • 1.概念
    • 🎡(by the way)大数据生态系统
    • 🎡(by the way)大数据和物联网、人工智能、云计算的关系
    • 五、linux的关键
      • 虚拟机:
      • SHH协议
    • 五、linux文件系统
      • 1. 基础知识
      • 2.常用命令

一、数据分析的方向

在这里插入图片描述
这三个方向正好对应大数据中的三个名词:
实时分析,离线分析和机器学习
在这里插入图片描述
实时分析是指 别名流式计算、流式处理。
在这里插入图片描述

在这里插入图片描述

二、数据分析步骤

数据分析步骤 (流程)的重要性体现在:对如何开展数据分析提供了强有力的逻辑支撑;

张文霖在《数据分析六步曲》说,典型的数据分析应该包含以下几个步骤
在这里插入图片描述

1.明确分析目的和思路

2.数据传输收集过程

在这里插入图片描述

3.数据处理

在这里插入图片描述
干净规整的结构化数据

4.数据分析

在这里插入图片描述

5.数据展现

在这里插入图片描述

6.报告撰写

在这里插入图片描述
甚至可以卖钱 给出商业建议

数据从数据源来到应用的地方去

核心:采集 处理 分析 应用

三、数据是什么 大数据时代

在这里插入图片描述
(通俗的说 就是数据太大 普通方法处理不了(上万))

在这里插入图片描述

数据大是一回事 数据还要真实才行

大数据的应用有哪些

●电商领域
精准广告位、个性化推荐、大数据杀熟
●传媒领域
精准营销、猜你喜欢、交互推荐
●金融方面
理财投资,通过对个人的信用评估,风险承担能力评估,集合众多理财产品、推荐响应的投资理财产品。
●交通领域
拥堵预测、智能红绿灯、导航最优规划
●电信领域
基站选址优化、舆情监控、客户用户画像
●安防领域
犯罪预防、天网监控
●医疗领域
智慧医疗、疾病预防、病源追踪

思考:大数据的存储和计算的两大问题

四、分布式和集群

数据结构真实才能更好额的反应民意。
最几年数据呈现爆炸级增长,然而我们要好好儿利用数据,分析数据,因为数据之中有规律,数据之中有价值。

1.概念

在这里插入图片描述
分布式:如京东。多台机器,但是每台机器上运行着不同的服务。有的承担支付服务,有的服务器专门承担用户评论等等。多台机器通过网络通信共同配合,对外提供服务。
在这里插入图片描述
集群:多台机器,每台机子上的系统是一样的。如,百度,多个服务器实现搜索功能。
在这里插入图片描述

🎡(by the way)大数据生态系统

在这里插入图片描述
在这里插入图片描述

🎡(by the way)大数据和物联网、人工智能、云计算的关系

在这里插入图片描述

五、linux的关键

虚拟机:

课程链接:https://www.bilibili.com/video/BV1CU4y1N7Sh/?p=8&spm_id_from=pageDriver&vd_source=d338e92ddec199319e45ef9dcafbf6c4
这个讲的导入虚拟机其实还可以。
在这里插入图片描述

SHH协议

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、linux文件系统

1. 基础知识

概念
在这里插入图片描述
在这里插入图片描述
文件系统通用特点
在这里插入图片描述
当前路径 相对路径 绝对路径
在这里插入图片描述
绝对路径是从根目录开始
特殊符号
在这里插入图片描述

ll 加参数.a     表示查看隐藏文件
ls /    查看更目录下的目录清单
ls ./   查看当前目录下不是隐藏的目录清单(目录包括文件和文件夹)
知到自己在哪个目录的命令:pwd

2.常用命令

在这里插入图片描述
tab键可以补全
显示目录内容
在这里插入图片描述
切换目录
在这里插入图片描述
主要是:绝对路径,相对路径和特殊符号的使用
创建删除

在这里插入图片描述

举例:在这里插入图片描述
强制递归删除文件目录:
rm -rf +当前目录下你要删除的目录名称
复制和移动

可以用移动这个命令来实现重命名的功能
在这里插入图片描述
文件内容查看
在这里插入图片描述

  • cat查看太大的文件容易爆炸
  • tail -f 这个组合命令 用于实时检测

其他命令
在这里插入图片描述
管道 不如展示所有内容的命令 管道后面4

在这里插入图片描述

tar命令 和它的参数
打包 压缩 解压

系统命令
时间、日期查看
内存、磁盘使用率查看
进程查看

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/98592.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Three.js入门】一文带你入坑前端3Dの妙妙屋

个人简介 👀个人主页: 前端杂货铺 🙋‍♂️学习方向: 主攻前端方向,也会涉及到服务端 📃个人状态: 在校大学生一枚,已拿多个前端 offer(秋招) 🚀未…

消息队列 - RabbitMQ - 拓展

1. Message 状态 Message 在投递时,如果当前 Queue 没有 Message,且有 Consumer 已经订阅了这个 Queue,那么该 Message 会直接发送给 Consumer,不会经过 Queue 存储 Message 的这一步 当 Message 无法直接投递给 Consumer 时&am…

【大数据技术Hadoop+Spark】Spark RDD创建、操作及词频统计、倒排索引实战(超详细 附源码)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~ 一、RDD的创建 Spark可以从Hadoop支持的任何存储源中加载数据去创建RDD,包括本地文件系统和HDFS等文件系统。我们通过Spark中的SparkContext对象调用textFile()方法加载数据创建RDD。 1、从文件系统加载数据创…

基于 Tensorflow 2.x 实现多层卷积神经网络,实践 MNIST 手写数字识别

一、MNIST 数据集 上篇文章中使用了Tensorflow 2.x 搭建了对层的 BP 神经网络,经过训练后发现准确率只有 96.8% 对于单环境的图片识别场景来说,还是有点偏低,本文使用多层的卷积代替BP网络中的隐藏层对模型进行优化。 下面是上篇文章地址&am…

C语言重点解剖第12课笔记

1.int* a,b; a和b的类型不一样, a是指针,b是整型。 typedef int* int_p; int_p a,b; 或者int* a,*b; 这样写的话,a和b都是指针类型。 #define int_p int*;这是纯粹的文本替换。 typedef定义之后是一种独立类型。 2.大部分注释都换成了…

Linux网络协议之HTTP协议(应用层)

Linux网络协议之HTTP协议(应用层) 文章目录Linux网络协议之HTTP协议(应用层)1.HTTP协议的概念2.HTTP协议中URL的理解3.HTTP协议的数据流4.HTTP协议的格式4.1 HTTP请求格式4.2 HTTP响应格式5.HTTP协议格式图解6.HTTP协议版本7.HTTP协议请求方法7.1 GET方法:获取资源7…

OWASP API安全Top 10

文章目录API1-失效的对象级授权API2-失效的用户认证API3-过度的数据暴露API4-缺乏资源和速率控制API5-失效的功能级授权API6-批量分配API7-安全性配置错误API8-注入API9-资产管理不当API10-日志记录和监控不足在API安全发展的过程中,除了各大安全厂商和头部互联网企…

计算机基础学习笔记:操作系统篇之硬件结构,CPU的基本工作原理

一、CPU的是如何运行程序的? 本文知识来源小林Coding阅读整理思考,原文链接请见以下: https://xiaolincoding.com/os/1_hardware/how_cpu_run.html#图灵机的工作方式 问题引入 程序的执行过程?例如 12 的具体过程是怎么样的&…

Windows VS2015 cmake编译Gtest并进行测试

1.下载Gtest 下载网址:https://github.com/google/googletest/releases 也可以直接使用下载好的附件 解压,放到一个目录中,演示所用,直接存放D盘了。 2.使用CMake生成vs编译工程 选好下图中两个路径,点击Configure…

用 AWTK 和 AWPLC 快速开发嵌入式应用程序 (8)- AWBlock

AWPLC 目前还处于开发阶段的早期,写这个系列文章的目的,除了用来验证目前所做的工作外,还希望得到大家的指点和反馈。如果您有任何疑问和建议,请在评论区留言。 1. 背景 AWTK 全称 Toolkit AnyWhere,是 ZLG 开发的开源…

玩以太坊链上项目的必备技能(OOP-接口-Solidity之旅十一)

接口(interface) 我们知道在Java里接口是特殊的抽象类,限制多于抽象类,但随着Java版本的更新,Java中的接口是越来越趋于抽象类了(这样说,可能有点不妥,因为接口本就是特殊的抽象类&…

自己整理的Java面试题(下)

目录五.Java框架部分Spring1.Spring中的拦截器,过滤器组件介绍?2.说一下spring的IOC?3.Spring中的异常处理:4.jdk动态代理和cglib动态代理:5.Spring Bean生命周期:6.Spring IOC原理:7.BeanFacto…

RK3568平台开发系列讲解(Camera篇)Camera API v2框架

🚀返回专栏总目录 文章目录 一、Camera API v2框架二、preview流程三、核心模块沉淀、分享、成长,让自己和他人都能有所收获!😄 📢本篇讲介绍 Camera API v2框架。 一、Camera API v2框架 应用框架:应用代码位于应用框架级别,它使用 Camera 2 API 与相机硬件进行交互…

【正点原子I.MX6U-MINI】u-boot过程移植详解

正点原子的I.MX6ULL开发板参考的是NXP官方的I.MX6ULL EVK开发板做的硬件。 Linux的移植要复杂的多,在移植Linux之前我们需要先移植一个 bootloader 代码,这个 bootloader 代码用于启动Linux 内核,bootloader有很多,常用的就是 U-…

蓝桥杯C/C++百校真题赛(1期)Day3题解(等差数列、回路计数)

Q1 等差数列 由于保证了题目给出的一定是一个等差数列的部分项,且等差数列具有单调性质,所以根据大小排序后最小的did_idi​就是所求等差数列的公差ddd, 又因为求的是最小,所以n(an−a1)/d1,特别的,当ana1,d0时,特判输…

[数据库]复习杂项

(画师蓝鸟mo13tto) 数据库笔记(补充)——候选码的确定方法 求最小依赖集 最小函数依赖集Fm的定义,求法以及举例 当然这篇文章后半部分有误:【通俗易懂】关系模式范式分解教程 3NF与BCNF口诀!小白也能看…

企业数字化转型:数据集成是成功的关键

按照数据的生命周期,我们通常将大数据技术分为数据集成、数据存储、批/流处理、数据查询与分析、数据调度与编排、数据开发、BI 7 个部分。 数据集成是什么? 可以看到数据集成在数据生命周期的最前面位置,它负责将多个来自不同数据源的数据…

[附源码]计算机毕业设计Python保护濒危动物公益网站(程序+源码+LW文档)

该项目含有源码、文档、程序、数据库、配套开发软件、软件安装教程 项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等…

vue3 中的响应式设计原理

Vue 3 中的响应式原理可谓是非常之重要,通过学习 Vue3 的响应式原理,不仅能让我们学习到 Vue.js 的一些设计模式和思想,还能帮助我们提高项目开发效率和代码调试能力。 一、Vue 3 响应式使用 1. Vue 3 中的使用 当我们在学习 Vue 3 的时候&…

51单片机——动态数码管实验,小白讲解,相互学习

多位数码管介绍: 多位数码管,即两个或两个以上单个数码管并列集中在一起形成一体的数码管。当多位一体时,他们内部的公共端是独立的,二负责显示什么数字的段线(a-dp)全部是连接在一起的,独立的公…