一、概述
- 数字经济
人类通过大数据(数字化的知识与信息)的识别—选择—过滤—存储—使用,引导、实现资源的快速优化配置与再生,实现经济高质量发展的经济形态。
- 产业互联网推动发展
企业开始进行数字化转型,将传统的业务流程进行数字化改造。 改造的目的降低成本、进行资源精准配置、提升效率、增加附加值(数字资产)。 整合企业内外部数据,以数据来支撑精细化运营。
- 面临首要问题
大规模数据存储的问题
二、认识硬盘、RAID
- 硬盘
硬盘(Hard Disk Drive)是计算机的主要存储硬件,可以用来存储数据。 目前(2020年),市面上比较流行的硬盘多数是TB级的。
- 硬盘的分类
机械硬盘(HDD)、固态硬盘(SSD)、混合硬盘(SSHD)
- RAID(磁盘阵列)
磁盘阵列是由很多块独立的磁盘,组合成一个容量巨大的磁盘组,并在存储性能上、容错上会有一定地提升。 RAID是一类多磁盘管理技术,其向主机环境提供了成本适中、数据可靠性高的高性能存储。
总结:
- 磁盘是计算机主要的存储介质,可以存储大量的二进制数据,并且断电后也能保持数据不丢失。
- 早期计算机使用的磁盘是软磁盘(Floppy Disk,简称软盘),如今常用的磁盘是硬磁盘(Hard disk,简称硬盘)
- 硬盘分为HDD、SSD、SSHD
- 磁盘阵列(RAID):多块磁盘的组合体,实现不同存储功能
三、存储架构(存储类型)
- DAS存储架构
DAS存储架构也称为直连式存储(Direct-Attached Storage),存储设备是通过电缆(通常是SCSI接口电缆)直接挂到服务器总线上。DAS比较依赖操作系统来进行IO操作。
- NAS网络接入存储
NAS也称为网络接入存储(Network-Attached Storage),存储设备通过标准的网络拓扑结构(例如以太网)连接 采用NAS较多的功能是用来文档共享、图片共享、电影共享等等,而且随着云计算的发展,一些NAS厂商也推出了云存储功能,大大方便了企业和个人用户的使用。
- SAN 存储区域网络存储
SAN(Storage Area Network)是一种高速的、专门用于存储操作的网络,通常独立于计算机局域网(LAN)。 SAN将主机和存储设备连接在一起,能够为其上的任意一台主机和任意一台存储设备提供专用的通信通道。 SAN将存储设备从服务器中独立出来,实现了服务器层次上的存储资源共享。
- DAS、NAS、SAN对比
四、文件系统
介绍
- 是一种存储和组织数据的方法,它使得对文件访问和查找变得容易
- 使用文件和树形目录的抽象逻辑概念代替了硬盘等物理设备使用数据块的概念,用户使用文件系统来保存数据不必关心数据底层存在硬盘哪里,只需要记住这个文件的所属目录和文件名。
- 文件系统通常使用硬盘和光盘这样的存储设备,并维护文件在设备中的物理位置。
- 文件系统是一套实现了数据的存储、分级组织、访问和获取等操作的抽象数据类型(Abstract data type)。
重要概念
- 文件名
DOS操作系统中文件名由文件主名和扩展名组成,之间以一个小圆点隔开 文件名可用于用于定位存储位置、区分不同文件,计算机实行按名存取的操作方式 某些符合因有其特殊含义,一般不允许出现在文件名中
- 元数据
元数据(metadata)又称之为解释性数据,记录数据的数据 文件系统元数据一般指文件大小、最后修改时间、底层存储位置、属性、所属用户、权限等信息
文件系统分类
- 基于磁盘的文件系统
是在非易失介质上(磁盘、光盘)存储文档的经典方式。用以在多次会话之间保持文件的内容。包括Ext2/3/4、XFS、NTFS、FAT和iso9660等众所周知的文件系统。Linux中可以使用df -Th查看。
- 虚拟文件系统
在内核中生成的文件系统,比如proc。 proc文件系统是一个虚拟文件系统,通过它可以使用一种新的方法在 Linux内核空间和用户间之间进行通信。
- 网络文件系统
网络文件系统(NFS,Network File System)是一种将远程主机上的分区(目录)经网络挂载到本地系统的一种机制。 允许本地计算机访问另一台计算机上的数据,对此类文件系统中文件的操作都通过网络连接进行。
五、海量数据存储遇到的问题
- 成本高
传统存储硬件通用性差,设备投资加上后期维护、升级扩容的成本非常高。
- 性能低
单节点I/O性能瓶颈无法逾越,难以支撑海量数据的高并发高吞吐场景。
- 可扩展性差
无法实现快速部署和弹性扩展,动态扩容、缩容成本高,技术实现难度大。
- 如何支撑高效率的计算分析
传统存储方式意味着数据存储是存储,计算是计算,当需要处理数据的时候把数据移动过来。 程序和数据存储是属于不同的技术厂商实现 无法有机统一整合在一起。