《系统架构设计师教程(第2版)》第11章-未来信息综合技术-07-大数据技术概述

news2024/11/15 15:36:13

文章目录

  • 1. 大数据的定义
  • 2. 大数据的研究内容
    • 2.1 面临的问题
    • 2.2 面临的挑战
    • 2.3 分析步骤
      • 2.3.1 数据获取和记录
      • 2.3.2 信息抽取和清洗
      • 2.3.3 数据集成、聚集和表示
      • 2.3.4 查询处理、数据建模和分析
      • 2.3.5 解释
  • 3.大数据的应用领域
    • 3.1 制造业的应用
    • 3.2 服务业的应用
    • 3.3 交通行业的应用
    • 3.4 医疗行业的应用

1. 大数据的定义

  • 维基百科的定义:
    • 大数据指的是那些规模庞大或极其复杂的数据集,
    • 超出了现有的常规工具在合理成本和可接受时间范围内进行捕获、管理和处理的能力

教材原文:大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析、可视化。

  • Granter的定义:3V模型

    • 大规模 (Volume)
    • 多样化 (Variety)
    • 高处理速度 (Velocity)
  • 由此衍生的大数据的三大挑战

    1. 不断增长的数据量
    2. 多格式数据
    3. 性能(高处理速度)
      • 涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力、后端存储的吞吐能力
  • IBM 的定义:

    • 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
    • +第四V:潜藏价值 (Value)
  • SAS 的定义

    • 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
    • 可变性:数据流可能具有高度的不一致性,并存在周期性的峰值
    • 复杂性:数据来源的多样性
      • 连接、匹配、清洗和转化的复杂性
      • 不同数据源之间连接关系、关联关系、层次关系的复杂性

2. 大数据的研究内容

2.1 面临的问题

2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的白皮书,指出大数据面临着5个主要问题:

  • 异构性 (Heterogeneity)
  • 规模 (Scale)
  • 时间性 (Timeliness)
  • 复杂性 (Complexity)
  • 隐私性 (Privacy)

可见:

  • 对应Granter的3V模型,增加了“复杂性”和“隐私性”
  • 对应SAS定义的5点,“可变性”被“隐私性”替换

2.2 面临的挑战

对应上边面临的问题,其研究工作将面临5个方面的挑战:

  • 数据获取问题

数据筛选,那些保存那些丢弃,目前这些决策还只能采用特设方法给出。

  • 数据结构问题

如何将没有语义的内容转换为结构化的格式,以便进行后续处理。

  • 数据集成问题

如何将数据进行有效关联

  • 数据分析、组织、抽取、建模问题

数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待分析数据的复杂性估计不够,等等。

  • 数据分析的结果呈现问题

如何呈现分析结果,并与非技术的领域专家进行交互

2.3 分析步骤

白皮书给出了大数据的分析步骤如下:

2.3.1 数据获取和记录

  • 研究数据压缩中的科学问题
    • 能够智能地处理原始数据
    • 在不丢失信息的情况下,将海量数据压缩到人可以理解的程度
  • 研究“在线”数据分析技术
    • 能够处理实时流数据
  • 研究元数据自动获取技术
  • 研究数据来源技术
    • 追踪数据的产生和处理过程

2.3.2 信息抽取和清洗

  • 信息抽取:从文本、图像、音频等数据源中自动提取有价值的信息,将其转化为结构化的数据形式,以便进一步分析和利用
  • 信息清洗:对原始数据进行清理、校验和纠正,以去除噪声、重复、错误或不一致的数据,提高数据的质量和准确性

2.3.3 数据集成、聚集和表示

  • 概念:
    • 数据集成:将多个不同来源、格式的数据整合到一起,形成一个统一的数据集,以便进行综合分析
    • 数据聚集:对数据进行汇总和统计,以便从宏观上了解数据的特征和趋势
    • 数据表示:将数据以一种易于理解和使用的方式呈现出来,让人们能够更直观地理解数据
      • 如:图表、表格、可视化图形等
  • 作用:
    • 解决存在大量异构数据问题,以便对大规模数据进行有效分析

2.3.4 查询处理、数据建模和分析

  • 充满噪声的大数据也可能比小样本数据更有价值
    • 大数据得到的一般统计数据通常强于具有波动性的个体数据,往往透露更可靠的隐藏模式和知识
    • 通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系
  • 数据挖掘需要的条件:
    • 完整的、经过清洗的、可信的、可被高效访问的数据
    • 声明性的查询(例如 SQL) 和挖掘接口
    • 可扩展的挖掘算法及大数据计算环境
  • 目前需要研究的问题
    • 查询处理方面:
      • 在TB级别上的可伸缩复杂交互查询技术
    • 大数据分析方面
      • 缺乏数据库系统之间的协作
      • 需要研究并实现:将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统

2.3.5 解释

  • 大数据分析系统应该支持用户对产生结果的了解、验证、分析。

3.大数据的应用领域

3.1 制造业的应用

  • 创造了掌握用户需求为目标的智慧化制造业

如:

  • 一些计算机硬件供应商正在收集和分析设备信息对设备预测,并提前维护
  • 为下一代产品提供灵感
  • 海量数据扩大了算法和运筹学的应用领域在制造业的应用

例如,在部分制造企业,算法对生产线的传感器信息进行分析,形成了自我调节的流程,从而减少了浪费,避免了代价高昂(有
时还十分危险)的人为干预,最终提升产量。

3.2 服务业的应用

  • 服务业演化的两种形态:
    • 信息技术与服务业相结合的信息服务业
      • 如:计算机软件、通信服务、信息咨询服务
      • 大数据的应用:如,收集用户行为推送广告
    • 应用信息技术改造传统服务业而来的服务业
      • 如:信息化改造后的商业、金融业、旅游业等
      • 大数据的应用:
        • 厂商可以通过实时跟踪客户行为、更新客户偏好、建立可能行为的模型
        • 银行可以从大量数据中发现信用卡欺诈和盗用
        • 理财网站从统计的消费数据中来预测宏观的经济趋势

3.3 交通行业的应用

  • 大数据时代下的智慧交通:
    • 融合传感器、监视视频、GPS、气象监测等设备产生的海量数据
    • 从中提取出人们真正需要的信息
    • 将通过计算提供最佳的出行方式和路线,及时而准确地进行发布和推送给用户

3.4 医疗行业的应用

大数据下的医疗行业:

  • 将医疗机构的电子病历记录标准化,形成全方位多维度的大数据仓库
  • 系统全面分析患者的基本资料、诊断结果、处方、医疗保险等数据
  • 综合以上数据,在医生的参与下通过决策支持系统,选择最佳的医疗护理解决方案

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1920517.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nifi中的Controller Service

Service简介 首先Nifi中的Controller Service 和我们MVC概念中的Controller Service不是一个概念,Nifi中的Controller Service更像是和Processor同级的一个概念,它和Processor在我个人的使用经验来理解的话就是它是预制好的各种服务,可以被P…

java入门1.5.0

前言: 在java入门1.4.0中,我们快速构建了一个基于Maven管理的Spring boot3项目,对基本文件结构有了初步的认知,创建了git仓库 正片: 看山是山,看山不是山,看山还是山,下面两段代码很好了验证这…

51单片机嵌入式开发:9、 STC89C52RC 操作LCD1602技巧

STC89C52RC 操作LCD1602技巧 1 代码工程2 LCD1602使用2.1 LCD1602字库2.2 巧妙使用sprintf2.3 光标显示2.4 写固定长度的字符2.5 所以引入固定长度写入方式: 3 LCD1602操作总结 1 代码工程 承接上文,在原有工程基础上,新建关于lcd1602的c和h…

逐步实践复现 SELF-RAG

SELF-RAG 简介 SELF-RAG(Self-Reflective Retrieval-Augmented Generation)是一种检索增强生成(RAG)的框架,它通过自我反思学习检索、生成和批判,以提高大型语言模型(LLM)的质量和真…

谷粒商城实战笔记-28-前端基础-技术栈简介

文章目录 一,学习目标1,VSCode的使用2,开发语言ES6的学习目标3,Node.js的学习目标4,Vue的学习目标5,Babel的学习目标6,webpack的学习目标 二,前后端技术栈的比较 本节的主要内容是介…

KEIL下载芯片包记录

第一步 第二步 第三步

oracle 23ai新的后台进程bgnn介绍

前言 昨天发文研究了哪些oracle 后台不能杀 具体文章如下链接 oracle哪些后台进程不能杀?-CSDN博客 其中23ai中新增了一个后台进程bgnn 但是在oracle 23ai database reference中并没有找到该后台进程 有点不甘心就开了个SR,找oracle 官方来看看这个后…

Go语言---定时器

定时器 Timer-只响应一次 Timer 是一个定时器,代表未来的一个单一事件,可以告诉 timer 要等待多长时间,它提供一个 channel,在将来的那个时间那个 channel 提供了一个时间值。 2s后,往timer.C写数据,有…

智慧教育解决方案PPT(44页)

1. 教育信息化1.0与2.0 教育信息化1.0注重全体教师和学生的教学与学习应用,以及数字校园建设。2.0则强调宽带网络、优质资源和网络学习空间的普及,提高信息化应用水平和师生信息素养,建立教育资源和管理公共服务平台,推动“互联网…

【系统架构设计师】九、软件工程(项目管理|进度管理|软件配置管理|软件质量管理|软件风险管理 )

目录 十四、项目管理 14.1 软件进度管理 14.1.1 工作分解结构 14.1.2 Gantt 图 和 PERT 图 14.1.3 关键路径法 14.1.4 浮动时间 14.2 软件配置管理 14.3 软件质量管理 14.4 软件风险管理 相关推荐 历年真题练习 十四、项目管理 软件项目管理的对象是软件工程项目。…

3.Softmax回归

回归和分类 回归估计一个连续值 分类预测一个离散类别 Softmax回归实际是一个分类问题 从回归到多类分类 对类别进行一位有效编码 y [ y 1 , y 2 , ⋯ , y n ] T y[y_1,y_2,\cdots,y_n]^T y[y1​,y2​,⋯,yn​]T,如果是第i类,则值为1,否则为0 使用…

摸鱼大数据——Kafka——Kafka的shell命令使用

Kafka本质上就是一个消息队列的中间件的产品,主要负责消息数据的传递。也就说学习Kafka 也就是学习如何使用Kafka生产数据,以及如何使用Kafka来消费数据 topics操作 注意: 创建topic不指定分区数和副本数,默认都是1个 分区数可以后期通过alter增大,但是…

k8s集群离线部署

K8s离线部署 环境 目标 k8s离线部署 步骤 部署docker 详情见文章:《离线安装docker及后端项目离线打包》 https://blog.csdn.net/qq_45371023/article/details/140279746?spm1001.2014.3001.5501 所用到的所有文件在: 链接:https://pan…

摸鱼大数据——Kafka——Kafka的集群搭建

1、软件安装 搭建Kafka集群 1、下载安装 安装包下载地址:https://kafka.apache.org/download 2、将Kafka的安装包上传到虚拟机,并解压 cd /export/software/ tar -xzvf kafka_2.12-2.4.1.tgz -C ../server/ 配置软连接: cd /export/server ln -s kaf…

Debezium日常分享系列之:Debezium 3.0.0.Alpha1 Released

Debezium日常分享系列之:Debezium 3.0.0.Alpha1 Released 一、重大改变Java 和 Maven 要求已更改 二、新的特征和提高MongoDB 三、更多内容 Debezium 3 的第一个预发布版本 3.0.0.Alpha1。这个版本虽然比正常的预版本要小,但高度关注几个关键点&#xff…

【漏洞复现】Splunk Enterprise for Windows 任意文件读取漏洞 CVE-2024-36991

声明:本文档或演示材料仅用于教育和教学目的。如果任何个人或组织利用本文档中的信息进行非法活动,将与本文档的作者或发布者无关。 一、漏洞描述 Splunk Enterprise 是一款强大的机器数据管理和分析平台,广泛应用于企业中,用于实…

【单片机毕业设计选题24058】-基于嵌入式的智慧酒店管理系统设计与实现

系统功能: 系统分为主机端和从机端,主机端主动向从机端发送信息和命令,从机端 收到主机端的信息后回复温湿度和光照强度信息。 从机端操作: 从机端上电后显示“欢迎使用智慧酒店系统请稍后”两秒后进入正常显示界面。 第一行显示系统状态…

文心快码——百度研发编码助手

介绍 刚从中国互联网大会中回来,感受颇深吧。百度的展商亮相了文心快码,展商人员细致的讲解让我们一行了解到该模型的一些优点。首先,先来简单介绍一下文心快码吧。 文心快码(ERNIE Code)是百度公司推出的一个预训练…

Go语言---并发编程之channel(双channel,单channel)以及应用实例(生产者消费者、打印机模型)

Channel goroutine 运行在相同的地址空间,因此访问共享内存必须做好同步。goroutine 通过通信来共享内存,而不是其享内存来通信。 引用类型 channel 是CSP 模式的具体实现,用于多个 goroutine 通讯。其内部实现了同步,确保并发安全。 chan…

【Linux】磁盘性能压测-FIO工具

一、FIO工具介绍 fio(Flexible I/O Tester)是一个用于评估计算机系统中 I/O 性能的强大工具。 官网:fio - fio - Flexible IO Tester 注意事项! 1、不要指定文件系统名称(如/dev/mapper/centos-root),避…