文章目录
- 1. 大数据的定义
- 2. 大数据的研究内容
- 2.1 面临的问题
- 2.2 面临的挑战
- 2.3 分析步骤
- 2.3.1 数据获取和记录
- 2.3.2 信息抽取和清洗
- 2.3.3 数据集成、聚集和表示
- 2.3.4 查询处理、数据建模和分析
- 2.3.5 解释
- 3.大数据的应用领域
- 3.1 制造业的应用
- 3.2 服务业的应用
- 3.3 交通行业的应用
- 3.4 医疗行业的应用
1. 大数据的定义
- 维基百科的定义:
- 大数据指的是那些规模庞大或极其复杂的数据集,
- 超出了现有的常规工具在合理成本和可接受时间范围内进行捕获、管理和处理的能力
教材原文:大数据是指其大小或复杂性无法通过现有常用的软件工具,以合理的成本并在可接受的时限内对其进行捕获、管理和处理的数据集。这些困难包括数据的收入、存储、搜索、共享、分析、可视化。
-
Granter的定义:3V模型
- 大规模 (Volume)
- 多样化 (Variety)
- 高处理速度 (Velocity)
-
由此衍生的大数据的三大挑战
- 不断增长的数据量
- 多格式数据
- 性能(高处理速度)
- 涉及终端数据处理能力、数据流访问和交付、服务器计算处理能力、后端存储的吞吐能力
-
IBM 的定义:
- 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
- +第四V:潜藏价值 (Value)
-
SAS 的定义
- 3V模型: 大规模 (Volume)、多样化 (Variety)、 高速度 (Velocity)
- 可变性:数据流可能具有高度的不一致性,并存在周期性的峰值
- 复杂性:数据来源的多样性
- 连接、匹配、清洗和转化的复杂性
- 不同数据源之间连接关系、关联关系、层次关系的复杂性
2. 大数据的研究内容
2.1 面临的问题
2012年冬季,来自IBM、微软、谷歌、HP、MIT、斯坦福、加州大学伯克利分校、UIUC等产业界和学术界的数据库领域专家通过在线的方式共同发布了一个关于大数据的
白皮书
,指出大数据面临着5个主要问题:
- 异构性 (Heterogeneity)
- 规模 (Scale)
- 时间性 (Timeliness)
- 复杂性 (Complexity)
- 隐私性 (Privacy)
可见:
- 对应Granter的3V模型,增加了“复杂性”和“隐私性”
- 对应SAS定义的5点,“可变性”被“隐私性”替换
2.2 面临的挑战
对应上边面临的问题,其研究工作将面临5个方面的挑战:
- 数据获取问题
数据筛选,那些保存那些丢弃,目前这些决策还只能采用特设方法给出。
- 数据结构问题
如何将没有语义的内容转换为结构化的格式,以便进行后续处理。
- 数据集成问题
如何将数据进行有效关联
- 数据分析、组织、抽取、建模问题
数据分析是许多大数据应用的瓶颈,目前底层算法缺乏伸缩性、对待分析数据的复杂性估计不够,等等。
- 数据分析的结果呈现问题
如何呈现分析结果,并与非技术的领域专家进行交互
2.3 分析步骤
白皮书给出了大数据的分析步骤如下:
2.3.1 数据获取和记录
- 研究数据压缩中的科学问题
- 能够智能地处理原始数据
- 在不丢失信息的情况下,将海量数据压缩到人可以理解的程度
- 研究“在线”数据分析技术
- 能够处理实时流数据
- 研究元数据自动获取技术
- 研究数据来源技术
- 追踪数据的产生和处理过程
2.3.2 信息抽取和清洗
- 信息抽取:从文本、图像、音频等数据源中自动提取有价值的信息,将其转化为结构化的数据形式,以便进一步分析和利用
- 信息清洗:对原始数据进行清理、校验和纠正,以去除噪声、重复、错误或不一致的数据,提高数据的质量和准确性
2.3.3 数据集成、聚集和表示
- 概念:
- 数据集成:将多个不同来源、格式的数据整合到一起,形成一个统一的数据集,以便进行综合分析
- 数据聚集:对数据进行汇总和统计,以便从宏观上了解数据的特征和趋势
- 数据表示:将数据以一种易于理解和使用的方式呈现出来,让人们能够更直观地理解数据
- 如:图表、表格、可视化图形等
- 作用:
- 解决存在大量异构数据问题,以便对大规模数据进行有效分析
2.3.4 查询处理、数据建模和分析
- 充满噪声的大数据也可能比小样本数据更有价值
- 大数据得到的一般统计数据通常强于具有波动性的个体数据,往往透露更可靠的隐藏模式和知识
- 通过信息冗余以弥补缺失的数据、交叉验证冲突的情况、验证可信赖的关系
- 数据挖掘需要的条件:
- 完整的、经过清洗的、可信的、可被高效访问的数据
- 声明性的查询(例如 SQL) 和挖掘接口
- 可扩展的挖掘算法及大数据计算环境
- 目前需要研究的问题
- 查询处理方面:
- 在TB级别上的可伸缩复杂交互查询技术
- 大数据分析方面
- 缺乏数据库系统之间的协作
- 需要研究并实现:将声明性查询语言与数据挖掘、数据统计包有机整合在一起的数据分析系统
- 查询处理方面:
2.3.5 解释
- 大数据分析系统应该支持用户对产生结果的了解、验证、分析。
3.大数据的应用领域
3.1 制造业的应用
- 创造了掌握用户需求为目标的智慧化制造业
如:
- 一些计算机硬件供应商正在收集和分析设备信息对设备预测,并提前维护
- 为下一代产品提供灵感
- 海量数据扩大了算法和运筹学的应用领域在制造业的应用
例如,在部分制造企业,算法对生产线的传感器信息进行分析,形成了自我调节的流程,从而减少了浪费,避免了代价高昂(有
时还十分危险)的人为干预,最终提升产量。
3.2 服务业的应用
- 服务业演化的两种形态:
- 信息技术与服务业相结合的信息服务业
- 如:计算机软件、通信服务、信息咨询服务
- 大数据的应用:如,收集用户行为推送广告
- 应用信息技术改造传统服务业而来的服务业
- 如:信息化改造后的商业、金融业、旅游业等
- 大数据的应用:
- 厂商可以通过实时跟踪客户行为、更新客户偏好、建立可能行为的模型
- 银行可以从大量数据中发现信用卡欺诈和盗用
- 理财网站从统计的消费数据中来预测宏观的经济趋势
- 信息技术与服务业相结合的信息服务业
3.3 交通行业的应用
- 大数据时代下的智慧交通:
- 融合传感器、监视视频、GPS、气象监测等设备产生的海量数据
- 从中提取出人们真正需要的信息
- 将通过计算提供最佳的出行方式和路线,及时而准确地进行发布和推送给用户
3.4 医疗行业的应用
大数据下的医疗行业:
- 将医疗机构的电子病历记录标准化,形成全方位多维度的大数据仓库
- 系统全面分析患者的基本资料、诊断结果、处方、医疗保险等数据
- 综合以上数据,在医生的参与下通过决策支持系统,选择最佳的医疗护理解决方案