001.精读《Big Data: A Survey》

news2024/9/17 7:20:24

文章目录

    • 1. 引言
    • 2. 精读
      • 2.1 摘要
      • 2.2 背景
      • 2.4 相关技术
      • 2.5 相关流程
      • 2.6 应用场景
    • 3. 总结

1. 引言

大数据精读周刊首次与大家正式见面。我们每周将精读并分析几篇精选文章,试图讨论并得出结论性观点。我们的目标是通过深入探讨,帮助大家更好地理解大数据领域的重要话题。

大数据的发展和应用是当前信息技术领域的一个重要方向,本期精读的文章是《Big Data: A Survey》。

不想读整篇文章?没关系,我们将提供文章的内容概述,让大家快速了解核心内容。同时,我们鼓励大家在此基础上进一步阅读原文,以获得更深的理解。

2. 精读

2.1 摘要

本文全面回顾了大数据的背景、相关技术和应用。作者首先介绍了大数据的总体背景,并讨论了云计算、物联网、数据中心和Hadoop等技术。接着,重点介绍了大数据价值链的四个阶段:数据生成、获取、存储和分析,每个阶段都包括背景介绍、技术挑战讨论和最新进展回顾。最后,作者讨论了大数据在企业管理、物联网、社交网络、医疗、集体智能和智能电网中的应用,旨在为读者提供一个全面的视角。

2.2 背景

Over the past 20 years, data has increased in a large scale in various fields… how to effectively organize and manage such datasets… generates data of tens of Terabyte (TB) for online trading per day.

在过去的20年中,各个领域的数据呈现出大规模增长。例如,全球每天的在线交易生成的数据量达到了数十TB。随着数据量的指数级增长,大数据这一术语被用来描述这些庞大的数据集。大数据不仅包括大量的非结构化数据,还需要实时分析,从而发现新的价值。然而,这也带来了如何有效地组织和管理这些庞大数据集的挑战。

it also brings about many challenging problems demanding prompt solutions: collecting and integrating massive data… store and manage such huge heterogeneous datasets… reveal its intrinsic property and improve the decision making.

大数据的迅猛增长带来了巨大的机会,同时也带来了许多亟需解决的挑战。首先,收集和整合来自不同来源的大量数据是一个主要挑战。其次,云计算和物联网的兴起进一步加剧了数据的爆炸式增长,提出了如何在现有硬件和软件基础设施下存储和管理这些庞大且异构的数据集的问题。最后,为了揭示大数据的内在价值并改进决策,必须在不同层次上对数据集进行有效的分析和挖掘。

Big data is an abstract concept. Apart from masses of data, it also has some other features, which determine the difference between itself and ‘massive data’ or ‘very big data.’

大数据不仅仅是大量的数据,它还具有其他独特的特征,使其区别于一般的海量数据或非常大的数据。这些特征定义了大数据的独特性和复杂性。

Datasets that could not be perceived, acquired, managed, and processed by traditional IT and software/hardware tools within a tolerable time… datasets which could not be captured, managed, and processed by general computers within an acceptable scope… Big data shall mean the data of which the data volume, acquisition speed, or data representation limits the capacity of using traditional relational methods to conduct effective analysis or the data which may be effectively processed with important horizontal zoom technologies.

文章继续讨论了大数据的定义和特征。大数据是一个抽象的概念,除了海量数据之外,还具有其他特征,这些特征决定了其与“海量数据”或“非常大的数据”的区别。尽管大数据的重要性已被广泛认可,但人们对其定义仍有不同的看法。

通常,大数据指的是传统IT和软件/硬件工具无法在可接受的时间内感知、获取、管理和处理的数据集。2010年,Apache Hadoop将大数据定义为“无法在可接受范围内被普通计算机捕获、管理和处理的数据集”。2011年,麦肯锡公司将大数据定义为无法被经典数据库软件获取、存储和管理的数据集。META(现为Gartner)分析师Doug Laney在2001年提出了3Vs模型,即数据量(Volume)、速度(Velocity)和多样性(Variety)的增加,来定义大数据带来的挑战和机遇。根据这个定义,大数据的特征可以总结为四个V,即数据量(Volume)、多样性(Variety)、速度(Velocity)和价值(Value)。

NIST将大数据定义为:数据量、获取速度或数据表示限制了使用传统关系方法进行有效分析的数据,或者需要使用重要的横向扩展技术来处理的数据”。大数据不仅仅是大量的数据,它还具有其他独特的特征,使其区别于一般的海量数据或非常大的数据。这些特征定义了大数据的独特性和复杂性,涉及复杂的、异构的数据集,需要先进的方法来进行数据的收集、存储和分析。

传统的IT和关系数据库方法不足以管理大数据,需要新的技术和架构来处理。大数据的关键挑战在于从庞大、多样和快速生成的数据集中提取有意义的洞察和价值。

In the late 1970s, the concept of ‘database machine’ emerged, which is a technology specially used for storing and analyzing data… In the 1980s, people proposed ‘share nothing,’ a parallel database system, to meet the demand of the increasing data volume.

大数据的发展过程始于20世纪70年代,随着数据量的增加,单一主机系统的存储和处理能力变得不足。随后,在互联网服务的发展下,搜索引擎公司需要应对大数据处理的挑战。谷歌创建了GFSMapReduce编程模型以应对互联网规模的数据管理和分析挑战。。此外,用户生成的内容、传感器和其他无处不在的数据源也推动了数据流的爆炸性增长,这需要对计算架构和大规模数据处理机制进行根本性变革。

In March 2012, the Obama Administration announced a USD 200 million investment to launch the ‘Big Data Research and Development Plan.’

在学术界,大数据也受到了广泛关注。2008年,Nature杂志发表了大数据特刊。2012年,欧洲信息与数学研究联盟(ERCIM)新闻刊登了大数据专题。

The sharply increasing data deluge in the big data era brings about huge challenges on data acquisition, storage, management and analysis.

在大数据时代,急剧增加的数据洪流带来了巨大的挑战,尤其是在数据采集、存储、管理和分析方面。

2.4 相关技术

随后文章继续讨论了与大数据密切相关的几项基础技术,包括云计算、物联网、数据中心和Hadoop。

Cloud computing is closely related to big data… Big data is the object of the computation-intensive operation and stresses the storage capacity of a cloud system… The development of cloud computing provides solutions for the storage and processing of big data… The emergence of big data also accelerates the development of cloud computing… The distributed storage technology based on cloud computing can effectively manage big data; the parallel computing capacity by virtue of cloud computing can improve the efficiency of acquisition and analyzing big data… However, big data depends on cloud computing as the fundamental infrastructure for smooth operation… The main objective of cloud computing is to use huge computing and storage resources under concentrated management, so as to provide big data applications with fine-grained computing capacity… With the advances of big data and cloud computing, these two technologies are certainly and increasingly entwine with each other.

云计算与大数据密切相关,云计算提供大数据存储和处理的解决方案,而大数据也加速了云计算的发展,两者在分布式存储和并行计算方面紧密交织。

In the IoT paradigm, an enormous amount of networking sensors are embedded into various devices and machines in the real world… Such sensors deployed in different fields may collect various kinds of data, such as environmental data, geographical data, astronomical data, and logistic data… Mobile equipments, transportation facilities, public facilities, and home appliances could all be data acquisition equipments in IoT.

物联网通过嵌入各种设备的传感器收集大量数据,这些数据进一步推动了大数据的发展和应用。

With the growth of data, the importance of data centers is also increasingly prominent… Data centers are becoming the backbone of big data technology, with the functions of data storage, management, and processing becoming increasingly complex and demanding… A large number of servers and storage devices need to be deployed to meet the needs of big data applications, which requires the data center to have high performance, high reliability, and high scalability… The architecture of data centers is evolving to provide better support for big data applications, including increased storage density, energy efficiency, and improved fault tolerance.

随着数据量的增长,数据中心的重要性日益凸显,其功能和架构也在不断演进,以满足大数据应用的高性能、高可靠性和高可扩展性的需求。

Hadoop is an open-source distributed computing framework that is designed to store and process large volumes of data across many computers in a cluster… It is specifically designed to handle the challenges posed by big data, including the storage, processing, and analysis of massive datasets… Hadoop’s core components include the Hadoop Distributed File System (HDFS) for storage and MapReduce for processing… The development of Hadoop has significantly advanced the ability to manage and analyze big data, enabling distributed computing and data storage at scale.

Hadoop作为一个开源分布式计算框架,专为大数据设计,极大地推动了大数据的存储和处理能力,其核心组件如HDFSMapReduce,已成为大数据处理的基石。

2.5 相关流程

Big data generation and acquisition can be generally divided into four phases: data generation, data acquisition, data storage, and data analysis.

可以大致分为四个阶段:数据生成、数据获取、数据存储和数据分析

Data generation is the first step of big data. Given Internet data as an example, huge amounts of data in terms of searching entries, Internet forum posts, chatting records, and microblog messages, are generated…

数据生成是大数据处理的初始阶段,涉及各种来源产生的大量数据。这些来源包括互联网活动、企业记录、科学研究和临床应用等。

As the second phase of the big data system, big data acquisition includes data collection, data transmission, and data pre-processing…The collected datasets may sometimes include much redundant or useless data…Data compression technology can be applied to reduce the redundancy. Therefore, data pre-processing operations are indispensable to ensure efficient data storage and exploitation…Data collection is to utilize special data collection techniques to acquire raw data from a specific data generation environment…Log files are record files automatically generated by the data source system…Sensors measure physical quantities and transform them into readable digital signals for subsequent processing…Sensed information is transferred to a data collection point through wired or wireless networks.

大数据获取是大数据系统的第二阶段,包括数据收集、数据传输和数据预处理。在数据获取过程中,收集到的原始数据需要通过高效的传输机制发送到适当的存储管理系统,以支持不同的分析应用。收集的数据集可能包含大量冗余或无用数据,这会不必要地增加存储空间并影响后续的数据分析。例如,环境监测传感器收集的数据集通常存在高度冗余。数据压缩技术可以用来减少冗余,因此数据预处理操作对于确保高效的数据存储和利用是不可或缺的。

Big data storage refers to the storage and management of large-scale datasets while achieving reliability and availability of data accessing…Eric Brewer proposed a CAP [80, 81] theory in 2000, which indicated that a distributed system could not simultaneously meet the requirements on consistency, availability, and partition tolerance.

数据存储涉及对大规模数据集进行高效存储和管理,同时确保数据访问的可靠性和可用性。这包括开发大规模分布式存储系统,使用直接附加存储(DAS)、网络附加存储(NAS)和存储区域网络(SAN)等技术,以满足数据存储和处理的需求。同时Eric Brewer提出的CAP理论表明,分布式系统在设计时必须在一致性、可用性和分区容错性之间进行权衡,无法同时满足这三项要求。

大数据的存储机制,如GFSBigTable,将在单独的章节中详细讨论,因此本文不再过多阐述相关内容。

In the era of big data, key information extraction methods include Bloom Filter, Hashing, Index, Triel, and Parallel Computing. These methods help in efficient data processing and retrieval, though each has its limitations.

在大数据时代,关键信息提取方法包括布隆过滤器、哈希、索引、字典树和并行计算。这些方法有助于高效的数据处理和检索,但每种方法都有其局限性。数据分析可以分为实时分析和离线分析,每种方法有不同的目的,并需要不同的工具和方法。

2.6 应用场景

Big data in enterprises…enhances production efficiency and competitiveness in various areas: marketing, sales planning, operations, and supply chain…IoT is a major source and market for big data…real-time tracking of trucks…smart cities…supports decision-making in water management, traffic reduction, and public safety…Social networks…public opinion analysis, intelligence collection, social marketing, government decision-making support, and online education…Medical applications…precise diagnostics, personalized treatments, and efficient hospital management…Collective intelligence…enhanced decision-making and innovation through crowd-sourced information and analytics…Smart grid…optimizes the efficiency and reliability of power grids through real-time monitoring and predictive analytics.

大数据在企业中提高了生产效率和竞争力,尤其在营销、销售规划、运营和供应链管理方面。在物联网领域,大数据实现了卡车的实时跟踪和智慧城市的发展,支持水资源管理、交通减缓和公共安全的决策。社交网络利用大数据进行舆情分析、情报收集、社交化营销、政府决策支持和在线教育。医疗应用包括精确诊断、个性化治疗和高效的医院管理。集体智慧通过众包信息和分析改进决策和创新。智能电网利用大数据进行实时监控和预测分析,优化电网的效率和可靠性。

The analysis of big data is confronted with many challenges…but the current research is still in early stage…Considerable research efforts are needed to improve the efficiency of display, storage, and analysis of big data…There is a compelling need for a rigorous and holistic definition of big data, a structural model of big data, a formal description of big data, and a theoretical system of data science…An evaluation system of data quality and an evaluation standard/benchmark of data computing efficiency should be developed…Big data technology is still in its infancy…many key technical problems, such as cloud computing, grid computing, stream computing, parallel computing, big data architecture, big data model, and software systems supporting big data, etc. should be fully investigated…The emergence of big data opens great opportunities…Data with a larger scale, higher diversity, and more complex structures…Data resource performance…The reorganization and integration of different datasets can create more values…enterprises that master big data resources may obtain huge benefits by renting and assigning the rights to use their data .

大数据分析面临许多挑战,目前仍处于早期阶段。需要大量研究努力来提高大数据展示存储分析的效率。关键领域包括大数据基本问题的理论研究、标准化、计算模式的演变,以及技术问题,如格式转换和数据传输。实际影响包括大数据管理搜索挖掘分析数据集成溯源和应用开发。数据安全,包括加密、安全机制和信息安全应用,也至关重要。

但是,大数据的出现带来了巨大的机遇,并将推动技术进步。未来的发展将涉及处理更大规模、更复杂的数据结构,改进数据资源性能,以及数据集的重组和整合。这将为掌握大数据资源的企业创造新的价值和利益。

3. 总结

首先,通读本文后,我们至少可以了解到什么是大数据。大数据不仅仅指的是数据量大,而是那些无法在可接受范围内被普通计算机捕获、管理和处理的数据集。具体来说,这些数据集至少具有以下四个特征:数据量(Volume)、多样性(Variety)、速度(Velocity)和价值(Value)。

在此基础上,我们可以概括出:大数据(Big Data)是指那些数据量巨大(Volume)、类型多样(Variety)、增长速度快(Velocity),能够挖掘出潜在价值(Value)的数据集合。简而言之,大数据不仅仅是大量的数据,而是这些数据如何帮助我们获取有用的信息和见解。

接着,文章说明了急剧增加的数据洪流带来的巨大挑战,特别是在数据采集、存储、管理和分析方面。进一步引出了相关的技术:云计算、物联网、Hadoop等。

随后,文章介绍了大数据应用的相关流程:数据生成数据获取数据存储数据分析。具体内容如下:

  • 数据生成:来源于互联网活动、企业记录、科学研究和临床应用等。
  • 数据获取:包括数据收集、数据传输和数据预处理等。
  • 数据存储:涉及存储机制的一致性、可用性和分区容错性等。
  • 数据分析:分为实时分析和离线分析,具体场景具体分析。

最后,文章讨论了大数据的应用以及未来的发展展望。

总的来说,这篇论文通过对大数据技术的全面回顾和实际应用的讨论,为读者提供了一个系统的、全面的理解框架。通过阅读这篇论文,我们不仅了解了大数据的定义和特征,还学到了大数据处理的关键技术、实际应用和面临的技术挑战。论文提供的技术详述和实际应用案例,对于大数据技术的研究和应用具有重要的参考价值。建议有兴趣的读者可以看看原文。

获取原文

  • GItHub:https://github.com/hiszm/BigDataWeekly/tree/main/资料
  • 公众号回复:001

如果你想参与讨论,请 点击这里,每周都有新的主题,周末或周一发布。

大数据精读,探索知识的深度。

关注 大数据精读周刊 微信公众号

版权声明:自由转载-非商用-非衍生-保持署名(创意共享 3.0 许可证)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1957735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

力扣高频SQL 50题(基础版)第二十五题

文章目录 力扣高频SQL 50题(基础版)第二十五题619.只出现一次的最大数字题目说明实现过程准备数据实现方式结果截图 力扣高频SQL 50题(基础版)第二十五题 619.只出现一次的最大数字 题目说明 MyNumbers 表: ------…

Qt,获取其他.exe文件的标准输出流的信息(printf/print的输出信息)

比如,通过Python编写爬虫软件功能是运行程序获取豆瓣电影排行榜信息,并通过print打印出来。将其打包成.exe,通过Qt来调用,并获取到.exe程序运行的结果 简单示例代码: // 创建 QProcess 对象QProcess process;// 连接信号槽以获取…

java计算器,输入公式和对应变量的值

目标:最近想写个东西,本质就是一个计算器,我们可以输入公式(例如:ab),然后把公式的值(a:10,b:20)也输入进去。最后得到结果。核心:这个想法核心部分就是给一个…

Git远程仓库推送

这里我只连接了两个站点的远程仓库,一个是国内的Gitee,另一个是Github,这两个站点的连接方式主要有两种,第一种就是通过https来连接远程仓库,另一种是通过ssh公钥来连接,这两个站点练接的大致过程都是一样的…

接口测试支持IDEA插件一键同步API、新增思维导图快速评审测试用例,MeterSphere开源持续测试工具v3.1.0版本发布

2024年7月29日,MeterSphere开源持续测试工具正式发布v3.1.0版本。 在这一版本中,接口测试方面,支持通过IDEA插件一键同步API至MeterSphere;测试管理方面,“测试用例”模块新增通过思维导图模式快捷评审测试用例。在“…

【SpringCloud】Nacos配置管理和Feign远程调用

Nacos配置管理和Feign远程调用 Nacos一方面可以将配置集中管理,另一方可以在配置变更时,及时通知微服务,实现配置的热更新。 一、Nacos配置管理 1. 统一配置管理 1.1.在Nacos中添加配置文件 注:项目的核心配置,需…

如何在Net8.0平台下开发AOT项目,项目实战分析

1. 前言 前面的文章我们讨论过什么是AOT,以及AOT适用于什么场景, dotnet开发编译之争:Ahead-of-Time(AOT) vs Just-in-Time(JIT)谁才是未来最佳编译选择?,那么如何在Net8.0平台下开发AOT项目。 2. 先决条件 在安装的…

【JavaEE】通过Linux部署Web项目到云服务器上

一.配置部署所需的环境. 1.1 什么是部署? 要想知道什么是部署, 就要先了解我们在日常开发的过程中所设计到的几种环境: 开发环境: 软件开发环境指的是开发人员在创建、测试和部署软件应用程序时所需的一系列硬件、软件、工具和流程的集合。它是为了支持软件开发过程而构建的…

各路数据库的第一

各路第一 上周很多朋友都在发这些。朋友圈被刷屏了。 而且几乎都是同一时间。一般来说文无第一武无第二,怎么全是第一? 后来了解到这是不同维度的。我想这大概和奥斯卡颁奖一样,最佳导演、最佳男主角、最佳女主角、最佳音乐等等有20多个维度…

FPGA开发——LED流水灯实现先从左往右流水,再从右往左流水

一、概述 我们在设计完一个方向的流水灯的设计时,总是会想实现让流水灯倒着流水回去的设计,这里我也是一样,实现这种设计的方法有很多种,其中就有直接使用case语句将所有可能包含进去编写,这种设计方法是最简单的&…

JavaFX布局-TitledPane

JavaFX布局-TitledPane 常用属性textcontentgraphicexpandedcollapsibleanimated 实现方式Javafxml 提供了一个可折叠的标题栏和一个内容区域内容区域可以嵌套其他布局 常用属性 text 设置标题 titledPane.setText("测试标题");content 内容区域,可以单…

【C++进阶学习】第十弹——哈希的原理与实现——链地址法的原理与讲解

开放地址法:【C进阶学习】第九弹——哈希的原理与实现——开放寻址法的讲解-CSDN博客 前言: 哈希的整体思想就是建立映射关系,前面的开放地址法的讲解中,也对哈希的原理做了详细的讲解,今天就来讲解一下实现哈希的另一…

系统移植(八)u-boot源码解析(未整理)

文章目录 一、分析make <board_name>_defconfig执行过程&#xff08;一&#xff09;1. 1. 分析Makefile文件&#xff0c;分析Makefile文件的规则中目标为"<board_name>_defconfig", &#xff08;二&#xff09;&#xff08;三&#xff09; 二、分析make …

【精通Redis】Redis命令详解

引言 Redis是一个内存数据库&#xff0c;在学习它的内部原理与实现之前&#xff0c;我们首先要做到的就是学会使用&#xff0c;学会其丰富的命令操作。 一、字符串 Redis的字符串类型之前笔者的一篇入门介绍中曾经说过&#xff0c;不是简单的只存人可以阅读的字符串&#xf…

JavaWeb笔记_FilterListener

一.过滤器 1.1 过滤器概述 过滤器主要用来拦截目标资源&#xff08;静态资源或动态资源&#xff09;的请求和响应 &#xff08;类似地铁的安检&#xff09; 我们访问动态或静态资源都要通过URL访问&#xff1a;http://localhost:8080/... 所以过滤器本质上拦截的是URL 1.2 过滤…

select ... for update中锁等级转化

一、结论 select ... for update 除了查询功能&#xff0c;还实现了加锁机制&#xff0c;是一种悲观锁。根据是否使用了主键和索引&#xff0c;决定锁等级是表锁还是行锁。如果采用了&#xff0c;则是行锁&#xff0c;否则是表锁。 二、实例 前提条件&#xff1a;将事务自动…

你敢信?1万块存上5年,到手只有900!

1996年的夏天你走进银行&#xff0c;会看到五年期整存整取的利息&#xff0c;可能高达14%左右。1万块存上5年&#xff0c;到手利息高达——7000元。 今天呢&#xff1f;同样的存款方式&#xff0c;5年后&#xff0c;能拿到的利息只有900元。靠吃银行利息就能躺平的年代&#xf…

分布式事务解决方案(一) 2PC、3PC、TCC、Sega

目录 1.绪论 2.2PC 2.1 基本原理 2.1.1 组成 2.1.2 步骤 1.prepare阶段 2.commit阶段 2.2 2PC 存在的问题 2.2.1 阻塞问题 2.2.2 单点故障问题 1. 事务协调器宕机 2.部分数据不一致问题 2.资源管理器宕机 3. 事务协调器和资源管理管理器同时宕机 2.2 实现 2.2.1…

【AI落地应用实战】Amazon Bedrock +Amazon Step Functions实现链式提示(Prompt Chaining)

一、链式提示 Prompt Chaining架构 Prompt Chaining 是一种在生成式人工智能&#xff08;如大型语言模型&#xff09;中广泛使用的技术&#xff0c;它允许用户通过一系列精心设计的提示&#xff08;Prompts&#xff09;来引导模型生成更加精确、丰富且符合特定需求的内容。 P…

freertos-HAL库-STM32Cubemax生成

打开cubemax选好型号配置RCC&#xff08;外部高速时钟&#xff09;这里查看原理图&#xff0c;我们把按键设为输入&#xff0c;led设为输出创建两个新任务&#xff08;default是系统创建的&#xff09;配置时钟&#xff0c;这里HSE是外部高速时钟&#xff0c;HSI是内部的&#…