大数据分析|从七个特征理解大数据分析

news2024/12/23 1:50:55

 文献来源:Saggi M K, Jain S. A survey towards an integration of big data analytics to big insights for value-creation[J]. Information Processing & Management, 2018, 54(5): 758-790.

下载链接:链接:https://pan.baidu.com/s/14IGaCOc-plxAiaVhwOgUvA 
提取码:4w8k

        BDA是一个技术驱动的生态系统,在这个生态系统中,更好的决策将帮助许多组织以可解释和适当的形式从数据中提取知识。BDA是数据驱动的决策框架。本文旨在全面研究BDA,通过使用各种数据分析方法来解决挑战、获得洞察力并做出明智的决策。本文对BDA的各种工具和技术进行了广泛而系统的方法综述,并报告了有待进一步研究的研究差距。

        Strawn将大数据描述为“科学的第四范式”,而Hagstrom将其定义为“知识资产的新范式”,或者“创新、竞争和生产力的下一个前沿”。Gantz和Reinsel(2011)将大数据定义为“新一代技术和架构,旨在通过实现高速捕获、发现和分析,从大量各种数据中经济地提取价值”。它描述了一种综合的方法来组织、处理和分析六个特征(即体积、种类、速度、准确性、价和价值)

        BDA按照高级数据采集、数据存储、数据管理、数据分析和可视化的需求进行分类。要将BDA转化为价值创造的大见解,在不同应用的数据、流程、分析建模和管理方面都面临着巨大的挑战。它不应该被认为是通过互联网收集的数据的同义词,因为数据可以来自诸如超市,银行等发生的商业交易等来源。大数据也可以来源于传感器(来自手机的卫星和GPS跟踪数据)和行政数据(教育记录、医疗记录和税务记录)(Eagle, Pentland, & Lazer, 2009)。

领域现状描绘

        一些技术挑战与不同的“V”特征有关,特别是“Volume”(支持非常高的数据量)、“Velocity”(数据流的快速分析)、“Variety”(支持不同类型的数据)、“Veracity”(支持高数据质量)、“Value”(见解和利益的价值)、“Variability”(支持不断变化)和“Valence”(支持数据中的连通性)。

        BDA的七个特征包括对数据分析的不同步骤和过程的一些探索。这七个方面代表了大数据分析的不同难点。我们的主要目标是提供每个特征的全面描述,并描述它们的挑战。BDA的这七个特征如表4所示,

名称描述示例挑战
“Volume”(支持非常高的数据量)

大数据的量是用其规模和指数增长来解释的。大规模和绝对的数据量是一个巨大的挑战。

它被称为尺寸。

应用:-医疗数据,社交媒体

数据规模:

tb

pb

exabyte

-Yotabyte

-数据存储

-数据采集

-数据处理

-性能

-成本

“Velocity”(数据流的快速分析)

它是指大型数据集的复杂性,这些数据集可以是半结构化的、非结构化的或结构化的。这就是所谓的复杂性。

应用领域:气象数据,DNA测序,生物学

不同形式的数据:-文本、文档-图像、语音、音频、视频-地理空间数据-网络数据-传感器数据

-数据的异质性

-多样性

-不同的形式

“Variety”(支持不同类型的数据)

它是非同质结构的高数据流入率。这就是所谓的速度。

应用领域:金融市场、广告代理

流数据分析:-批处理-实时处理-流处理-数据处理缓慢且昂贵
“Veracity”(支持高数据质量)Veracity特性衡量数据的准确性及其用于分析的潜在用途。这就是质量。数据的不确定性:-日益复杂的数据结构,-大型数据集的不一致性

-数据的准确性

-数据源的可靠性

-分析中的上下文-不准确,延迟,主观性

“Value”(见解和利益的价值)

它指的是以图的形式将大数据连接起来。

这就是所谓的连通性。

应用程序:医疗保健数据

连接性的度量:-数据连接性

-更复杂的数据探索算法。

-价态变化的建模和预测。

-组事件检测。

-紧急行为分析

“Variability”(支持不断变化)

大数据=数据+价值?这是数据挑战的核心。它从大量的结构化和非结构化数据中提取知识价值,而不会丢失,为最终用户。

应用领域:商业或工业

七个V: -尺寸-复杂性-质量-连通性-速度-变化-价值(重要)-增加收入-降低运营成本-服务客户
“Valence”(支持数据中的连通性)

它指的是含义不断快速变化的数据。

这仍然是一个持续的挑战。

应用:股票市场,金融数据

数据流速率的变化——复杂性

-数据不一致

-峰值级计算需求

-周期性高峰和低谷

对于大数据的处理和分析,研究了最近使用的各种平台,用于大量物联网生成的数据:

(i)存储和处理大量数据的能力(Apache Hadoop, 2011),

(ii)高级数据分析的能力。提取、传输和加载(ETL) (1010data),

(iii)启用大数据物联网处理和分析能力(SAP-Hana, 2013),

(iv)启用支持Hadoop以进行大数据处理和分析的能力(Cloudera, 2008), (v)启用非结构化数据的并行处理、分析和安全能力(HP-HAVEn, 2013), (vi)启用基于Hadoop的大数据处理和分析能力(Hortonworks, 2011),

(vii)具备结合大规模并行处理(MPP) pb级数据量的分析数据库能力(Pivotal大数据套件,2016),(viii)具备数据分析和管理问题解决能力(Infobright, 2005),

(ix)具备快速处理、分析和预测能力(MapReduce, 2008)。

进一步,对顶级初级研究的结构进行了分类。分类结构基于(Jabbour, 2013)提出的方法。分类方案包括六个类别:研究、目标、重点、能力、效益及其结果,如表5所示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1425155.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何进行有效的Shopee新店选品

在Shopee平台上开设新店是一个令人兴奋的时刻,但是在开始销售之前,进行有效的选品是至关重要的一步。选品的质量和策略将直接影响你的市场竞争力和销售业绩。下面是一些建议,可以帮助你进行有效的Shopee新店选品。 先给大家推荐一款shopee知虾…

❤ 做一个自己的AI智能机器人吧

❤ 做一个自己的AI智能机器人 看了扣子(coze)的模型,字节基于chatgpt搭建的一个辅助生成AI的网站,感觉蛮有意思,看了掘金以后,于是动手自己也实现了一个。 官网 https://www.coze.cn/ 进入的网站 1、 创…

算法模板 1.前缀和

前缀和&#xff1a;以O(1)的时间求解一段区间的和&#xff0c;空间复杂度O(n) 一维前缀和 795. 前缀和 - AcWing题库 #include <bits/stdc.h> using namespace std; const int N 100010; int a[N],s[N]; int main(){int n,m;scanf("%d%d",&n,&m);fo…

跟着cherno手搓游戏引擎【15】DrawCall的封装

目标&#xff1a; Application.cpp:把渲染循环里的glad代码封装成自己的类&#xff1a; #include"ytpch.h" #include "Application.h"#include"Log.h" #include "YOTO/Renderer/Renderer.h" #include"Input.h"namespace YO…

个人建站前端篇(二)项目采用服务端渲染SSR

SSR的优点 更好的SEO首屏加载速度更快&#xff0c;用户体验更好可以使用相同的语言以及相同的声明式、面向组件的心智模型来开发整个应用&#xff0c;而不需要在后端模板系统和前端框架之间来回切换。 Vue生态中的SSR通用解决方案 Nuxt是一个构建于 Vue 生态系统之上的全栈框…

Modelarts自动学习之旅,实现智慧食堂的人脸识别提示优化

前言 最近公司食堂进行了升级&#xff0c;不但餐盘更换为智能餐盘&#xff0c;且结账的时候可以刷脸支付。 这些升级让排队结账的速度提升了很多&#xff0c;且食堂员工效率也随之提高了很多。果然&#xff0c;科技改变世界。 我观察了一下&#xff0c;智能餐盘基本没有卡顿…

最新2024如何解决谷歌浏览器Chrome谷歌翻译无法使用问题

快速恢复谷歌浏览器一键翻译功能在Chrome 中安装好【翻译】插件 Macbook 操作步骤&#xff1a; 1点击“前往”&#xff0c;打开“前往文件夹” 2 在对话框中输入“/etc” 囝找到“hosts”文件&#xff0c;复制粘贴到桌面 3 在复制的文件最后新起一行&#xff0c;输入并保存&am…

UnityShader(十二)实现标准光照模型中的高光反射

目录 基本光照模型中的高光反射公式&#xff1a; 逐顶点光照 逐像素光照 基本光照模型中的高光反射公式&#xff1a; 从公式可以看出 要计算高光反射需要知道四个参数&#xff1a;入射光线的颜色和强度clight&#xff0c;材质的高光反射系数mspecular&#xff0c;视角方向v以…

怿星科技荣膺星河智联“2023年度卓越供应商”,共创智能座舱新未来

1月19日&#xff0c;在星河智联2023年度卓越供应商评选活动中&#xff0c;怿星科技凭借卓越的产品和优质的服务&#xff0c;以及在项目管理、设计开发和成本控制等多方面的出色表现&#xff0c;荣获了“年度卓越供应商”的荣誉称号。 添加图片注释&#xff0c;不超过 140 字&am…

UML/SysML建模工具更新情况(截至2024年1月)(2)Papyrus 6.6.0

工具最新版本&#xff1a;drawio-desktop 23.0.2 更新时间&#xff1a;2024年1月25日 工具简介 开源绘图工具&#xff0c;用Electron编写&#xff0c;跨平台&#xff0c;支持UML。桌面版和在线版现在版本号已统一。在线版&#xff1a;Flowchart Maker & Online Diagram S…

oracle数据库慢查询SQL

目录 场景&#xff1a; 环境&#xff1a; 慢SQL查询一&#xff1a; 问题一&#xff1a;办件列表查询慢 分析&#xff1a; 解决方法&#xff1a; 问题二&#xff1a;系统性卡顿 分析&#xff1a; 解决方法&#xff1a; 慢SQL查询二 扩展&#xff1a; 场景&#xff1a; 线…

Uniapp登录页面获取头像、昵称的最新方法的简单使用

前言 写小程序写到登录页面的时候&#xff0c;发现官方文档中原来的wx.getUserInfo和wx.getUserProfile不太能用了&#xff0c;学习了相对比较新的方法&#xff0c;这种方法的文档链接如下&#xff1a; https://developers.weixin.qq.com/miniprogram/dev/framework/open-abil…

免费的ChatGPT网站 ( 7个 )

ChatGPT的核心功能是基于用户在输入时的语言或文本生成相应的回复或继续内容。此外&#xff0c;它还能够完成多种任务&#xff0c;如撰写邮件、视频脚本、文案、翻译、代码编写以及撰写论文等。 博主归纳总结了7个国内非常好用&#xff0c;而且免费的chatGPT网站&#xff0c;AI…

Camunda ScriptTask SendTask ReceiveTask操作

文章目录 开始脚本任务(ScriptTask)发送任务(SendTask)接收任务(ReceiveTask)流程图xml 开始 前面我们已经介绍了Camunda最基本的操作和常见的监听器&#xff0c;如果不熟悉Camunda&#xff0c;可以先看一下&#xff0c;方便搭建环境&#xff0c;亲手测试。 Camunda组件与服务…

轻量式RPC调用日志链路设计方案

导语: 调用链跟踪系统,又称为tracing&#xff0c;是微服务设计架构中&#xff0c;从系统层面对整体的monitoring和profiling的一种技术手 背景说明 由于我们的项目是微服务方向&#xff0c;中后台服务调用链路过深&#xff0c;追踪路径过长&#xff0c;其中某个服务报错或者异…

YOLOv5改进芒果首发:24年最新论文Shift-ConvNets:稀疏/移位操作让小卷积核也能达到大卷积核效果,来打造新颖YOLOv5检测器

💡本篇内容:YOLOv5改进芒果首发:24年最新论文Shift-ConvNets:稀疏/移位操作让小卷积核也能达到大卷积核效果,来打造新颖YOLOv5检测器 💡附改进源代码及教程,用来改进作为 🚀改进Shift-ConvNets 深圳大学出品!!24年最新论文 Shift-ConvNets地址:https://arxiv.o…

c/c++串的链式操作

文章目录 1.链式串的定义2.初始化3.赋值为04.赋值操作5.打印操作6.源码 本篇博客中都是带头结点的串。 1.链式串的定义 这里的数据域是4个字节&#xff0c;是为了节省空间。 typedef struct StringNode{char ch[4]; //按串长分配存储区&#xff0c;ch指向串的基地址struct S…

史诗级详细离线更新centos系统的openssh,升级到9.3p1!!

离线更新openssh步骤 文章目录 前言一、openssh是什么?二、更新步骤 1.查看相关组件版本是否存在(代码包已全部打包)2.进行openssh离线更新总结(安装时可能出现的问题等)前言 对于可能很多人在离线更新openssh时都没找到一篇能解决实际问题的文章,那么今天它来了,请往下看…

安卓相对布局RelativeLayout

<?xml version"1.0" encoding"utf-8"?> <RelativeLayout xmlns:android"http://schemas.android.com/apk/res/android"android:layout_width"match_parent"android:layout_height"150dp"><TextViewandroid…

PostgreSql和Oracle的事务机制区别以及对程序的影响

前言 几年前IT信息产业的一些核心技术包括架构、产品以及生态都是国外制定&#xff0c;然而自从“遥遥领先”公司被制裁后&#xff0c;国家开始大力支持信息产业“新基建”&#xff0c;自2020年开始市场上涌现出了大量的国产化软件&#xff0c;就国产化数据库而言我所在的公司…