什么是大数据分析:定义、优缺点、应用、机遇和风险

news2024/11/29 20:40:50

在这里插入图片描述

大数据分析的概念已经成为我们社会不可或缺的一部分。众多公司和机构已经开发了大数据应用程序,取得了不同程度的成功。社交媒体平台和传感器等技术正在以前所未有的速度生成数据,就像一条装配线。如今,几乎所有东西都是物联网的一部分:智能药丸、智能电表、智能飞机发动机以及更多的设备在不断地创造实时数据。这些数据通常是非结构化的,并且以巨大的数量生成,这就需要进行有效的管理和分析。这就引出了一个问题:你如何为大数据分析制定高效且有效的政策?以及你需要采取哪些步骤才能让大数据为你服务?本页面解释了大数据的要点以及大数据分析的最佳策略。

什么是大数据?

大数据是非常庞大或非结构化的数据。它是最难分析的数据。为此,你需要先进的大数据技术和能够处理大量非结构化数据的大数据解决方案(工具)。

为什么要进行大数据分析?答案很简单:大数据中常常隐藏着丰富的信息,这些信息可以帮助你的企业或机构表现得更好。你会突然开始看到一些用常规数据分析无法发现的模式。你进行大数据研究,偶然发现新的知识,这些知识可以给你带来竞争优势或大幅提高你的服务质量。

决定大数据应用成败的相关问题

每天我们都被大量的数据淹没。不知何故,你感觉你的组织能够并且必须对这些数据做些什么。毕竟,竞争不会停滞不前,技术在快速发展,市场也在不断变化。于是出现了一些具体的问题:

  1. 我的组织可以并且应该用大数据分析做什么?
  2. 一个成功的项目是什么样的?你何时以及如何让利益相关者参与到一个项目中?
  3. 大数据科学有哪些风险、陷阱以及利弊?
  4. 在我的组织中可以确定哪些大数据应用,其影响是什么?
  5. 有哪些新的商业模式支持大数据分析?
  6. 哪些大数据例子引人遐想,你能从中学到什么?
  7. 我在哪里以及如何存储大数据?什么时候需要数据湖?
  8. 有哪些大数据分析工具可用?
  9. 我的员工需要具备哪些技能才能管理好数据?
  10. 我的组织应该如何处理任何大数据隐私问题?
  11. 需要考虑哪些相关法律法规?

大数据是易变的、复杂的、大量的和非结构化的

大数据对任何组织都可能具有前所未有的价值。但这些数据也很难分析和应用。为什么呢?因为大数据是易变的、复杂的、规模庞大且非结构化的。例如,想想卫星图像、系统日志文件或声音片段,你可以分析它们以提取信息。

大数据管理领域特别有趣,因为你可以开始创建预测模型、更新你的商业模式(从被动变为主动)并实施颠覆性创新。

大数据示例与应用

为了向其他组织学习并作为灵感来源,我们在此提供一些在多个领域中具有吸引力的大数据应用示例。引人注目的是,公共部门的大数据应用示例数量很多。对此有一个合理的解释:公共空间本身非常庞大,大致包括你的家、办公室和其他目的地之间的所有区域。

此外,如今拍摄照片和视频图像很容易,甚至可以通过让无人机携带(红外)摄像头自动飞行来实现。例如,照片可以显示树木是否生病、花园是否整洁以及杂草是否过高。但这些照片也可以显示停车位是否被没有有效许可证的汽车占用,或者它们可以指示户外区域物体的维护状态。在医疗保健领域也有许多大数据的例子。在医疗保健领域,越来越常见的是使用大数据分析使专家能够早期检测疾病。

首先考虑一个有用的大数据应用

都柏林的案例非常清楚地表明,他们事先提出了一个相关的应用。这是在你开始进行大数据管理并构建一个成熟架构之前最关键的一步。基于这些数据,你可以做出哪些更好或更快的决策呢?在这个领域中,人们往往过于关注数据存储或大数据工具,而不是它能产生什么以及它能实现哪些新的商业模式。

大数据的原则和特征:五个 V。

大数据具有一些特征,我们称之为五个 V。以下一种或多种情况可被视为大数据:

  1. 容量(Volume):大数据有多大?数据量非常大,以至于不再适合传统的 SQL 数据库。数据存储在文件系统或所谓的 NoSQL 数据库中。提取的数据存储在数据仓库中。
  2. 速度(Velocity):数据出现得很快,并且可能很快再次消失。例如,推特会将较旧的推文移至档案中。那些数据很快就消失了。机器数据(物联网大数据)甚至几乎立即消失。所以,你必须非常迅速地获取数据。
  3. 多样性(Variety):数据在结构、容量和意义上有很大的变化。
  4. 准确性(Veracity):不同的数据质量以及对数据可靠性的怀疑使得大数据的使用存在问题。
  5. 价值(Value):这才是真正重要的,大数据将为你的客户和你的组织带来什么价值?

你可以用大数据的特征来阐明大数据的原则,但这并不能说明全部情况。特别是在图像处理方面。由于这个特定的应用,我们也把摄影称为新的通用语言,因为基于照片,你可以非常精确和快速地相对容易地识别出产品中的缺陷,还可以检测出人类、动物或植物中的初期疾病。图像处理的应用可能性是巨大的,特别是与机器人、人工智能和无人机结合使用时。

大数据分析:八步流程。

为了从大数据中获取大量价值,你需要采取特定的一系列步骤。这些步骤有助于你构建项目结构,并确保你从一个业务问题开始。这一点至关重要,因为许多项目在实际中并未显示出回报。通常,会收集大量数据,但几乎没有进行分析和应用。以下是大数据分析的八个步骤以及关于如何通过大数据取得成功的解释:

  1. 确定并定义业务问题:在这里,你和你的同事将探讨哪些业务问题适合进行大数据分析。在这个过程中,首先使用你所在组织或业务流程中最重要的关键绩效指标(KPI)。
  2. 收集并准备相关数据:基于业务问题,你将选择一个初始数据集,并在相关情况下进行清理。
  3. 探索和分析数据:现在你将进行大数据分析,并使用商业智能工具探索数据,以便了解数据以及它是否能够解决业务问题。你还将以各种方式可视化数据。
  4. 整理出最终的数据集:你执行步骤 1、2 和 3,直到你拥有一个良好的数据集。
  5. 构建大数据模型:你将构建一个模型,其中算法基于训练数据集进行预测。
  6. 验证模型:现在需要由领域专家开始验证模型;他们确定算法给出的预测结果是否正确。
  7. 将模型投入生产:如果模型有效,考虑到初始情况和业务问题,并且你已经控制了数据质量,那么你将大数据模型投入生产。
  8. 评估模型的结果:定期测试模型的预测是否仍然准确,并查看它产生了哪些结果。基于此评估,你将创建一个更复杂的模型版本,能够进行更准确的预测。

这大数据分析的八个步骤有助于你始终将业务问题置于技术项目的中心,并通过负责的角色组织治理(大数据治理)。此外,路线图明确表明这不是一次性的练习,而是一个持续改进和完善模型的过程。最后,在大数据中寻找模式不能再使用传统的分析工具,因为数据太大或太复杂。你将不得不开发一种算法,例如神经网络(人工智能),它将以高效有效的方式为你完成这项工作。

从传统商业智能到大数据科学

传统上,商业智能(BI)处理结构化数据,你可以相对容易地存储和访问这些数据。你可以基于这些数据创建数据仪表板。商业智能大数据科学涉及处理(大量)非结构化数据和算法。你如何正确处理这些数据,以及如何构建良好的大数据分析?还有哪些方面你应该注意?

由 Hadoop 组成的计算机集群提供巨大的计算能力

一个众所周知的技术是 Hadoop。它提供了一个框架来访问和过滤大量数据。在由许多计算机组成的集群上的 Hadoop 提供巨大的计算能力。这使得这些计算机能够以闪电般的速度将特定数据提供给最终用户的商业智能工具。

大数据与零数据

我们坚信大数据可以为你的组织增加巨大的价值。然而,你不应局限于目前列出的可能性。有时,你没有记录的关于你的客户或流程的数据,即所谓的零数据,比大数据包含更大的价值。

超越你自己的数据

还建议不要局限于您自己的数据。在你的分析中包括外部数据源和开放数据。这样,你可以用相关的背景信息丰富内部视角。考虑人口统计(客户)数据和市场信息、竞争分析,还有诸如天气、交通流量或社交媒体上的情绪等因素。如今,您更有可能从外到内而不是从内到外看待问题或机会。

采取双轨策略:大数据科学不仅仅是大数据策略。

当然,你需要开始制定政策和策略,以便在你的组织中启动大数据预测分析,但快速开始尝试大数据科学也至关重要。这是一个复杂的领域,通过尝试,你将学习并更好地理解这个主题、风险、利弊以及潜在回报。因此,建议采取双轨政策,即制定政策和进行实验。你希望在大数据挖掘中取得成功,因此了解主要风险并尽早预测它们是有好处的:

  1. 技术驱动的旅程:国际数据集团(IDG)的研究表明,组织在大数据技术上的投资中,超过一半与大数据应用以及这些应用对流程、工作方式和人员的影响无关。这与我们在实践中的经验相符。因此,始终从业务角度启动一个项目,并确保不是技术在主导,而是你的业务策略、关键绩效指标和业务流程。

  2. 数据的复杂性和规模:照片、文本、机器数据和视频图像可能很快就需要数 TB 的存储空间。虽然如今存储空间的成本不高,但容量仍然是一个问题。此外,由于大数据分析可能会很快因数据的复杂性而陷入困境。因此,你需要大量的 “强大” 和智能计算能力来建立一个良好的系统,以便你能够快速且敏捷地开发应用程序。该系统必须是可扩展的、面向未来的和可测试的。

  3. 数据质量:在许多组织中仍然是一个很大且未被充分暴露的问题。计算表明,由于数据质量差,大约 10% 的组织利润会消失。在大数据挖掘中,数据质量的挑战变得更大,因为投入生产的机器学习模型通常像一个黑箱一样运行。此外,在数据湖中,几乎没有可用的设施来全面测量和提高数据质量。

  4. 伦理与大数据隐私:当涉及到个人数据的处理和分析时,法律法规,如《通用数据保护条例》(AVG),可能会很快成为成功应用大数据机器学习的一个相当大的障碍。

大数据和人工智能(AI)或大数据上的机器学习是两个独立的领域,但它们之间有很多关联。如果你想在没有人工智能的情况下分析大量数据,那么作为一名数据分析师,你可能会花费数年时间试图将其全部整合在一起。如果你想在没有机器学习模型的情况下分析大量非结构化数据,错误的几率会很大,或者你会很快忽略一些事情。而且,人工智能会获得更多价值,因为你的算法可以用大量数据进行训练。这增加了获得可靠且准确模型的机会。大数据与人工智能的结合产生了完美的相互作用,增加了你在大数据分析中取得显著成功的机会。

分析大数据是新的黄金,新的石油。

如果你的大数据中隐藏着一些众所周知的黄金宝藏呢?例如,你的公司比你的竞争对手提前一个月知道一种商品的价格将会上涨。或者飞机发动机的传感器数据显示,在特定高度和特定不利天气条件下,飞机在飞行中出现了故障。在许多情况下,发动机故障意味着灾难。正是这些关键应用以及新的商业模式使大数据变得极其有趣。因此,大数据也被称为新的黄金或新的石油,因为它代表着巨大的价值。

通过大数据管理发现新机会并降低风险。

或者想想对数百万张精神病患者的相机图像进行分析。然后,你可以构建一个模型,让你能够快速注意到患者的异常行为。这些模式告诉你,某个特定的人很有可能 “脱离正轨”,并带来所有相关风险。通过及早发现这种行为变化,你可以及时进行(额外的)检查和控制。这就是为什么组织渴望挖掘那座数据之山、发现机会并管理风险。我们希望帮助你基于大数据预测分析从被动工作转变为主动工作。

大数据解决方案和分析工具

只有选择并获得正确的工具、仪器和解决方案,你才能成功挖掘出黄金或其他有价值的资源。大数据也是如此。你需要特殊的大数据解决方案或大数据分析工具来存储、分析和可视化大量数据或非结构化数据。这些大数据工具分为三类:

  1. 存储大数据:想象一下Hadoop、MongoDB、Apache Cassandra 和 NoSQL,你将数据存储在数据湖中。
  2. 处理数据:这是一个中间层,用于快速分析数据,无论数据存储在数据湖的何处。例如,Knime 是一个非常适合数据集成的开源环境。
  3. 分析、报告和可视化大数据:这类软件允许你深入挖掘数据、进行分析并创建数据可视化、算法和报告。例如 Datawrapper、Watson Analytics 和 FusionCharts。

市场上还有更多的大数据分析工具:IBM Cognos Analytics、SAP BusinessObjects、SAP HANA、Microsoft BI 和 Power BI、Oracle BI、WebFOCUS、Style Intelligence、Yellowfin、Pentaho BI、SAS、BOARD、MicroStrategy、QlikView、Qlik Sense、Sisense、TIBCO JasperSoft、Tableau Software、Infor Birst。

大数据分析成功案例

越来越多的关于大数据与分析的成功案例正在迅速涌现。这些案例也不再被媒体忽视。阿姆斯特丹消防队使用大数据预防火灾的事实已经登上了荷兰国家电视台的晚间新闻和英国广播公司。阿姆斯特丹警方能够在罪犯犯罪之前将其抓获,这使他们在 “荷兰最聪明的组织” 中登上领奖台。

都柏林市利用大数据优化交通流量这一事实,对所有公共机构来说都是一个光辉的榜样。他们现在更好地理解到,你可以极大地改善对公民的服务。简而言之:这些成功案例令人信服地表明,大数据预测分析可以区分愚蠢的组织和聪明的组织,区分失败者和成功者。

本文转载自 雪兽软件
更多精彩推荐请访问 雪兽软件官网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2218502.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C#教程笔记

C#开发的程序依附.NET平台 编译器->IL中间语言->CLR->机器指令 .NET CORE平台 跨平台 .cs后缀名 快捷键 CtrlKD格式化CtrlL或CtrlX删除一行CtrlY反撤销cwTab快速生成命令行输出Ctrl空格或CtrlJ获取提示///方法注释CtrlMO代码全部折叠CtrlML代码全部展开 上升沿0变1 安…

硬件产品经理的开店冒险之旅(下篇)

缘起:自己为何想要去寻找职业第二曲线 承接上篇的内容,一名工作13年的普通硬件产品经理将尝试探索第二职业曲线。根本原因不是出于什么高大上的人生追求或者什么职业理想主义,就是限于目前的整体就业形式到了40岁的IT从业人员基本不可能在岗…

Spring Boot技术栈在电影评论网站中的应用

2相关技术 2.1 MYSQL数据库 MySQL是一个真正的多用户、多线程SQL数据库服务器。 是基于SQL的客户/服务器模式的关系数据库管理系统,它的有点有有功能强大、使用简单、管理方便、安全可靠性高、运行速度快、多线程、跨平台性、完全网络化、稳定性等,非常…

【论文阅读】Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting

文章目录 概要阅读背景知识引言创新之处 研究方法概述方法部分的核心模块多尺度打补丁(Multi-Scale Patching)Mamba:全局模式专家Local Window Transformer(LWT):局部变化专家长短期路由器(Long…

Aatrox-Bert-VITS2部署指南

一、模型介绍 【AI 剑魔 ①】在线语音合成(Bert-Vits2),将输入文字转化成暗裔剑魔亚托克斯音色的音频输出。 作者:Xz 乔希 https://space.bilibili.com/5859321 声音归属:Riot Games《英雄联盟》暗裔剑魔亚托克斯 …

LLM:参数高效微调方法总结

可以分为基于适配器、基于提示的。 一、基于适配器的方法 其核心思想是在预训练模型的各层之间插入轻量级的额外模块——适配器,通过仅微调这些适配器模块以适应特定的下游任务,同时冻结原模型的大部分参数。 1.Lora系列 原始的Lora LoRA 表示通过低…

DFS算法经典题目: Leetcode 51.N皇后

DFS算法经典题目: Leetcode 51.N皇后 题目详情如下 这道题如果使用暴力解法的话,需要对N个皇后放在每个地方都进行枚举并判断是否可行,时间复杂度非常之高,肯定是过不了的,所以需要使用其他解法。 根据题目可以知道每…

RT-Thread之STM32使用定时器实现输入捕获

前言 基于RT-Thread的STM32开发,配置使用定时器实现输入捕获。 比如配置特定通道捕获上升沿,该通道对应的引脚有上升沿信号输入,则触发捕获中断。 一、新建工程 二、工程配置 1、打开CubeMX 进行工程配置 2、时钟使用外部高速晶振 3、配置…

链栈的基本算法

初始化一个链栈 &#xff0c;将元素e&#xff0c;f&#xff0c;g&#xff0c;h&#xff0c;i依次进栈&#xff0c;获取栈顶元素&#xff0c;将栈中元素依次出栈并输出 链栈的表示 既采用链式储存结构实现的栈 具体代码 #include <stdio.h> #include <stdlib.h>…

安装TDengine数据库3.3版本和TDengine数据库可视化管理工具

安装TDengine数据库3.3版本和TDengine数据库可视化管理工具 一、下载安装包二、解压安装包三、部署四、启动服务五、进入数据库六、创建数据库、表和往表中插入数据七、测试 TDengine 性能八、使用数据库九、查询数据十、TDengine数据库可视化界面 一、下载安装包 TDengine-cl…

RHCE——例行性工作

准备工作 [rootlocalhost ~]# cat /etc/yum.repos.d/aliyun.repo [ali-app] nameali-app baseurlhttps://mirrors.aliyun.com/centos-stream/9-stream/AppStream/x86_64/os/ gpgcheck0[ali-base] nameali-base baseurlhttps://mirrors.aliyun.com/centos-stream/9-stream/Base…

Qt - 地图相关 —— 1、加载百度在线地图(附源码)

效果图 开始加载地图 1、百度地图开发者网站中注册,获取密钥 2、进入开发文档中 将下图内容保存到本地文件中,文件名为"index.html"文件即可。接着将内容中的“您的密钥”改为刚刚创建应用出来的AK密钥即可。 然后双击打开若在浏览器中正常看到下图右侧地图则说明没…

现代物流管理:SpringBoot技术突破

3系统分析 3.1可行性分析 通过对本智能物流管理系统实行的目的初步调查和分析&#xff0c;提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本智能物流管理系统采用SSM框架&#xff0c;JAVA作为开发语…

excel判断某一列(A列)中的数据是否在另一列(B列)中

如B列如果有7个元素&#xff0c;在A列右边的空白列中&#xff0c;输入如下公式&#xff1a; COUNTIF($B$1:$B$7,A1), 其中&#xff0c;$B$1:$B$7代表A列中的所有数据即绝对范围&#xff0c;A1代表B列中的一个单元格.

SpringBoot中大量数据导出方案:使用EasyExcel并行导出多个excel文件并压缩zip后下载

文章目录 前言一、控制器层代码二、服务层代码三、代码亮点分析 前言 SpringBoot的同步excel导出方式中&#xff0c;服务会阻塞直到Excel文件生成完毕&#xff0c;如果导出数据很多时&#xff0c;效率低体验差。有效的方案是将导出数据拆分后利用CompletableFuture&#xff0c;…

《计算机视觉》—— 换脸

效果如下&#xff1a; 完整代码&#xff1a; import cv2 import dlib import numpy as npJAW_POINTS list(range(0, 17)) RIGHT_BROW_POINTS list(range(17, 22)) LEFT_BROW_POINTS list(range(22, 27)) NOSE_POINTS list(range(27, 35)) RIGHT_EYE_POINTS list(range(36…

linux下使用VSCODE 调试python

文章目录 一、环境准备安装VS Code&#xff1a;安装Python&#xff1a; 二、环境测试创建Python文件&#xff1a;编写测试代码运行 Linux下使用VS Code调试Python 在Linux环境中进行Python开发时&#xff0c;一个高效、直观的调试工具是必不可少的。Visual Studio Code&#xf…

Web Hid Api浏览器读取IC卡号Js源码,无需插件支持

本示例使用的读卡器&#xff1a;https://item.taobao.com/item.htm?spma21dvs.23580594.0.0.52de2c1bW5eU3X&ftt&id615391857885 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-trans…

【R语言】gadm全球行政区划数据库

我R语言不熟、也不是学GIS的。仅用于记录。 文章目录 一、gadm 数据库简介二、R 语言示例三、sf 包的函数 一、gadm 数据库简介 GADM&#xff08;全称Database of Global Administrative Areas&#xff09;是一个高精度的全球行政区划数据库&#xff0c;它包含了全球所有国家和…

数字图像处理:图像去噪

图像去噪–总变差去噪&#xff08;TV&#xff09; 引用资料&#xff1a; 1.全变分图像去噪算法&#xff08;TV&#xff09; 2.TV去噪的理解 总变差去噪 (Total Variation Denoising) 是一种经典的图像去噪方法&#xff0c;能够有效减少噪声&#xff0c;同时保留图像的边缘细节…