目录
- 一、OLAP概述
- (一)OLAP的定义
- (二)OLAP的12条准则
- (三)OLAP的简要准则
- (四)OLAP系统的基本结构
- 二、OLAP的多维分析操作
- (一)切片
- (二)切块
- (三)旋转
- (四)钻取
- 三、OLAP系统的分类
- (一)多维OLAP
- (二)关系OLAP
- (三)多维OLAP与关系OLAP的比较
- (四)混合OLAP
- 四、OLAP、DW与DM的关系
- (一)OLAP、DW与DM的联系
- (二)OLAP、DW与DM的区别
- (三)OLAP与DW的关系
- (四)OLAP与DM的关系
- (五)DOLAM决策支持系统方案
一、OLAP概述
(一)OLAP的定义
20世纪80年代开始,联机事务处理(OLTP)的数据库系统已在企事业单位得到广泛的应用。为了获得及时准确的决策信息,在 OLTP 数据库系统中增加了一些简单的分析处理功能,形成一种 “事务处理与分析处理” 合二为一的系统。由于传统数据库的事务处理方式和决策的分析处理对数据需求存在明显的冲突,导致传统数据库系统无法很好地支持决策分析活动。数据库之父 E.F.Codd 及其同仁于1993年提出了联机分析处理(On-Line Analysis Processing,OLAP)的概念,并为 OLAP 系统提出了12条广为人知的准则,使 OLAP 系统与 OLTP 系统或 OLTP 混合决策支持功能的系统区分开来。
定义 5-1(OLAP委员会):从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业多维特性的数据称为信息数据。
定义 5-2(OLAP委员会):联机分析处理(OLAP)是一种软件技术,它使分析人员(管理人员或执行人员)能够从多种角度对信息数据进行快速、一致、交互地存取,以达到深入理解数据的目的。
定义 5-3(简):OLAP 是针对特定问题的联机多维数据快速访问和分析处理的软件技术、能帮助决策者对数据进行深入的多角度观察。
以信息数据为分析对象,以 OLAP 技术开发的数据分析系统称为联机分析处理系统,简称 OLAP 系统或 OLAP 工具或 OLAP 产品。OLAP(联机分析处理)作为一个系统或一类产品已同 OLTP(联机事务处理)明显地区分开来。OLAP 的用户是企业中的专业分析人员及管理决策人员,他们在分析业务经营数据时,希望从不同的角度来审视业务的衡量指标是一种很自然的思考模式。
例如,分析宾馆入住数据,可能会综合时间周期、宾馆辖区、旅客来源、是否有前科等多种因素,主要为社会公共安全部门的决策提供服务支持。而 OLTP 则是是对传统数据库进行联机的日常操作,比如对入住记录、常住人口的查询和修改,主要为宾馆、派出所等单位的特定数据管理和应用服务。
(二)OLAP的12条准则
E.F.Codd 的意思是,即使一个软件系统有决策支持功能,若不满足这12条准就能称为 OLAP 系统的衡量标准。现阶段许多人仍将其作为评价和购买 OLAP 产品的参考标准。
准则1 多维概念的视图(multidimensional conceptual view)
从用户的角度来看,整个企业的数据视图本质上是多维的(时间,地理,品种),因此 OLAP 的概念模型也应该是多维的。
准则2 透明性(transparency)
用户不必关心表格或图显的数据的来源,只用 OLAP 工具查询数据。OLAP系统应该是开放系统的一个部分,当按用户需要将 OLAP 系统嵌入到结构的任何地方都不影响 OLAP 分析工具的性能。
准则3 存取能力(accessibility)
OLAP 系统应该有能力利用自有的逻辑结构访问异构数据源,并且进行必要的转换以提供给用户一个连贯的展示。此外,OLAP 系统不仅能进行开放的存取,而且还能提供高效的存取策略。
准则4 稳定的报表性能(consistent reporting performance)
当数据的维度和数据综合层次增加时,OLAP 系统为最终用户提供报表的能力和响应速度不应该有明显的降低和减慢。
准则5 客户/服务器体系结构(client/server architecture)
OLAP 系统应该是一种客户/服务器(C/S)应用结构,并有足够的智能保证多维数据服务器能被不同的客户应用工具以最小的代价访问。当时普遍使用的文件/服务器(F/S)结构,现在普遍 C/S 或 B/S 结构。
准则6 维的等同性(generic dimensionality)
每个数据维度应该具有等同的层次结构和操作能力,比如对每个维度都可以进行 “切片”、“切块” 和 “旋转” 等相同的操作。
准则7 动态的稀疏矩阵处理能力(dynamic sparse matrix handling)
多维数据集的稀疏特性,即大多数单元格的值都是零;如果存储所有这些零值数据就会占用大量的存储空间;OLAP 系统应该为这种具有稀疏性的多维数据集的存储和查询分析提供一种“最优”处理能力,既尽量减少零值单元格的存储空间,又保证动态查询分析的快速、高效。
准则8 多用户支持能力(multi-user support)
OLAP 应提供并发获取和更新访问,保证完整性和安全性的能力。
准则9 非受限的跨维操作(unrestricted cross-dimensional operations)
多维数据之间存在固有的层次关系,这就要求 OLAP 工具能自己推导出而不是最终用户明确定义出相关的计算。
准则10 直观的数据操纵(intuitive data manipulation)
OLAP 工具应为数据的分析操纵提供直观易懂操作界面,比如 “下钻”、“上卷”、“切片” 等多维数据分析方法都可以通过直观、方便的点击操作完成。
准则11 灵活的报表生成(flexible reporting)
OLAP 提供的报表功能应该以用户需要的任何方式展现信息,以充分反映数据分析模型的多维特征。
准则12 非受限维与聚集层次(unlimited dimensions and aggregation levels)
OLAP工具不应该为多维数据的维度数量和维度层次数量设置任何限制。
说明:这个要求对系统要求有点高,可以适当降低要求。因为在实际应用中,多维数据集的维度数量很少超过15个,维度层次也通常在6个以内。
(三)OLAP的简要准则
Codd 的12条准则提出后,引起软件供应商不少争议。有的说只要9就足够了,还有说不够,甚至 Codd 也补充了6条准则。随着人们对 OLAP 理解的深入,有些学者提出了更为简要的定义,比如,一个独立于软件厂商的 OLAP 研究机构 OLAP Report 提出了简称 FASMI 的定义或简明准则,也得到业界的广泛认可。
定义5-4 联机分析处理(OLAP)就是共享多维信息的快速分析,即 FASMI(Fast Analysis of Shared Multidimensional Information)。
从定义可以发现,FASMI 本质上概括了 OLAP 的5个主要特征。
(1)快速性(Fast):用户对 OLAP 系统的快速反应能力有很高的要求,希望系统能在5秒内对用户的大部分分析要求做出反应。
① 快速性需求必须在线响应才能完成,故又称为在线性;
② 快速性还需要一些专门的技术支持,如专门的数据存储结构、大量数据的预先计算、还有硬件特别设计等。
(2)分析性(Analysis):OLAP 系统应能处理与应用有关的任何逻辑分析和统计分析,例如,连续时间序列分析、成本分析、意外报警等。此外,还应使用户无须编程就可以定义新的计算,并作为查询分析的一部分,以用户理想的方式给出报告。
(3)共享性(Shared):OLAP 系统必须提供并发访问控制机制,让多个用户共享同一 OLAP 数据集的查询分析,并保证数据完整性和安全性。
(4)多维性。OLAP 系统必须提供对数据分析的多维视图,包括对层次维和多重层次维的完全支持。事实上,多维分析是分析企业数据最有效的方法,是 OLAP 系统的灵魂和关键特性。
(5)信息性。不论数据量有多大,也不管数据存储在何处,OLAP 系统应能及时获得信息,并且能管理大容量信息。
在以上5个特性中,快速性(在线性)和多维性就是 OLAP 系统的两个关键特征。
(1)在线(On-Line)性:表现为对用户请求的快速响应和交互操作,它是通过使用 C/S 或 B/S 应用结构实现的。
(2)多维分析(Multi-Analysis):通过建立多维数据模型实现对数据的多维分析,是 OLAP 技术的关键所在。
(四)OLAP系统的基本结构
根据 OLAP 的定义和12(5)条准则,可以给出 OLAP 系统的基本体系结构。它不仅描述了 OLAP 系统的所有组成部分,还描述了从数据源中抽取数据、形成分析使用的多维数据集,通过 OLAP 分析工具对其进行分析,并为用户提供各种分析结果等组成部分之间的相互关系。
数据源与数据仓库的数据源类似,并根据决策需要将其抽取集成为多维数据集,再利用 OLAP 分析工具对多维(信息)数据集进行各种分析,并为用户提供分析结果,支持用户的决策。由图5-1发现,OLAP 系统的开发人员不仅要开发多维数据的多维分析工具软件,还必须开发多维数据抽取和多维数据集成软件方法。
如果每个 OLAP 系统的建立都直接从业务处理系统的数据源中抽取数据来构造多维数据集,将增加数据抽取部分的工作量;导致数据源和结论的不统一;加大 OLAP 系统的维护工作量;缺乏对元数据的有效管理;加大OLAP系统的开发投入。OLAP 系统基本结构与数据仓库系统体系结构不同,前者没有明确给出多维数据的管理工具。
二、OLAP的多维分析操作
OLAP 的多维分析操作包括对多维数据集的切片(slice)、切块(dice)、下钻(drill-down)、上卷(roll-up)、旋转(pivot)等数据分析方法,以便让用户能从多个角度、多个侧面观察数据,从而深入地了解包含在数据中的有用信息,以支持企业的决策。
(一)切片
定义 5-5 在 n(≥3) 维数据集的某一维上,指定一个维成员的选择操作称为切片(Slice)操作,其结果称为 n(≥3) 维数据集的一个切片。
若对一个n维数据集进行切片操作,则将得到一个n-1维的数据集。多维数据集的维度越高,人们对其理解就越困难。切片操作是对多维数据集进行降维处理,方便用户理解多维数据蕴藏的决策信息。
例 5-1 对于图5-2所示的3维数据集(n=3),若在时间维上指定维成员 “2月”,请给出其切片结果。假设每个单元格的数值都大于零,它表示某省、某月入住某个辖区内宾馆的人次数。
解:根据切片的定义5-5,对3维数据集进行切片操作的结果是一个2维数据集。因此,可得在时间维指定维成员 “2月” 的切片结果如表5-1所示。它表示2月份从广东、湖南、江苏、福建等四省来的旅客,入住鹿城等辖区宾馆的人次数。
定义 5-6 从 n(≥2) 维数据集中选择一个2维子集的操作称为局部切片(Partial/local Slice)操作,所得的2维子集称为一个局部切片。
即对任意 n(≥2) 维数据集,其局部切片操作结果永远是2维数据集。为方便理解,可将定义5-5的切片操作称为全局切片操作。由于2维数据是人们最易接受和理解的多维数据展示方法,因此,局部切片操作是最常用的一种多维数据分析方法。对 n(≥3) 维数据集进行局部切片操作,必须先指定 n-2 个维度成员以获得由剩余两个维度组成的二维数据集,然后从这个二维数据集中获得局部切片。
例 5-2 对于图5-5所示的3维数据集,请给出两个局部切片结果。
解:根据局部切片的定义,只要从三维数据集中任意选择一个2维子集都是一个局部切片。
(1)如果在时间维上指定维成员 “2月”,则表5-1的任何一个连续2维子集都是3维数据集的一个局部切片,表5-2就是一个局部切片。
(2)如果在地理维上指定维成员 “广东”,则图5-3是3维数据集的另一个局部切片。
(二)切块
定义 5-7 在n(≥3)维数据集的某一维上指定若干维成员的选择操作称为切块(Dice)操作,其结果称为n维数据集一个切块。
对于n(≥3)维数据集,如果某一维上指定的维度成员数大于等于2,则切块操作的结果仍然是一个n维数据集,仅当指定一个维度成员时,其切块操作的结果是一个切片。即切片是切块的特殊情况。
例 5-3 对于图5-2所示的3维数据集,如果在时间维度上指定 “2月”、“3月” 两个维成员,试给出相应的切块结果。
解:由于在时间维度上指定了 “2月”、“3月” 两个维成员,对于图5-2所示3维数据集切块操作,相当于去掉了 “1月” 份有关的单元格,其结果如图5-3所示。
定义 5-8 在n(≥3)维数据集上选择一个三维子集的操作称为长方体切块(Dice)操作,其操作结果称为n维数据集的一个长方体切块或局部切块。
从定义5-8可知,n(≥3)维数据集的切块永远是3维数据集,即长方体。图5-4就是图5-2的一个长方体切块。
(三)旋转
定义 5-9 在多维数据集展示的时候,对其改变维的显示方向的操作称为旋转(Rotate),它相当于解析几何中坐标轴的旋转,故又称转轴(Pivot)。
多维数据集的旋转结果仍然是原先的多维数据集,它仅仅改变了数据集展示的方位,方便用户观察数据。例如,对图5-2展示的3维数据集,将其沿着时间维反时针旋转90度,就得图5-5所示的3维数据集。
(四)钻取
多维数据集的钻取(Drill)就是改变数据所属的维度层次,变换数据分析的粒度,它是下钻(drill down)和上卷(roll up)这两个相反操作的统称。多维数据集钻取(Drill)操作的目的是方便用户从不同维度的不同层次观察多维数据。下面分别给出其详细定义。
定义 5-10 对多维数据选定的维度成员,按照其上层次维度对数据进行求和计算并展示的操作称为上卷(roll up)操作,简称上卷。
由上卷的定义可知,它是在某一个维度上,将低层次的细节数据概括为高层次的汇总数据,以增大数据的粒度,并减少了数据单元格的个数或数据的维度。
例 5-4 对于图5-2所示的3维数据集,若在时间维的 “月份” 层次,上卷为 “季度” 的层次,试给出其上卷结果。
解:对图5-2所示的3维数据集,把时间维的 “1月”,“2月”,“3月” 上卷恰好为 “季度” 的层次,即 “1季度”,其上卷结果为一个2维数据集(表5-4)。
下钻的操作与上卷相反,它从由当前的汇总数据深入到其下一层次的细节数据,以便用户观察到更为细粒度的数据,其定义如下。
定义 5-11 对多维数据选定的维度成员,按照其下层次维度对数据进行分解的操作称为下钻(drill down)操作,简称下钻。
对表5-4所示 “1季度”这个数据集,将其下钻到下层次 “月”,就得到图5-2所示的3维数据。为了更为直观的理解下钻,我们另外给一个2维数据下钻的例子予以说明。
例 5-4 设表5-5表示 “2月” 辖区宾馆各省人员入住情况,且时间维度 “月” 层次的下层为 “旬”,请给出下钻的结果。
解:因为每月有上、中、下三个旬,因此,其下钻结果如表5-6所示。
三、OLAP系统的分类
OLAP 系统的类型是按照多维数据集存储管理的数据库系统来划分的,主要有多维 OLAP 系统,关系 OLAP 系统和混合 OLAP 系统,并分别简记为 MOLAP,ROLAP 和 HOLAP。
(一)多维OLAP
多维 OLAP,即 MOLAP 使用专门的多维数据库(Multi-Dimensional DataBase,MDDB),比如 Caché 来存储和管理 OLAP 需要的多维数据集,因此 MOLAP 又称为多维联机分析处理。
- MOLAP 将 OLAP 所用到的多维数据在物理上存储为多维数组的形式,即 “立方体” 的结构。
- 维的属性值被映射成多维数组的下标值或下标的范围,而汇总数据作为多维数组的值存储在数组的单元中。
- 因 MOLAP 采用了新的存储结构,从物理层实现多维存储,所以又称为物理 OLAP(Physical OLAP)。
(二)关系OLAP
使用传统的关系数据库(Relational DataBase,RDB)来存储多维数据集,并通过纯关系数据库管理系统(RDBMS)对其进行管理控制,对应的 OLAP 系统称为关系 OLAP 系统(Relational OLAP),简记为 ROLAP。纯关系数据库管理系统通过一些软件工具或中间件实现多维数据管理,物理层仍采用关系数据库的存储结构,因此也称为虚拟 OLAP(Virtual OLAP)。
ROLAP 将分析用的多维数据用星形模型或雪花模型表示,并存储在关系数据库中。将一些主要的计算结果,比如计算工作量比较大的查询视图等,都直接存储在关系数据库中。RDMBS 还针对 OLAP 特点作了相应的优化,比如并行存储、并行查询、并行数据管理、基于成本的查询优化、位图索引等。
(三)多维OLAP与关系OLAP的比较
ROLAP 和 MOLAP 都能够实现联机分析处理的基本功能,但两者在查询效率,储空间、维度管理等许多方面各有千秋(表5-7)。用户在选择 OLAP 类型时,即实现方式的时候,既要考虑产品内部的实现机制,同时也应考虑假设分析、复杂计算、数据评估方面的功能,为实现决策支持系统打下坚实的基础。
(四)混合OLAP
1、混合OLAP的概念
因为 MOLAP 与 ROLAP 各自拥有不同的优点和缺点,且它们的结构也完全不同。为避免 OLAP 的设计人员在两种结构之间选择时陷入困境,人们提出了混合 OLAP(Hybrid OLAP, HOLAP)的概念。
HOLAP 至今没有一个正式严格的定义,普遍认为 HOLAP 应该不是 MOLAP 与 ROLAP 结构的简单组合,而是这两种结构技术优点的有机结合,充分利用 ROLAP 的灵活性和数据存储能力以及 MOLAP 的多维性和高效率。
一般地,可以将 HOLAP 用以下公式表示。
H O L A P = λ ∗ M O L A P + ( 1 − λ ) ∗ R O L A P HOLAP= λ*MOLAP+(1- λ)* ROLAP HOLAP=λ∗MOLAP+(1−λ)∗ROLAP
其中 λ ∈ ( 0 , 1 ) λ∈(0,1) λ∈(0,1)。
根据 OLAP 应用的不同优化目标,若应用优先考虑效率和时间,那么 MOLAP 的比重就应该加大,即 λ ∈ ( 0.5 , 1 ) λ∈(0.5, 1) λ∈(0.5,1),即将常用的汇总数据都采用多维数据库来存储。若应用对存储容量要求较高,那么应该充分利用关系数据库的存储能力,把大部分统计数据用 ROLAP 的模式来存储,即 λ ∈ ( 0 , 0.5 ) λ∈(0, 0.5) λ∈(0,0.5)。
2、HOLAP的实现
目前,HOLAP 都使用一种准多维数据库管理系统(RDBMS)实现多维数据集的管理控制。所谓准多维数据库管理系统,是在传统关系数据库管理系统基础上,增加了多维数据集的存储管理和查询分析功能而形成的数据库管理系统,而不是仅仅通过一些软件工具或中间件来实现多维数据集的关系数据库存储管理。
现在市场上的商品化数据库管理系统,比如 ORACLE、SQL Server,DB2 等都早已在它们先前的纯关系数据库管理系统中增加了多维数据管理和分析的功能,形成市场广泛接受的准多维数据库管理系统。
四、OLAP、DW与DM的关系
(一)OLAP、DW与DM的联系
- OLAP(联机分析处理)、DW(数据仓库)与 DM(数据挖掘)是相互独立而又相互联系的3个概念。
- 相互独立:它们在不同的时间,由不同的学者或组织分别提出,因此它们在基本内涵、解决的主要问题和使用的基本技术上都有很大的区别。
- 相互联系:它们都是为了支持企业的管理决策这一中心任务,即共同目标而提出的。因此,我们可以用 “一个中心,三个基本点” 来形容 DW、OLAP 与 DM 之间的联系。
(二)OLAP、DW与DM的区别
OLAP 与 DW 不仅提出的学者和时间不同,还有三个巨大区别。
1、概念的内涵不同
DW 是一个综合历史数据的集合,核心是数据本身的存储管理;OLAP 是对大量数据进行联机分析处理的软件技术,其核心是数据的快速多维分析——多维分析工具。
DW 可作为 OLAP 的一个数据分析对象,但 OLAP 的分析对象不局限于 DW,还可以是其它数据对象,比如数据库、数据文件、XML 文档、Excel 工作表等。同样地,DW的分析工具也不限于 OLAP 工具,还有数据挖掘以及其它统计分析工具。
2、解决的问题不同
DW 概念是为了解决集成数据本身的组织和存储问题而提出。OLAP 概念是为了对数据进行多维统计分析与展示而提出来的,它要解决的问题是数据的联机(快速)分析处理方法。
3、使用的技术不同
DW 的数据组织和存储主要使用数据库及其相关技术,而 OLAP 主要应用软件工程和统计分析技术,开发联机的多维分析和可视化软件。但在对数据进行分析之前,OLAP 工具需将数据源中的数据抽取出来组成立方体(多维数据集),才能对其进行切片、切块、下钻、上卷等多维分析。
同 DW 和 DM(数据挖掘)之间的关系一样,DW 不是为 OLAP 而生的,反过来 OLAP 也不是为 DW 而活的。当然,这句话对于 OLAP 与 DW 之间的关系同样适用。
综上所述,OLAP、数据仓库和数据挖掘三者之间的主要区别(表5-8)。
(三)OLAP与DW的关系
- 虽然 OLAP 技术并不是针对 DW(数据仓库)而提出的,但因其强大的数据分析能力和丰富的数据呈现方法,OLAP 可以成为数据仓库一个十分重要的分析工具。
- 虽然 DW 也不是针对 OLAP 而提出的,但因其业已集成的数据抽取工具和面向主题的数据集合,如果 OLAP 把 DW 作为一个优质数据源,就能真正体现 “快速性、多维性、分析性、信息性、共享性” 等 OLAP 特性。
- OLAP 可以是 DW 分析工具的一部分,但不是必须的一个部分。
- DW 是 OLAP 工具一个优质的分析数据源,但并不是唯一的分析数据源。
- 将 OLAP 作为 DW 的一个主要分析工具,已成为目前 DW 系统的标准配置,即数据仓库(DW)+ 联机事务处理(OLAP),就是一个支持决策的数据仓库系统,亦即基于数据仓库的决策支持系统。
(四)OLAP与DM的关系
OLAP 是一种验证型多维数据分析工具,有一定的局限性。
1、很难发现数据之间的重要影响因素
OLAP 只能罗列多维数据集中业已存在的事实,如去年2月江苏来龙湾入住宾馆的有233人次,但很难从发现其中重要的影响因素。
2、 不能发现数据之间的重要关联
OLAP 告诉用户系统过去和当前的事实,却不能告诉用户这些事实之间潜在的重要关联关系。数据挖掘(DM)恰好具有从大量不完全的、有噪声的、模糊的或者随机的数据中提取人们事先不知道、但又有潜在使用价值的模式和知识(如关联规则、分类规则等)的能力。
因此, OLAP 与 DM 各有所长,互为补充。DM 作为一种发掘型数据深度分析技术恰好弥补了 OLAP 分析能力的弱点。如果能将二者结合起来,发展一种建立在 OLAP 和 DM 基础上的新型分析挖掘技术,将更能适应实际决策分析的需要。
OLAM(On-Line Analytical Mining,联机分析挖掘)正是这种结合的产物。并具有如下几个特点:
(1)OLAM 是充分发挥计算机优势,进行大量运算及分析对比,产生诸如切片、切块、下钻、旋转等操作,形成新的模式。
(2)OLAM 是一个多维的、深层次的挖掘工作阶段。
(3)OLAM 是一个面向主题,形成新知识的层次阶段。
(4)OLAM 具有多维分析的在线性、灵活性和数据处理的深入性。
(5)OLAM 通过与 WEB 技术的结合,特别适合数据量巨大、信息类型复杂、表现形式繁多的网络信息资源分析。
(五)DOLAM决策支持系统方案
因为建立在事务数据库环境中的决策支持系统(DSS),无法满足企业管理决策支持的需求,人们才分别从不同的角度提出了数据仓库、联机分析处理和数据挖掘等技术,以期提高决策支持的能力。随着 DW 技术,OLAP 技术和 DM 技术的不断发展,人们才找到结合三者优点的决策支持系统解决方案 DOLAP(图5-7)。
OLAM 本质上是 DW 与 OLAP 工具、DM 工具和其它查询工具集成的数据仓库系统(DWS),它具有如下几个特点。
(1)数据来源丰富多样。数据来源不仅包含企业各个部门的数据,而且包括企业外部的数据,如法律法规、市场信息、竞争对手的信息,以及各级政府发布的统计数据等;不仅有结构化的数据,也有非结构化的数据。
(2)数据管理环境优良。通过专门的 ETL 工具,对数据来源中的数据进行集成、转换、综合,并重新组织形成面向决策主题的数据集合,再将 DWMS 作为数据进行有效存储和管理的良好环境。
(3)查询分析高效多样。OLAP 服务器存储的多维数据集,使 OLAP 分析方法和多维数据结构实现了分离,用户不仅可以对多维数据进行切片、切块、钻去等多种分析比较,效率也得到了提高。
(4)挖掘分析支持决策。数据挖掘工具能够自动地发现数据中潜在而有价值的模式或知识,并为企业发展和市场预测提供决策支持。
(5)决策支持扩展性好。系统新的决策工具嵌入系统预留了接口,以保证系统决策支持的可扩展性。
未来真正的 DOLAM 应该是 DW+OLAP+DM 的深度融合,并应该具备如下特点。
(1)速度更快效率更高:各个方面都应具有更高的执行效率和更快的响应速度。
(2)粒度层次选择随意。能方便地对 DW 中任何一部分数据或不同抽象级别的数据进行挖掘,甚至还可以直接访问存储在底层数据库里的数据。
(3)挖掘算法动态扩展。用户可以在 DOLAM 中动态选择挖掘算法,动态地切换挖掘任务,还可以添加新的算法和其它 DW 应用工具。
(4)标签回溯功能方便。标签功能即是标记用户操作状态的功能,回溯指的是退回到上次操作状态。DOLAM 的这种功能可以避免用户因任务的多样性和算法的复杂性而在超立方体中 “迷失方向”。
(5)分析挖掘结果可视。可视化有利于实现人机交互式处理,而且有利于用户对数据分析和数据挖掘结果的理解。
(6)界面友好交互力强。DOLAM 不仅要具备友好的人机界面,还应具备较强的人机交互能力,实现人与协同工作,提高决策支持能力。