OLAP七篇

2024-09-05

OLAP 篇1

关键词:联机分析处理,医院信息系统,数据仓库,决策支持

目前,就全国范围来看,大多数的医院信息系统HIS(Hospital Information System)应用面向联机事务处理(OLTP),使医院的日常业务管理发生了巨大变革,信息流、资金流、物流的收集、存储、分析开始实现电子化、网络化,以提高医院的工作效率和质量。但是面对如此驳杂且日益丰富的信息仓库,医院管理者却无从着手分析理解、获取数据库中有价值的知识,传统的指标体系和分析决策方法没有发生根本变化,更无从进行病员、疾病、科室及医务人员的规则分析和研究,数据无标准存放和历史数据浪费严重。如此一来,如何充分分析利用历史数据资源,为医院的管理决策服务,成为了一个具有相当理论及实际意义的课题。而建立医院数据仓库和利用OLAP分析处理技术,进行数据的存储和组织,完成复杂的查询和数据分析操作正是解决以上问题的新途径[1]。

1 OLAP技术理论

1.1 OLAP概述

联机分析处理OLAP(On-line Analytical Processing)最早是由关系数据库技术的泰斗之一的E.F,Codd在1993年提出的[2]。OLAP技术可以对存放在数据库中的数据进行分析处理,并以多维视图的形式呈现给数据分析人员、管理人员等需要对原始数据进行统计分析的用户。这种以“事实”为中心的多维视图比传统的二维关系模型更能真实、直观反映出现实中某一实体与其它实体之间的关系。因此,用户通过OLAP技术这一快捷而又可靠的途径可以方便的对数据进行更深入的访问,获取隐藏在海量数据中的重要信息。

OLAP建立在数据多维视图的基础上,它的特征可以概括为多维性、快速响应性、分析性、信息性和共享性,系统能在5秒内对用户的大部分分析要求做出反应,处理与应用有关的任何逻辑分析和统计分析,为用户提供数据的多维视图分析,不论数据量和数据存储的复杂度,系统都能实现层次维和多层次维的完全支持,及时获得并管理大容量信息[3]。

1.2 维和度量值

OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”的概念。维是人们观察数据的一些特定角度,是考虑问题的一类属性集合。维是主题的基础,是对主题的一种类型划分。例如患者的职业分布可以是一个职业维;患者或者疾病的地理分布可以构成地理维;而各种疾病治疗过程产生的相应费用情况则可以构成费用维。

维的层次是指人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的多个描述方面。一个维往往具有多个层次。例如,时间维可以向下再划分出年、季度、月份、日期等不同的层次;地理维可以划分为省、市、县、乡等层次。

维成员是维的一个具体的取值,也就是将数据项在某维中位置的描述称为维成员。如果一个维是多层次的,那么该维的维成员是在不同维层次的取值的组合。例如,我们假设时间维具有年、月份、日期这三个层次,分别在年、月份、日期上各取一个值组合起来,就得到了时间维的一个维成员,即“某年某月某日”。

度量值是一组值,它提供了最终用户感兴趣的数值,描述了数据的实际意义。度量值是所分析的多维数据集的中心值,是最终用户浏览多维数据集时重点察看的数字数据,是各维交叉的结合点。一般情况下,度量值是一个数值度量指标,例如患者人数、住院费用值等。

1.3 数据组织方式

在OLAP技术视线中,数据组织方式非常重要,它将直接影响数据分析和挖掘的速度和质量。目前OLAP工具在实现上,对多维数据集的数据组织、存储和管理采用分区方式,分区能够使得多维数据集中的各种数据分布在多台服务器中,每个分区对应一种存储模式,一般有多维OLAP(MOLAP)、关系OLAP(ROLAP)和混合型OLAP(HOLAP)三种存储模式[4]。

MOLAP利用一个专有的多维数据库来存储OLAP分析所需的数据,数据以多维方式存储,进行“旋转”、“切片”等操作,以多维方式显示数据。MOLAP结构的主要优点是能够快速的响应用户的分析请求,但预处理操作是预先定义好的,灵活性较差。

ROLAP在功能上类似于MOLAP,由事实表和维表以关系型结构(“星型结构”或“雪花结构”)进行多维数据的表示和存储。ROLAP结构的主要特点是灵活性强,用户可以动态定义统计或计算方法,

HOLAP结构是将MOLAP和ROLAP两种结构的技术优点有机地结合起来,满足用户各种复杂的分析请求。目前业内公认实现HOLAP结构较理想的方法是利用一个多维数据库存储高级别的综合数据,同时用RDBMS存储细节数据。

2 医院信息OLAP技术研究

2.1 数据仓库主题

医院信息OLAP技术实现采用微软Microsoft SQL Server提供的基于COM的可扩充OLAP接口,通过一系列的服务程序支持数据仓库应用。OLAP系统设计的重点在于如何组织数据仓库中的综合性数据。因此,数据仓库主题模型的设计是实现OLAP分析的关键前提,若主题确定模糊或不准确会直接影响后期的OLAP分析决策效率。根据背景医院目前的信息数据情况和决策管理需要,已针对病员信息和住院费用制定如图1所示的数据仓库主题模型[5,6]。

2.2 维、层次、类的设计

医院信息OLAP是从医院决策者的角度进行数据分析,这里的“角度”也就是立方体中的维度。OLAP维度和层次结构非常关键,设计不好就会增加维的数目和存储空间,从而延长查询时间。在主题明确、数据源规整的数据仓库建立之后,就可以针对数据源的状况对数据立方体的维和层次进行分析设计[7]。

一般来讲,维分为共享维和非共享维两类。被两个或两个以上的多为立方体共同拥有的维称为共享维,只在一个多为立方体中使用的维称为非共享维。在医院信息OLAP系统中,根据数据仓库主题模型,时间维是被所有立方体所共有的,设为time共享维;医生维被诊治立方体、病人立方体和住院立方体所拥有,设为doctor共享维;同理还有diagnosis共享维、department共享维和occupation共享维。而民族、输血、外伤等维度是被病人、诊治等立方体私有的,设为非共享维[7]。

在Analysis Services中,维一般都包含着层次的关系,每个层次包含一个或多个维成员,多个层次中的维成员排列成多个层次,成员的这种层次结构称为概念分层,它为实现将底层概念映射到高层概念提供了方法,也为数据的上卷、下钻操作提供了基础。

在维的层次设计中,以时间和费用共享维为例,医院信息多维分析系统只要求选择一个时间体系,层次设计为:年、季度、月、日,费用维包含三个层次:总费用、单项费用、杂费,在单项费用中,又分为床位费、护理费、西药费、中药费、放射费、输血费、手术费等几个层次,如图3。

实现多维数据操作的另一种方法是使用维内元素的“类”,即按一定的标准对维成员进行划分,对应类的一个属性,就有对维成员的一个划分,类属性不同,得到的划分也不同。医院信息分析中,病人维的概念分层如图3所示,按性别可以划分为男、女;按来源可以划分为县内、县外、省内、省外等。

年龄维、费用维等维的成员值均为数值型,取值较多,为了便于统计、易于理解,可以对这些维进行离散化,即数字概化,从而节省存储空间。例如,对病人年龄维进行概化,可将年龄分为0~15岁、15~25岁、25~40岁、40~60岁、60~90岁五个离散分类。

2.3 建立多维数据集

多维数据集是数据的一种多维结构,由维度和度量值的集合进行定义。本文利用SQL sever2000 Analysis service创建多维数据集,将存储在关系数据库中的数据转换为具有实际含义并且易于查询的业务信息。管理关系数据以进行多维使用的最常用方式是采用星型架构,它是由一个事实数据表和链接到该事实数据表的多个维度表组成。多维数据集的生成过程是将星型结构中的各个维表同事实表进行连接,得到一个多维数据表,然后在此基础上进行各角度的预计算,将计算结构存储形成多维数据库。图4是针对病人住院费用主题的多维视图。

2.4 实现多维数据分析

2.4.1 数据切割、钻取和旋转分析

OLAP的多维分析是指对多维数据集中的数据用切片、切块、旋转等方式分析,使用户从多个角度、多个侧面去观察数据仓库中的数据,深入地了解数据后面所蕴含的信息,挖掘有效的管理决策模式。

1)多维的切片和切块

在多维分析过程中,对多维数据集的某个维选定一维成员,这种操作就称为切片。进行切片的目的是使人们能够更好的了解多维数据集,通过切片的操作可以降低多维数据集的维度,使人们能够将注意力集中在较少的维度上进行观察。与切片类似,如果在多维数据集上对两个或两个以上维选定其维成员的操作,就称为切块。

在医院信息分析中,不同时间段、不同职业病人各种疾病发病情况关联分析,就可以在“疾病、时间、职业”三维立方体中进行切块和切片,得到不同职业病人各病种的发病率分布情况,如图5。

2)钻取

钻取包括向下钻取(Drill-down)和向上钻取(Drill-up)操作。下钻是为了得到细节数据,上钻是为了隐藏细节而得到综合数据。钻取的深度与维所划分的层次相对应。下钻是从更具体的抽象层次呈现数据。上钻是从更一般的抽象(或粒度)层次呈现数据,它是下钻的逆过程。

课题背景医院是“视觉第一中国行动”定点医院,医院每年接受大量白内障手术患者,医院对白内障的患者数目和相关病发、病原疾病发病率给予了较大关注。下表利用钻取的方法,分析了白内障及相关病种发病率时间分布。

3)旋转

如表2所示,旋转操作是将多维数据集中的不同维进行交换显示,得到不同视角的数据,使用户更加直观地观察数据集中不同维之间的关系。下表以医院管理层关心的各时间段医生与诊疗病人数目关系为例,从不同视角分析其三者间有机联系。

2.4.2 基于MDX制作OLAP分析

多维表达式MDX(Multi Dimensional Expression)是为访问Analysis Services多维数据结构Cube所开发出来的语言,它提供的强有力功能[8]。在医院信息多维分析中,根据主题和决策需求,可以利用MDX进行各种有临床和管理价值的分析,下面以不同类型病人比例,费用管理分析为例说明。

1)分析2004、2005、2006三年农民门诊住院病人比例:

多维数据集构建完成后,用户可以利用Microsoft SQL Server提供的数据透视表服务,通过客户端应用程序连接OLAP组件,完成多维数据的取还。

4 结论

该文在数据仓库规整数据结构、明确数据分析主题的基础上,根据医院自身的特点和需要,建立了分析维度、层次,组织了多维数据集,实现了多维视图分析,并通过用户、知识人工选择的方式,完成了主题数据的钻取、旋转操作,从不同角度得到了管理者关心和需要的分析,为深层次数据挖掘和知识发现提供了必要的决策支持。

参考文献

[1]林杰斌.数据挖掘与OLAP理论与实务[M].北京:清华大学出版社,2003.

[2]高人伯,陈文伟,数据仓库和OLAP的数据组织[D].计算机世界技术专题版,1998,(22).

[3]朱凌云.医学数据挖掘技术、方法及应用[J].生物医学工程杂志,2003:20(3):559-562.

[4]Tony Bain.SQL Server 2000数据仓库与Analysis Services[M].卲勇,译.北京:中国电力出版社,2003.3

[5]袁小珍,许南山.基于数据仓库的生产智能控制和管理决策系统[J].微计算机信息,2004:20(9):104-105.

[6]宋中山,成林辉,吴里峰.一种基于关联规则的增量数据挖掘算法[J].湖北大学学报(自然科学版),2006,28(3):240-243

[7]Germán Creamer,Sal Stolfo.A link mining algorithm for earnings forecast and trading[J].Data mining and knowledge discovery.2009,6(18).

OLAP 篇2

信息作为现代企业的资源,占据着越来越重要的地位。面对纷繁复杂的市场竞争,众多企业立足于多年积累的数据和自身核心业务,大量的日常业务数据需要管理。为此,文章主要论述了企业建立数据仓库的必要性,并从需求分析、数据路线、技术路线、应用路线等方面介绍了企业数据仓库的建设,为企业信息化的进一步发展奠定基础。

1 企业建立数据仓库的必要性

1.1 企业应用数据仓库的目标

企业应用数据仓库的目标大致分为以下几类:1)将数据仓库作为企业的核心业务进行发展。出于这种目标的企业有两类:数据仓库工具厂商和服务性的信息咨询机构;2)利用数据仓库来优化企业内部的管理和控制;3)利用数据仓库为企业开拓新的商业机会,主要包括帮助市场、销售部门对客户情况和市场情况进行分析,帮助企业决策制定者提供辅助决策信息。具体来说,包括信息服务的智能化、知识化、个性化和敏捷化。

1.2 企业建立数据仓库的必要性

对一个企业来说,是否有必要建立数据仓库以及建立哪种数据仓库应该基于企业内部结构的复杂度和企业产品的市场规模以及客户规模来进行综合判断。一般来说,市场规模与客户规模大、内部结构复杂度高的企业有必要建立优化企业内部管理和控制以及为企业增加商业机会的数据仓库;市场规模与客户规模小、内部结构复杂度高的企业有必要建立有户企业内部管理和控制的数据仓库;市场规模与客户规模大、内部结构复杂度低的企业有必要建立为企业增加商业机会的数据仓库。市场规模与客户规模小、内部结构复杂度低的企业就没有必要建立数据仓库。

2 企业数据仓库的建立

数据仓库系统的建立是一个由数据驱动、以技术支撑并满足应用需求的不断增长和完善的开发过程。数据仓库包括数据、技术、应用三方面的要求,只有把良好的数据模型、合理的技术和准确的应用设计结合起来,形成一套有效的方法,才能建立一个成功的数据仓库系统。因此,数据仓库系统的建立应从数据、技术、应用三方面展开,然后进行数据仓库的部署,最后将数据仓库投入运行。其基本框架如图1所示。

2.1 数据进入数据仓库的过程与建立数据仓库的步骤

2.1.1 数据进入数据仓库的基本过程

操作数据向数据仓库的移动包括:抽象、转换、清洗、加载和集成。抽象是指从操作型数据库中选择并提取所需要的字段;转换是指为来自数据源的所有数据指定常用的格式和名称;清洗是指尽量更正错误的数据;加载是指把净化过的数据载入数据仓库中;集成是指预运算任何期待的数据仓库数据的汇总以供日后使用。

2.1.2 建立数据仓库的步骤

收集并分析业务需求;建立数据模型和数据仓库的物理设计;定义数据源;选择数据仓库技术和平台;从操作型数据库中提、转换和净化数据并将其加载至数据仓库;选择访问和报表工具;选择数据库连接软件;选择数据分析和数据展示软件;更新数据仓库。

2.2 需求分析

2.2.1 设计需求分析

由于数据仓库的需求非常模糊,因此,数据仓库的设计将需求分析过程贯穿于整个设计过程之中。数据仓库开发过程中每一阶段的每一项任务都是由需求决定的。在设计阶段所作的每一个决策不管是数据设计、体系结构设计、基本结构配置,或者是信息传递方法的安排,都受到需求的影响。因此,需求分析将决定开发过程的每一个阶段。

2.2.2 用户需求分析

1)企业的管理者希望能对该公司的销售部和运作部的信息进行汇总分析,让管理者知道在一段时间内所有客户的销售情况,分析出销售量最大的前几位客户,这些客户的销售旺季与销售淡季的差额是多少,能使企业针对不同需求量提早做好该方面的准备,从而达到工作效率最高、客户满意度最好的目的;2)企业管理者希望对每个客户的销售数量、成本、利润进行分析,确定哪些是贡献量较大的客户,以便对这些客户提供适当的优惠;3)企业管理者希望对每笔运作费用进行分析,建立销售数量、成本、利润之间的数学模型,为管理者确定一个合理的价格提供数学依据。

2.3 数据路线

数据路线涉及模型设计和数据装载接口设计,用以满足对数据的有效组织和管理。模型设计包括:1)概念模型的设计,概念模型的设计主要是对原有数据库系统中的数据进行集成和重组而形成数据集合。首先需要了解企业需要什么类型的数据,已经具备那些数据,然后在考虑应当如何建立数据仓库系统的概念模型。通过概念模型设计,可以确定主要的主题并划分各个主题的边界。概念模型的设计是在较高的抽象层次上的设计,因此建立概念模型时无需考虑具体技术的限制;2)逻辑模型的设计,通过逻辑模型的设计,可以对当前要装载的主题的逻辑实现进行定义,并将相关的内容记录在数据仓库的元数据中;3)物理模型的设计,通过物理模型设计,可以确定数据的存储结构、存放位置、索引策略及存储分配。

数据封装接口设计,编制数据装载程序,此程序包括数据装载功能和数据综合功能。数据装载功能负责数据的抽取、转换、清洗、集成,数据综合功能负责将集成的细节数据转化为不同综合层次的数据。

2.4 技术路线

数据仓库系统是由完成不同功能的各种不同的部件组成的,各自提供相应的服务。在数据仓库基础构造的支持下,完成所有的功能和服务。数据仓库的基础构造包括所有使体系结构得以实施的基本元素,如服务器硬件、早做系统、网络软件、数据库软件、局域网和广域网、供应商所提供的工具、人员、工作步骤和培训等。技术路线将确定数据仓库的基础构造,这种基础构造包括两类:操作型基础构造和物理基础构造。

2.4.1 操作型基础构造

操作型基础构造包括人员、流程、培训和管理软件。这些人员和流程不是开发数据仓库所需要的,而是这些数据仓库运行所需要的,他们支持数据仓库的管理并保持其工作效率。

2.4.2 物理基础构造

从系统构成的硬件的角度考虑,物理基础构造主要包括计算机平台和一系列工具。计算机平台是数据仓库所必需的,平台的组成部分包括基本的硬件和操作系统、网络及其软件等。各种工具完成各部分的不同功能和服务的体系结构。而数据仓库系统必须在计算机平台环境中运行。

2.5 应用路线

数据仓库的应用设计主要包括OLAP模型设计、数据挖掘模型设计和信息传递设计等。建立数据仓库的最终目的是为了进行分析决策,是为了应用服务的。用户可以使用数据仓库进行联机分析处理,快速、灵活地进行大量的复杂查询处理,并从多个角度直观地观察查询结果,从而准确掌握企业的运营状况,了解市场需求,制定正确方案,增加收益;用户还可以使用数据仓库进行数据挖掘,从数据中发现隐含的有用的信息或知识。为了使数据仓库能更好地满足用户的不同需求,需要设计合理的OLAP模型和数据挖掘模型。

2.5.1 OLAP模型设计

通常我们需要对阶段任务中涉及的维度进行总体分析,然后针对每一个需求确定OLAP展现主题的维度和度量事实,最终为每个主题建立一个OLAP模型。在OLAP模型维度中包括主题维度和非主体维度。主题维度需要通过数据挖掘才能获得结果的维度。不需要进行数据挖掘就能获得结果的维度称为非主题维度。其设计过程如图2所示。

总体维度分析涉及所有维度的总体分析,通常需要完成:1)总体维度的设计,需要确立与任务相关的所有维;定义维度的层次及名称;确定层次信息的位置和目标维;2)主题维度设计,对于每一个需要进行OLAP展现的主题,从总体中选择需要的维度;3)确定事实表度量变量和数据粒度,例如,选择变量Product N来度量产品数量,选择变量time来度量产品生产日程。数据粒度将会影响事实表的大小。4)定义OLAP模型,如果采用MOLAP(多维联机分析处理),OLAP模型可以使用标准星型结构,然后连接维度和事实表以生成一个多维数据表,在此基础上建立多维数据库。如果采用ROLAP(关系联机分析处理),可以使用雪花结构,然后根据用户经常使用的查询和观察角度进行预连接并保留其所产生的中间表。

2.5.2 数据挖掘模型设计

建立数据挖掘的核心是拥有一个良好的数据挖掘模型。根据应用范围、用户最终目标和数据类型选择合适的数据挖掘方法,确定合适的模型,并将其参数校正到最优值。对同一个数据挖掘问题通常有多种可用的技术。可以利用不同的算法和方法建立多个模型,然后在这些模型中选择最符合实际需求的模型,最后利用此模型进行数据挖掘。不同的模型对数据的要求不一样,因此在数据挖掘前需要根据不同的算法要求转换数据的格式;同时为了简化模型结构,需要进行变量选择,去除同目标变量强相关的变量和毫无关系的变量。为了优化模型参数和验证模型,需要将数据划分成训练集、验证集,使用训练集优化模型中的参数,并使用验证集对模型进行评价,数据挖掘模型设计如图3所示。

2.5.3 信息传递

建立数据仓库的目的是为用户提供战略性的决策信息。只有将这些信息很好地传递给用户,才能极大地发挥数据仓库的作用。数据仓库的成功实施取决于信息传递工具的优劣。信息传递工具应当是简单易用的,这样用户才会更加积极地使用数据仓库。

数据仓库与用户的信息传递方式是交互式的,用户从数据仓库获取数据并将其转换成有用信息,以实现这些数据的全部价值。一般情况下,用户和数据仓库之间有六个阶段的交互过程:依据数据仓库中的数据来定义需求;从数据仓库中选择合适的数据子集;用计算机来操作丰富的子集;将行业含义和所选择的数据结合起来;将结果构建成适合用户的格式;用各种方式来表示结构化结果。用户信息接口如图4所示。

2.6 数据仓库的部署

完成上述各项工作之后,进入数据仓库的部署阶段,主要包括用户认可、初始装载、桌面准备和初始培训等内容。

1)用户认可,主要工作是测试所有用户的界面和系统的性能。只有当系统的性能能够满足用户的需求时,应开始初始装载。

2)初始装载,运行数据接口的驱动程序,将数据载入数据仓库。数据仓库管理员需要对数据的质量、可靠性、安全等方面进行综合考虑。必要时,应该进行数据质量评估、加密数据和建立索引等处理。

3)桌面准备,桌面准备的主要工作是安装好所需要的所有桌面用户工具,测试每位客户的计算机。为用户准备好计算机使用平台才能够让数据仓库真正发挥作用。

4)初始培训,初始培训的目的是让用户了解如何使用数据仓库。培训工作包括学习数据仓库的相关概念、内容和数据访问工具,建立对初始用户的基本支持,让用户意识到数据仓库真正为他们服务。

2.7 运行维护

数据仓库建好后就要投入使用、并且要进行维护。任何信息工程项目的实施几乎都离不开运行维护,即使在数据仓库还没有完成投入运行之前,同样需要经历运行维护工作。第一,用户使用数据仓库中的数据进行分析决策,即在数据仓库中建立DSS应用,与此同时开发人员也积极收集用户反馈的意见。第二,开发人员根据用户的反馈意见不断完善系统,配合系统的正常运行。这些日常活动通常涉及过时的数据转换成历史数据,清除不再使用的数据,并调整粒度级别以改进系统。

3 结束语

采用数据仓库的数据模型设计,可解决企业经营管理中存在的一些问题,提高了企业的信息共享度和集成度,提高企业生产效率和经济效益。更快的响应市场需求,做出迅速、准确的决策,提高竞争能力。

摘要:随着世界经济全球化的发展,企业间的竞争日趋激烈。企业如何在最短的时间内、以快速、最少的投入赢得市场机遇,开发用户乐于接受的新产品,并以最快的方式销售产品,是企业在竞争中获胜的关键。文章主要论述了企业建立数据仓库的必要性和企业数据仓库的建设过程。

关键词:企业,数据仓库,建设

参考文献

[1]Sperley.企业数据仓库规划建立与实现[M].北京:人民邮电出版社,2000.

[2]叶嘉.企业数据仓库的体系结构和建设[J].广西科学院学报,2005,21(4):306-308.

[3]蓝箭,金红梅.基于OLAP的企业数据仓库分析模型设计与实现[J].自动化仪表,2006,27(5):8-12.

[4]马秋菊,孙庆群.基于企业模型和数据仓库技术的机械制造业信息集成方法研究[J].制造业自动化,2010,32(7):17-18,28.

[5]李志军,马刚.数据仓库与数据挖掘的原理及应用[M].高等教育出版社,2008.

基于OLAP的税收征管应用研究 篇3

关键词:税收征管;OLAP;应用

中图分类号: TP23.4 文献标识码: A 文章编号: 1673-1069(2016)28-51-2

0 引言

税务信息化处理和建设如何实现是当前我国税务部门在其改革和扩建过程中的关键问题。针对当前我国现有的信息技术手段,在税收征管中应用OLAP能够更好地满足税务部门组织之间各个结构框架的信息建立和传递,从而跨地点、跨部门、同时间进行信息操作,加强税务工作的创新和变革,有效地在我国税收征管工作中发挥作用。多维数据处理技术虽然在税收征管中已经开始应用,但是针对其应用过程中如何发挥作用最大化的研究较少。因此,本人研究基于OLAP的税收征管应用,具有其研究价值和意义。

1 OLAP及其特征

1.1 OLAP概念

OLAP又称之为面向交易处理过程,其主要是利用信息技术手段,将前台接受的用户数据信息快速输入计算机处理中心,并且在非常短时间内,快速的输出处理结果,从而对用户的操作做出反应,实现联机事物的处理[1]。因此,OLAP的应用范围较为广泛,其不仅能够应用于企业信息管理中,还能够应用于会计核算和审计工作中。随着OLAP技术的逐渐成熟,其应用的范围也更加广泛。OLAP技术与传统数据传输和处理技术最直接的差异在于其能够及时及地的对数据进行处理和分析,实现及时及地回答。因此,又被称之为实时系统(Real time System)[2]。

1.2 OLAP特征

OLAP处理结果是其系统性能的唯一标致。因此,在应用OLAP过程中也需要对其应用环境和应用目标进行确定。根据当前OLAP在实际应用过程总结其特征主要包含四点。第一,具有大量并发用户定期添加和数据修改的特征。由于OLAP在其数据处理上采用多维数据分析的方式,能够同时对多个用户端的信息进行处理,并且及时的与数据库储存的信息进行更新和完善,从而修改数据特征。第二,具有反应随时变化单位状态的作用。由于OLAP在其数据用户端和终端之间实现的是快速传输的模式。因此,其随机应变性较强,能够随时变更单位状态的信息。但是,该种特征中的缺点是不能够保存变更前的历史信息。第三,具有校验事物大量数据的特征。OLAP数据信息均存储在数据库内,其系统内具有辅助的文件组和RAID(独立磁盘冗余阵列)系统,从而能够完成海量信息的存储和处理[3]。第四,具有较高的安全性和完整性。其主要是指OLAP对并发性的要求较高,对事务的要求严格符合安全性和完整性原则,可以实现不同用户端对同一个用户账号信息的处理。

2 OLAP在税收征管中的应用

OLAP在税收征管应用过程中需要必须当前我国税收的市场环境和现状对其进行系统建立,这样才能实现税收征管系统的合理性、统一性、时效性和完善性。当前我国税收征管系统中基于OLAP进行多为数据处理的过程主要分为建立税收征管数据库和数据块和根据实际用户信息实现OLAP数据处理两个过程。

2.1 建立税收征管数据库和数据块

税收征管数据库和数据块的建立主要分为建立OLAP数据库Revenue_dss、创建OLAP共享维度、建立数据块Tax_revenue三个过程。第一,建立OLAP数据库Revenue_dss。利用OLAP Services 为OLAP管理器提供界面,从而是用户端能够选择OLAP和使用OLAP服务器。并且在OLAP管理器控制系统中通过数据扩展建立数据库Revenue_dss,实现数据库的创建[4]。第二,创建OLAP共享维度。其主要是为了进一步保障OLAP税务征管数据库能够实现实时的拓展性。因此,需要在其系统内部建立相关的共享维度,实现OLAP税收征管系统的跨地点、跨部门、同时间的信息技术操作。当前我国税收征管在其OLAP维度创建的过程中一般需要建立时间维度、征收机关维度、行业维度、纳税人维度、税种维度。一些高级的系统内部还会增加建立税务审计维度、税务信息共享维度等内容。OLAP通过建立不同的维度实现我国税收征管的统一性、合理性和共享性。第三,建立数据块Tax_revenue。其主要是创建不同的数据块实现OLAP数据存储信息的整合和预算,最终完成数据查询、分析、输出的过程。建立数据块Tax_revenue分为逻辑数据块Tax_revenue和物理数据块Tax_revenue两种。逻辑数据块Tax_revenue在税收征管中创建的流程为“分析CUBE向导—选择数据表collection_fact—选择事实表的数值字段Nysk,Sjsk—选择合理数据库维度—建立Revenue_ dss 数据库”[5];物理数据块Tax_revenue在税收征管中创建的流程为“分析OLAP数据存储向导—选择数据块的物理存储类型—确定ROLAP存储方式—聚合数据关联—建立物理数据块Tax_revenue”。

2.2 根据实际用户信息实现OLAP数据处理

OLAP在成功构建数据仓库后,需要对税务数据进行多维分析,采用切片、切块、上卷分析不同行业内部企业的税收规模、增幅、税负及其变动情况,进而分析出税收风险企业[6]。利用SQL SERVER 2005中集成的OLAP工具对数据仓库进行数据钻取,并配合使用EXCEL查询多维数据库集,分析结果以饼状图进行结果展示。第一,对确定数据库元。根据数据库中各个维度表的数据需求,对税务信息管理系统需求进行分类,确定数据库中的两个分层的数据源,从而存储于税收征管数据库中,并且将其转换成文本、word、excel等形式的外部存贮数据源。数显内部存储和外部存储数据源之间的转换。第二,实现数据的抽取和清洗。在数据库数据源确立后,为保障OLAP税收征管数据库中数据库与数据库之间的统一性、有效性、完整性,建立区域阶段性数据抽取、验证、清洗的系统流程,完成数据处理的快速性和高效性。第三,完成税收征管数据库内信息的转换和加载,实现终端传送和处理。当OLAP数据系统内实时阶段区域内后,进一步对数据进行转换,将其加载到外部数据库中,利用SQL SERVER 2005的数据转换服务器,完成数据的迁移任务,最终实现基于OLAP的税收征管体系的建立。

3 总结

随着大数据时代的到来,云信息服务系统应用成为我国各行各业普遍技术手段。我国税收征管体系建立过程中利用OLAP进行多维数据处理,量化我国税收征管的风险,从而实现根据用户输入信息选取税负,计算用户所需上交的税负金额。此外,基于OLAP的税收征管体系中能够根据不同行业对用户征收税务,使用不同的征管应对措施,及时调整税收征管措施,实现我国税收征管系统的合理化、科学化和高效化。

参 考 文 献

[1] 陈兵.新经济时代从“以票控税”到“信息管税”的转向——由B2T税收征管问题引发的思考[J].法学,2014,12(02):76-88.

[2] 孙开,沈昱池.大数据——构建现代税收征管体系的推进器[J].税务研究,2015,01(03):96-99.

[3] 程平,张砾.大数据时代云会计在税收业务中的应用[J].会计之友,2015,22(01):127-130.

[4] 方韶玲.ACCESS数据库在税收征管审计中的应用[J].福建电脑,2013,02(04):123-124.

[5] 王向东,王文汇,王再堂,等.大数据时代下我国税收征管模式转型的机遇与挑战[J].当代经济研究,2014,08(03):92-96.

数据分析中OLAP应用心得 篇4

1.什么时候用多维度OLAP?

多维度OLAP在让数据透彻的同时,也会造成数据碎片的风险。因此,使用OLAP时一定要有目的的使用,比如在验证或推翻假设检验时对比项(控制组)的选取,抑或探求某一维度下具体指标值。OLAP可以增加数据的分辨率,但也会使数据碎片化。在数据贪心心理的作祟下,谨记在明确目标下再使用多维度OLAP。

在没有明确目的,但要探索数据时进行OLAP,一定要先在目前计算性能允许下,设定好数据的分辨率(如一层维度)。通过这样来利用OLAP对数据进行探索。

OLAP大多数时是供整个团队来自助查询的,这部分功能不宜过分延伸,因为数据计算成本很难让团队成员充分理解,

一言以蔽之:OLAP要么在有明确目的下,要么在明确限定下使用。

2.OLAP的目的:

随之而来的问题是OLAP的明确目的是什么? 如果说数据分析的目的是为判断决策提供逻辑依据,那么OLAP即是为这些逻辑依据提供分析用的原材料。一个指标值突然的显著变化,我们的目的绝不是说看遍所有维度,所有水平的指标表现,这是一种低效的方法。而宜用相关性高的维度中可能影响的水平下之数据,去推翻或支撑备择假设。如A指标在过去30天内环比波动在3%以内,但最近2天波动却达到10%,对这种异常首先进行假设,而后利用OLAP所呈现的更细粒度数据对假设进行论证或推翻。

OLAP 篇5

据统计, 2010年全国普通高校毕业生规模将达630余万人, 加上往届未实现就业的, 高校毕业生就业形势十分严峻。如何充分利用各种资源, 帮助毕业生顺利就业已经成为各高校的一项重要任务。通过查阅相关资料, 目前在高校教育领域, 对数据仓库和OLAP技术的应用有一些研究, 但大都是一些探索和尝试, 并没有真正将二者应用到高校教育信息决策分析当中。通过设计和开发基于数据仓库的高校就业信息OLAP分析系统, 可以从就业信息中找出潜在的有价值的规律, 用以合理安排招生计划、改善专业设置、制定就业指导策略, 从而提高毕业生就业率。这对于进一步保持和扩大生源、提高高校竞争力具有重要的现实意义。

1 关键技术

数据仓库的概念最早由Bill Inmon在1991年出版的“Building the Data Warehouse”一书中最早提出:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合, 用于支持管理决策, 为高层人员提供决策支持服务。

联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的。OLAP是数据仓库系统的主要应用, 支持复杂的分析操作, 侧重决策支持, 并且提供直观易懂的查询结果。随着高校积累的相关数据日益增多, 以及数据仓库和OLAP技术的发展, 我们就可以把这两种技术运用到就业信息决策分析当中, 从而为就业决策提供支持。

2 系统功能需求

目前, 大部分高校都有就业信息系统, 积累了大量的毕业生数据。但是, 这些系统只能提供简单的查询、管理功能, 无法进行复杂的统计分析, 更无法发现其中潜在的有价值的信息。而近年来, 大学生就业难度和就业成本日益增大, 部分专业出现过剩现象, 如何优化专业设置、提高教学质量、制定有效的就业指导策略已经成为各高校的中心工作之一。学生就业情况是反映学校教学质量、专业设置是否合理的重要指标, 所以必须通过对大量的历史就业数据的分析, 找出相关规律和发展趋势, 合理调整专业设置、提高教学质量。

该系统主要实现以下分析功能。

2.1 专业与就业关系分析

随着社会需求的不断变化, 高校设置的学科专业也在不断的调整, 各专业的就业情况及发展趋势可以反映最近几年该专业在社会上的需求状况。通过对专业和就业关系的分析, 可以指导专业设置和招生计划。

2.2 就业区域与就业关系分析

目前, 学生的就业压力日益增大, 就业成本不断增加, 其中住宿、交通费用成为就业成本的主要组成部分。很多学生由于缺乏对各地就业情况及人才需求状况的了解, 经常盲目地跑多个地方, 导致费用增加。通过分析就业区域和就业的关系, 可以发现各地区对各专业人才的需求状况, 从而指导学生根据自己的专业情况合理选择就业区域。

2.3 单位性质与就业关系分析

随着国家相关政策的出台, 毕业生就业出路逐渐呈现多样化趋势, 单位性质种类不断增加。通过对单位性质与就业关系的分析, 可以得到不同性质单位的人才需求状况, 从而指导高校部门做相关工作, 为学生就业提供指导性意见。

3 数据仓库构建

数据仓库是不同于传统OLTP系统的一种新的数据组织和管理方式, 它是面向分析和决策的, 所以数据仓库的构建是整个联机分析系统的核心。根据系统功能要求, 通过对就业相关信息的分析, 需要建立就业主题数据仓库。该系统以某高校07、08两个年度的毕业生数据为依据进行分析。

3.1 数据仓库构建流程

数据仓库的构建必须以各高校积累的大量历史就业数据为基础, 由于历史原因, 这些数据往往有不同的格式, 如Exce表格、VF数据库、文本文件等, 并且存在数据缺失及异常情况, 所以必须对原始数据进行抽取、转换、清洗和装载, 最终构建成数据仓库, 这一过程是ETL过程。

3.2 数据仓库模型

通过分析, 就业主题数据仓库模型如图1所示:

3.2.1 事实表

事实表是多维数据模型中最主要的表, 用于存放所要分析的对象 (度量) 和其他相关维表的键值。表1是就业数据仓库模型的事实表。

3.2.2 维表

维表中所存放的一般是对事实表中度量的描述, 每个维表都包含一个单一的主键, 该主键和事实表中的外键构成主外键的关系, 该系统中一共用了7个维表:性别维表、专业维表、毕业日期维表、学历层次维表、单位性质维表、单位所在地维表、生源所在地维表。

4 数据分析与展示

数据仓库和OLAP立方体建成以后, 可以有多种方式进行多维数据分析, 如专业OLAP展示工具 (ProClarity) 、利用Microsoft Excel中的PivotTable功能、编程实现。为方便起见, 本系统初期采用Microsoft Excel中的PivotTable功能进行多维数据的分析。由于涉及到毕业学生私人信息, 所以具体分析表格不便提供, 只能给出分析结论。

4.1 专业与就业关系分析

通过分析, 该校各专业中, 就业率从高到低依次是:计算机科学与技术、网络专业、外语专业、会计专业、艺术专业。同时发现计算机科学与技术就业率虽然最高, 但是学生生源数量却最少, 并呈现逐年减少的趋势, 这一现象给学校决策者提供了一个重要信息, 需要立即采取适当措施加以应对。同时根据各专业就业情况适当调整招生计划。

4.2 就业区域与就业关系分析

从学生就业区域来看, 就业人数从高到低为:郑州、深圳、广州、北京、上海。由此可见该校毕业生在郑州就业的人数相对较多, 所以招生就业部门就可以在以上地区开展公关工作, 并为学生做好相关就业服务工作, 方便毕业生就业。

5 结束语

通过数据仓库和OLAP技术, 我们可以得出专业、就业区域和单位性质与就业的关系, 从而指导就业工作。目前该系统还不够完善, 下一步工作将对其做进一步扩展, 包括数据分析的范围、数据分析的展示方式, 同时还计划将数据挖掘技术应用其中, 进一步发挥该系统在就业乃至整个高校教育工作中的决策支持作用。

摘要:通过对就业信息相关数据的分析, 建立以就业信息为主题的数据仓库, 并在此基础上构建多维数据模型, 进行多维数据分析和展示, 找出毕业生就业规律, 为合理安排招生计划、改善专业设置、制定就业指导策略提供依据。从而辅助学校管理者进行决策分析, 提高学校竞争力。

关键词:数据仓库,OLAP,就业信息

参考文献

[1]余丽静.基于数据仓库的高校就业决策支持系统研究[J].贵州教育学院学报 (自然科学) , 2008 (12) .

[2]胡海员.基于数据仓库的招生辅助决策支持系统研究[J].西南民族大学学报 (人文社科版) , 2005 (7) .

OLAP 篇6

关键词:数据仓库,OLAP,话务分析,Web展示

近年来, 电信市场竞争日益激烈, 行业发展面临着新的机遇和挑战。2008年, 我国对电信业实施了大规模的重组, 形成了三家电信运营商的鼎足之势。必将使竞争更加激烈。与此同时, 客户对电信服务质量的要求越来越高, 用户规模庞大, 并且目前通信网络中各种网元设备类型多, 系统版本多, 涉及厂家多, 网络结构复杂。这些都给通信网络的运行管理增加了一定的难度。改组以后, 现有网管系统已经难以满足新形势的业务需求, 主要表现在: (1) 专业网管历史数据堆积, 数据价值等待发掘, 网管数据仍然分散在各个不同的子系统当中, 难以形成统一运营信息视图, 急需集成共享。 (2) 满足一线运维人员需求的同时, 还需满足战术层、战略层等各种角色用户的需求。 (3) 缺乏对运营信息的有效分析和全面掌控, 无法有效地提供个性化、差异化的服务。

因此需要建立一套综合的话务数据分析系统, 整合现有各专业网管中的数据, 充分利用运营商积累的丰富经验和宝贵数据, 为其提供各种强有力的分析手段, 从海量数据中发现有用的信息, 为网络建设和维护提供有用信息, 为网络运营决策提供支持。

1 数据仓库与OLAP技术

1.1 数据仓库技术

数据仓库的概念首先由W.H.Inmon提出的, 他把数据仓库描述为一个“面向主题的、完整的、非易失的、不同时间的数据集合, 用于支持决策管理”[1]。数据仓库功能强大的一个原因是它能够集成来自不同数据源的数据。这种集成能力意味着可以利用数据仓库以一个统一的视图来合并系统内的不同数据。

数据仓库的最根本特点是存放海量数据, 而且这些数据并不是最新的、专有的, 而是来源于其它数据库的。数据仓库的建立并不是要取代数据库, 它是建立在一个较全面和完善的信息应用基础上的, 用于支持高层决策分析[2]。数据仓库是数据库技术的一种新的应用, 相对于操作型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。

1.2 联机分析 (OLAP) 技术

联机分析技术OLAP (On-Line Analytical Processing) 是与数据仓库技术相伴而发展起来的, 作为分析和处理数据仓库中的海量数据的有效手段, 它弥补了数据仓库直接支持多维数据展示方面的不足。

OLAP能够使分析人员、管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取, 从而获得对数据的更深入了解[3] 。OLAP的技术核心是“维”这个概念。维实际上是人们观察数据的角度, 是考虑问题时的一类属性。同一个问题, 可以从不同维进行观察分析。可以通过这些维度建立数据立方体 (Cube) , 也叫多维数据集。这是进行OLAP分析的基础。

OLAP多维分析操作包括切片、切块、钻取、旋转等基本操作手段。切片或切块的操作可以降低多维数据集的维度, 将注意力集中在较少的维度上进行观察。钻取是改变维的层次, 变换数据分析的粒度。旋转是改变维度的位置关系, 如行列互换[4]。通过这些操作可以对多维数据集进行深入研究, 从而达到从多个角度、多个细节分析数据的目的。

2 系统设计

考虑到系统应该具有开放性、易于扩展和管理以及使用方便等特性, 系统采用前端数据采集层、SQL SERVER数据仓库和用户终端三层体系结构。数据采集层将各网管系统数据库中的原始业务数据进行ETL处理后存放于数据仓库中, 在数据仓库中建立多维数据集, 用户可以通过Web 浏览器访问多维数据集, 完成所需的OLAP分析操作。

某电信运营商现有的话务网管系统主要有固话网管系统, 信令网管系统和C网网管系统。数据仓库将各网管中的数据做相应处理后集成汇总, 作为数据分析的基础。OLAP能够实现从不同的角度观察和理解数据, 找出网络中存在有价值信息, 并通过Web方式展现出来。

2.1 数据建模

数据建模是解决数据仓库中如何组织数据的问题。维度建模是数据仓库建设过程中的重要数据建模方法。在维度建模中按照事实表和维表来构建数据仓库。数据仓库是面向主题的, 通过对数据源中原有数据进行分析, 确定要建立的主题, 然后按主题进行维度建模, 创建事实表和维度表。以C网话务数据为例, 将一类网元 (如MSC, BSC, HLR, CELL等) 的数据存在一张表里, 因此我们以网元为主题建立数据模型。

由一个事实表和一组维度表构建雪花模型。事实表包含的有关网元的各种业务数据, 维表用来描述事实表中的数据的属性。事实表和主维表通过外键关联。确定数据模型之后, 就可以在数据仓库中根据模型设计创建相应的事实表和维度表。

2.2 数据集成

数据集成是是数据仓库系统的重要组成部分。ETL (Extract, Transform, Load, 即抽取、转换、加载) 是企业数据集成的主要解决方案。通过ETL工具将C网话务网管数据、固网话务数据、信令数据等集成到数据仓库中, 图1是ETL的体系结构。

SQL Server 2008的数据转换服务SSIS是用于生成企业级数据集成和数据转换解决方案的平台。通过 Business Intelligence Development Studio 中的SSIS 图形设计器设计ETL包, 通过调用ETL包将各网管数据库中的数据采集到数到据仓库的事实表和维表中[5]。

2.2.1 数据的增量抽取

数据仓库的数据来自各网管数据库, 如何及时准确地追加数据是保证数据仓库数据质量的关键。网管数据库中的数据都包含时间字段, 因此我们可以利用时间戳方法来解决数据仓库中数据追加的问题。即对时间字段的进行比较, 正确地插入新增数据。为了防止源数据库数据因故未能及时采集数据, 出现数据漏采现象, 在设置采集方案时, 设定每天定时采集前三天的数据, 重复采集, 提高数据的完整性和准确性。

2.2.2 渐变维的处理方法

随着通信技术的不断发展, 为了优化和扩容网络, 网元割接的情况时有发生, 因此网元维就发生了变化。变化是相对缓慢的, 所以称为渐变维。

对于渐变维, 有三种解决方案:

(1) 覆盖当前记录, 不保留历史记录。

(2) 保留历史记录, 增加新的记录。

(3) 保留旧记录, 增加新字段记录变化值。

根据网管数据库的特点, 采用第二种解决方案, 即保留原来的信息, 将割接后的网元的所属关系作为一个新的记录插入到维表中;并在维表中加入开始时间字段和结束时间字段, 开始时间表明网元的启用时间, 结束时间表明网元的停用时间, 结束时间为空则说明网元仍在使用。

2.3 创建多维数据集

将原始的业务数据装载到数据仓库中之后, 就为分析决策打下了重要的基础。但是, 我们进行对数据的多维分析却不是直接针对数据仓库的, 而是从数据仓库中提取的子集, 以此建立多维数据集 (也称数据立方体Cube) 。因此在具体的OLAP分析数据之前通常要创建多维数据集。

多维数据集是二维表格的多维扩展, 数据已经过处理的并聚合成立方的形式。多维数据集通过创建Analysis Services项目来实现。将数据仓库作为数据源, 按照主题内容选定事实表和维表创建数据源视图, 在此基础上把事实表和维表聚合到一起生成多维数据集。

2.4 OLAP展示数据

多维数据集建立后, 就可以在此基础上进行各种查询分析操作。OLAP的前端展现方式运用Web技术, 采用现在较为流行的B/S (Browser/Server) 结构。客户端只需利用浏览器而无需其他终端软件就可以浏览丰富多彩的信息。客户端零维护, 系统扩展容易。

用户在Web浏览器上发出请求, 通过HTTP链接至Web服务器, Web服务器则将请求解析成MDX语句, 并通过ADOMD.NET和OLAP服务器建立连接。通过查询多维数据集将结果返回给Web服务器, 最终由Web服务器传送到用户浏览器上。用户访问基于Web的数据仓库可以是跨部门, 跨区域的, 不同的用户权限会有所不同, 所能浏览的信息也不同。系统在Web上的总体设计如图 2所示。

3 系统应用

通过ETL过程把各网管数据库中大量的业务数据进行清理、抽取和转换, 汇总到数据仓库中, 并按主题的需要重新进行组织, 长期保存。在数据仓库的支持下, 以OLAP技术为手段, 通过建立多维数据集, 实现对数据的灵活动态分析。

3.1 首页呈现

首页为管理人员和网络维护人员提供统一的信息视图, 比较全面了解网络发展和运行状况信息。通过WEB页面的方式向省/地市分公司管理层等相关部门发布前一天移动网络运行的主要信息, 及时了解整个网络的整体运行情况。 对各地市系统前一天的运行情况进行量化考核打分和排名, 以及呈现各地市的无线接通率和交换接通率, 了解各地区的整体运行情况。对于得分较低及接通率较低的地市用红色标记, 督促查找原因, 保证网络运行良好。对于公司较为关心的重要指标, 如A接口话务量、业务信道话务量、VLR开机用户数和HLR生成用户数等, 呈现本月和上月的趋势曲线进行观察和对比, 了解公司的话务总量及用户的规模变化, 为公司经营决策提供依据。系统首页如图3所示。

3.2 网络状况分析

由于将各网管数据进行了集中管理, 可以对公司的整个通信网络概况有更全面的了解。为管理者和分析人员提供统一的信息视图, 通过监控和查看重要的网络业务负荷和网络性能指标来实现对整个网络状况进行监控, 观察和分析。根据指标的意义将指标归类, 分为网络发展、网络质量和网络负荷三部分, 各部分包括具体的KPI指标。

从网络运营宏观分析C网、固网重要KPI指标, 便于用户全方位查看KPI指标的波动情况对比情况。能够实现不同时间粒度、不同地域粒度, KPI指标的同比分析、分布分析、环比分析、24小时趋势分析。

3.3 专题分析

专题分析是根据用户的要求, 将用户关心的KPI指标分成各个分析专题, 如考核指标专题、话务量分析专题、系统性能指标专题、网络负荷专题、CDR业务专题等, 便于分析人员根据通信网络的某些指标, 有针对性的对网络的运营情况进行观察分析, 找出网络存在的问题和隐患, 为网络优化和发展提供决策支持。

3.4 自定义分析

自定义分析能够给分析人员极大的灵活性, 能够进行有针对性的深入分析。选定分析专题, 根据需要方便地设定观察指标和维度, 可以帮助分析人员从不同的角度跟灵活的观察数据, 便于发现存在的问题。例如, 某一时段发现有某个指标的数据不正常, 通过自定义分析对这个指标进行深入分析, 通过OLAP的下钻上钻操作, 找出问题发生在哪一层次上 (MSC、BSC、基站或小区等) , 便于维护人员查找问题。

同时系统还提供报表服务, 为报表分析人员、网优人员、监控人员、维护人员等提 供有关C网和固 网的相关指标报表。

4 结束语

随着电信业竞争的加剧, 电信运维必将走向集中监控、集中维护、集中管理的格局。逐步实现对各专业网络进行集中监控、综合分析等, 使得网络管理机构相对集中, 减少管理层次, 实现网络快速的指挥调度。

话务综合分析系统运用数据仓库技术将各专业网管的数据有效集成和管理, 解决了数据分散和历史数据堆积的问题;利用OLAP技术进行灵活深入的查询分析, 并通过WEB应用连接多维数据集将查询结果展现出来, 满足多层次用户灵活的多视角的网络和业务分析需求。辅助领导层进行网络维护决策, 提高网络业务管理水平, 提升网络运行质量, 提高客户满意度。

参考文献

[1]陈志柏.数据仓库与数据挖掘[M].北京:清华大学出版社, 2009:3-5.

[2]祖巧红, 高海耀, 王慧.基于数据仓库的在线分析及其多维可视化研究[J].武汉理工大学学报, 2009, 31 (18) :108-111.

[3]P lattnerH.A common database approach for OLTP and OLAP usingan in-m emory column database[C].Proceed ings of the 35 th ACMSIGMOD International Conference on Managem ent of Data.USA, 2009.

[4]樊同科.OLAP在电信数据仓库中的设计与实现[J].电子设计工程, 2009, 17 (10) :114-115.

OLAP 篇7

随着计算机应用技术的普及和高校教务管理信息化程度的提高, 高校在进行日常的教学管理的过程中积累了大量的数据, 如何从大量的信息中找出有用的信息为教学服务, 提高教学管理水平成为当前必须考虑的问题。而借助于数据仓库技术辅助决策将会使高校的教学管理工作迈上一个新的台阶。目前, 在各高校的信息化建设中, 大都建立了不同的教学管理业务系统, 如:学生基本信息管理系统、学生成绩管理系统、教学管理系统等, 这些系统的应用还停留在简单的日常的事务处理阶段, 普遍存在数据量大信息量小的现象。如何充分发挥这些数据的效用, 迅速、准确、有效地为管理者提供所需的信息支持管理决策, 从而实现数据—>信息一>知识的转变过程, 是我们目前有待解决的问题。应用数据仓库技术, 能够集成现有的各教学业务系统的数据, 建立适合教学管理的数据仓库;在此基础上利用OLAP技术进行联机分析处理并找出隐藏在大量教学信息中的有意义的规律和知识, 可以辅助教学管理人员制定教学管理决策, 有效地解决教学质量管理中的问题。

1数据仓库的概念

随着计算机技术的飞速发展和企业界不断提出新的需求, 数据仓库技术应运而生。传统的数据库技术是以单一的数据资源, 即数据库为中心, 进行事务处理、批处理到决策分析等各种类型的数据处理工作。随着社会需求的发展。用于管理人员的决策分析的分析型处理逐渐从中分离出来, 从而由原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。人们逐渐尝试对DB中的数据进行再加工, 形成一个综合的、面向分析的环境, 以更好地支持决策分析, 从而形成了数据仓库技术 (Data Warehousing, 简称DW) 。

2联机分析处理 (OnLine Analytical Procoss) 概述

联机分析处理 (O n l i n e AnalyticalProcessing, 简称OLAP) 的概念是由E.F.Codd于1993年首次提出的。当时, 他认为联机事务处理 (OLTP) 已不能满足终端用户对数据库的分析式查询需求, 因此提出了多维数据库和多维分析的概念, 即OLAP, 并将OLAP定义为针对特定问题的联机数据访问和分析。通过对信息 (这些信息已经从原始的数据进行了转换, 以反映用户所能理解的企业的真实的“维”) 的很多种可能的观察形式进行快速、稳定、一致和交互性的存取, 允许管理决策人员对数据进行深入观察。

3数据仓库的设计

首先可以通过SQLserver2005的企业管理器创建该数据库的关系图如图1:

3.1分析需求, 确定主题域

根据对本校管理人员的交涉和调查后整理出以下几个方面的分析需求:

希望对每个班级做成绩分析。

希望针对同一课程每一届学生作成绩分析。

希望针对每个专业的基础课作成绩分析。

希望对相同课程针对每个教师做成绩分析。

希望对同一教师同一门专业课不同班级的成绩分析。

通过对以上的需求进行归纳, 发现分析的角度可以分为教师、课程、学期和班级四大类, 由此归纳总结出了该数据仓库模型中涉及的主题实际上只有一个——成绩。

根据需求分析对数据库中的数据进行数据筛选。在上述7张表中student表中班级、所在系部和专业都要作成绩分析, 因此要保留, 其他字段排除。Teacher_xm表中的数据对分析不起作用, 因此可以排除整个teacher_xm表。其他表全部保留。

3.2维表和事实表的设计

维表和事实表的设计是数据仓库构建的关键问题, 维表和事实表设计的好坏直接影响到数据仓库的响应时间和分析的效果。维是决策者观察分析对象的角度, 所以维的设计最能反映决策者的分析意图和角度。维的设计必须体现出数据仓库中数据的不同级别, 也就是数据的粒度。数据的粒度越大, 数据的综合程度就越高;数据的粒度越小, 数据就越表现细节。

首先对加载到数据仓库中的6个表中的字段进行分析识别出事实数据和维度数据。首先分析student表中studId、name、sex、class、Specialty、area字段。它们分别是学号、姓名、性别、班级、专业和籍贯, 它们都属于维度数据, 而且属于学生维度。Course表中的4个字段也都是属于维度数据, 属于课程维度。class表中的6个字段也都是维度数据, 属于班级维度。Teacher表中的字段都属于维度数据且属于教师维度。Term表中两个字段都是维度数据, 属于时间维度。Student_score表中score字段是学生的考试成绩, 是不会随着时间而改变的, 所以属于事实数据。其它字段student Id、course Id、class Id、teacherId和termId都属于维度数据, 分别属于学生维、课程维、班级维、教师维和时间维。

其次就是设计事实数据表, 当用户的OLTP系统中拥有大量的数据时, 若将所有的事实数据都存入数据仓库中则计算聚合数据将是一件很大的工程。计算机可能承受不了或者需要很长的时间, 因此可以使用统计采样的方式仅导入部分的事实数据, 因为本例中数据并不多, 所以不需要采样, 可以采取全部导入的方式。本例事实表的结构如表1所示:

最后就是设计维度数据表。维度数据表的数据量比事实表的数据量要少很多。维表确定的关键问题是如何划分维度的层次, 即粒度划分。各维表中的层次关系的确定是非常重要的。层次将维分成多个抽象层, 有利于用户从不同的角度观察数据。同时为提供处理的依据如OLAP中的上卷、下钻、切片、切块等操作都是基于维的层次而言的。我们在确定维的层次关系时主要根据学校组织机构及教学管理系统中与考生成绩生是分别属于各班级的, 而班级本身就具备层次关系每个系都包含了多个专业, 而每个专业又包括多个班级, 这样一来学生维的层次关系可以为:系—>专业—>班级—>学生。同时学生个人基本信息, 例如:性别、籍贯、年龄等也可以作为分析的角度。即作为学生维度中的字段。正确确立学生维度层次关系后, 在分析中就可以按维度的不同字段层次进行分析。在教学管理中, 成绩的分析在时间上一般有按学期、学年、学级等。其中的层次关系由高到低是学级、学年、学期。从而确定时间维。教师维的分析包括教师的性别、职称、部门等。课程维的包括课程名称、课程性质等。下面是本例维度数据表的属性:

学生维表学号, 学生姓名, 性别, 出生年月, 系别, 专业, 班级, 生源地。

课程维表课程编号, 课程名称, 课程性质。

教师维表教师编号, 教师姓名, 性别, 专业, 教师职称, 所属部门, 最高学历, 政治面貌。

时间维表学年学期编号, 学年, 学期

3.3星型模型的设计

在本系统中我们采用星型模型来连接维表和事实表。采用星型模型来设计维表和事实表时就需要将分布在多张表的信息进行转换和整合。提取和分析主题关系密切的属性来形成维表。而有些表中的字段内容和属性就不需要在数据仓库中出现。图2是教学管理系统的维表和事实表的星型结构图。

4物理模型设计

数据仓库的屋里模型就是逻辑模型在数据仓库中的实现模式。在这个阶段主要完成以下任务:

(1) 选择开发工具:SQL Server提供一易行, 易于系统的迅速实施。本系统决定选用SQL Server为数据仓库开发工具。

(2) 创建数据表。首先利用数据库管理系统SQL Server 2005创建目的数据库 (即该系统数据仓库的数据准备区) 。然后在数据库中根据逻辑模型所设计的事实表和维度表由SQL Server2005的数据转换服务 (DTS) 将源数据库中对应表红对应字段转换到目的数据库中对应的事实表和维度表。目的数据库表分别是:学生成绩事实表student_score、课程维度表course、学生维度表student、教师维度表teacher、学年学期维度表term。

(3) 创建索引。由于数据仓库的数据量巨大, 并且数据稳定, 很少更改, 因此需要创建索引来加快信息的检索速度, 优化查询的响应时间。在创建数据表时, 对于每一个维度表都设置了主键索引, course表主键为course ID, student表主键为student ID, teacher表主键为teacher ID, term表主键为term ID, 而对于事实表则设置了组合主键索引, 对于student_score表的组合主键为studentID、courseID、teacherID和term ID。

五结束语

利用数据仓库和OLAP技术建立的教学管理系统可使教学管理走上系统化、科学化的轨道。该系统可以从积累的海量历史数据中提取出有价值的信息, 为教学部门决策者和管理者提供了多角度、多层次查询分析数据的功能。

摘要:教学管理过程中会产生的大量数据, 建立教学管理数据仓库, 然后利用OLAP (Online Analytical Processing) 技术进行多维分析, 找出教学信息中有用的知识以辅助管理者解决教学质量问题。

关键词:数据仓库,OLAP

参考文献

[l]武彤.高校教学质量分析与评估系统的数据仓库模型[J].贵州工业大学学报.2007 (5) :55.57.

[2]安淑芝.数据仓库与数据挖掘[M].北京:清华大学出版社.2005.

[3]关德君.数据仓库和技术在教学管理系统中的应用.辽宁沈阳:沈阳广播电视大学.200834-1923-02

[4]王小洁.面向CRM系统的数据仓库的设计与实现[J].计算机工程与设计.2007, 28 (21) :5088-5090.

【OLAP】推荐阅读:

OLAP分析09-02

上一篇:山东枣庄下一篇:广播转播车

热搜文章

    相关推荐