数据仓库处理实时数据.docx
《数据仓库处理实时数据.docx》由会员分享,可在线阅读,更多相关《数据仓库处理实时数据.docx(13页珍藏版)》请在优知文库上搜索。
1、数据仓库处理实时数据近年来,我国大中型企业也逐步认识到利用数据仓库技术的重要性,并已开始建立自己的数据仓库系统,如中国移动、中国电信、中国联通、上海证券交易所与中国石油等。这些数据仓库系统已经开始在这些企业运营过程中发挥出显著的作用。比如,从2001年起,中国移动开始在全国范围内建设数据仓库系统,目前己建成数千TB级的分级式数据仓库,有数万用户在使用,年访问量达数千万人次。仅一项“重入网分析”能够节约成本数亿元。但是,随着市场经济步伐的加快与竞争的日趋猛烈,传统的数据仓库技术已不能很好地满足企业进展与竞争的需要。传统数据仓库仅为企业高层决策者提供战略决策(StrategiCdeCiSion),
2、服务于宏观决策与长远规划,如市场细分、产品管理等。然而,企业越来越希望数据仓库在支持战略决策的同时,也能够为市场一线人员提供实时的战术决策(tacticaldecision)服务,如实时营销、个性化服务等。这种既服务于战略决策又服务于战术决策的数据仓库称之为实时主动数据仓库(real-timeactivedatawarehouse,RTADW)。根据Gartner的研究报告,RTADW已成为数据仓库进展的必定选择。然而,当前对RTADW的研究尚不成熟,许多关键技术急需进行深入研究,应用也仅是在部分企业尝试使用。自2002年起,北京大学数据库研究室与中国移动集团公司在数据仓库的研究与建设方面开始
3、了深入而密切的合作,在数据仓库与数据挖掘技术的研究开发与应用推广方面展开了大量卓有成效的工作,并于2006年5月在北京大学联合成立了“移动通信数据仓库联合实验室”。以移动通信领域为背景,在北京大学一惠普中国实验室联合项目的支持下,目前我们正在开展面向大规模海量实时主动数据仓库的研究工作,在理论研究与系统开发方面已经取得了丰富的成果。本文将重点介绍实时主动数据仓库的概念、特点、需要研究的问题与一些典型的应用。1实时主动数据仓库1.1 实时主动数据仓库的概念HaiSten提出了实时主动数据仓库的概念:RTADW是一个关系型环境的数据仓库,支持数据的实时更新、快速的响应时间、基于钻取的聚集数据查询能
4、力与动态的交互能力,用于支持不断变化的商业需求。与传统数据仓库系统相比,实时主动数据仓库系统有许多独有的特点(参见表1)。表1实时主动数据仓库与.传统数据仓库的比较.传统数据仓库实时主动数据仓库仪支持故略决策实时性要求不高数据传的是单向的返回很难清置的指标以天、周以及月为周期羲取数 据,并做预先索会计算中等规模用户数高度限制的报表.适用预处理的聚合表或数据集市高级用户、分析员和内部用户支持故路决簸和战术决策要求结果实时返回数据传输是双向的返回日常运营的指标只包含明细数掘,可以以分钟 为周期我取明细敷据多用户的并发访问灵活的即席查询、数据挖掘操作员、外部用户-竺rr在RTADw进展的过程中,(o
5、perationaldatastore,ODS)是一个重要的过渡阶段。一些企业为支持战术决策,往往使用ODS技术。总体而言,ODS分3类:1)实时ODS,它通过消息中间件实施数据的同步转换与刷新,但业务系统不能太多,转换数据量不能太大;2)准实时ODS,它实现数据同步,以l-2h为周期,系统负担较小,具有较好的灵活性;3)传统ODS,其代价最小,目前在传统数据仓库中常见。1.2 实时主动数据仓库的特点与挑战1.2.1 实时数据的连续集成为支持实时的战术决策,源系统(或者称生产系统)产生的实时数据务必在最小化对源系统入侵程度、并保证实时数据一致性与完整性的情况下,被实时高效地集成到数据仓库中。挑
6、战问题是:1)在保证源系统性能不降低的情况下,对实时数据在源系统的任何变化进行实时的捕获;2)保证被连续分发数据间次序的一致性与自身的完整性;3)在保证数据质量要求的前提下,完成实时、高效的数据加载。1.2.2 实时数据与历史数据的组织与管理提供RTADW中的实时数据与历史数据的有效的组织与管理策略,使之高效地工作在一种混合的工作负载环境(战略决策与战术决策)中。所要研究的挑战问题:1)对实时数据与历史数据(指传统数据仓库中存储的数据)进行统一建模,从而对外提供统一的访问视图;2)研究对实时数据查询所产生的“查询冲突”与“查询不一致性”问题,保证查询处理过程的无堵塞性与查询结果的一致性;3)研
7、究实时数据与历史数据的及时信息合并技术,对提交的RTADw的任何查询提供“透明”的一体化服务;4)对负载的管理,使得RTADW系统高效的运行。1.2.3 主动的服务决策机制研究RTADW的主动决策服务机制,提供对实时事件进行主动分析与处理的能力。挑战问题包含:1)研究实时事件的主动捕获机制,具备对外界请求的实时响应能力;2)研究分析决策过程的自动执行机制,使RTADW系统拥有主动服务的能力。1.3 实时主动数据仓库的性能评价1)数据的新颖性实时数据务必被及时地加载到系统当中,从而支持战术查询分析。2)时间的一致性在连续数据集成的环境中,会出现数据时序的不一致性现象,需建立时序模型进行时间一致性
8、管理。3)查询结果的一致性由于数据的动态到达与查询的持续性,会出现同一查询请求受不一致时刻不一致查询状态的影响,出现查询结果的不一致性,需要查询过程的一致性管理。4)主动决策的及时性RTADW系统能够实时捕获各类决策规则限定的动作,并做出实时的反应。5)可扩展性用户数目与性能需求随着RTAw系统分析应用的部署增加而增加。2实时主动数据仓库的研究问题在介绍研究问题之前,首先介绍一个RTADW系统的参考结构,如图1所示:图1实时主动数据仓库的参考结构如图1所示,一个RTADW系统要紧包含5个构成部分:数据源、数据抽取、数据仓库、主动决策部分与前端应用。数据源除了包含传统的静态部分之外,还包含实时的
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据仓库 处理 实时 数据
