打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
数据仓库技术的发展历程

定义
  数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
  数据仓库之父Bill Inmon在1991年出版的“Building the DataWarehouse”一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(Decision Making Support)。
  特点
  1、数据仓库是面向主题的;
  2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;
  3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;
  4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求,他在商业领域取得了巨大的成功。
  实现方式
  数据仓库是一个过程而不是一个项目。
  数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
  从功能结构化分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(DataStorage)、数据访问(Data Access)三个关键部分。
  企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
  数据仓库与数据库的区别
  数据仓库的出现,并不是要取代数据库。目前,大部分数据仓库还是用关系数据库管理系统来管理的。可以说,数据库、数据仓库相辅相成、各有千秋。
  数据库是面向事务的设计,数据仓库是面向主题设计的。
  数据库一般存储在线交易数据,数据仓库存储的一般是历史数据。
  数据库设计是尽量避免冗余,一般采用符合范式的规则来设计,数据仓库在设计是有意引入冗余,采用反范式的方式来设计。数据库是为捕获数据而设计,数据仓库是为分析数据而设计,它的两个基本的元素是维表和事实表。

 

一、数据仓库技术的发展历程

  (1)萌芽阶段。数据仓库概念最早可追溯到20世纪70年代,MIT的研究员致力于研究一种优化的技术架构,该架构试图将业务处理系统和分析系统分开,即将业务处理和分析处理分为不同层次,针对各自的特点采取不同的架构设计原则,MIT的研究员认为这两种信息处理的方式具有显著差别,以至于必须采取完全不同的架构和设计方法。但受限于当时的信息处理能力,这个研究仅仅停留在理论层面。

  (2)探索阶段。20世纪80年代中后期,DEC公司结合MIT的研究结论,建立了TA2(TechnicalArchitecture2)规范,该规范定义了分析系统的四个组成部分:数据获取、数据访问、目录和用户服务。这是系统架构的一次重大转变,第一次明确提出分析系统架构并将其运用于实践。

  (3)雏形阶段。1988年,为解决全企业集成问题,IBM公司第一次提出了信息仓库(InformationWarehouse)的概念,并称之为VITAL规范(VirtuallyIntegratedTechnical ArchitectureLifecycle)。VITAL定义了85种信息仓库组件,包括PC、图形化界面、面向对象的组件以及局域网等。至此,数据仓库的基本原理、技术架构以及分析系统的主要原则都已确定,数据仓库初具雏形。

  (4)确立阶段。1991年Bill Inmon出版了他的第一本关于数据仓库的书《Building the DataWarehouse》,标志着数据仓库概念的确立。该书指出,数据仓库(DataWarehouse)是一个面向主题的(SubjectOriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(TimeVariant)数据集合,用于支持管理决策(Decision-MakingSupport)。该书还提供了建立数据仓库的指导意见和基本原则。凭借着这本书,Bill Inmon被称为数据仓库之父。

  数据仓库的概念确立之后,有关数据仓库的实施方法、实施路径和架构等问题引发了诸多争议。1994年前后,实施数据仓库的公司大都以失败告终,导致数据集市的概念被提出并大范围运用,其代表人物是RalphKimball。由于数据集市仅仅是数据仓库的某一部分,实施难度大大降低,并且能够满足公司内部部分业务部门的迫切需求,在初期获得了较大成功。但随着数据集市的不断增多,这种架构的缺陷也逐步显现。公司内部独立建设的数据集市由于遵循不同的标准和建设原则,以致多个数据集市的数据混乱和不一致。解决问题的方法只能是回归到数据仓库最初的基本建设原则上来。1998年,Inmon提出了新的BI架构CIF(CorporationInformationFactory,企业信息工厂),新架构在不同架构层次上采用不同的构件来满足不同的业务需求。

 

比尔·恩门(BillInmon),被称为数据仓库之父,最早的数据仓库概念提出者,在数据库技术管理与数据库设计方面,拥有逾35年的经验。他是“企业信息工厂”的合作创始人与“政府信息工厂”的创始人。

  比尔·恩门的思想与见识在所有重量级的计算机协会、许多产业会议、技术研讨会上,都博得了无比的敬重。他写过650多篇文章,大多发布在世界最知名的IT刊物里,DMReview杂志每期都有恩门先生的专栏文章,他写了46本书籍,最著名的要数“Buildingthe DataWarehouse”(《建立数据仓库》),这本数据仓库精典读物倍受读者喜爱,一而再再而三地升级出版发行,到目前已经是第三版本,发行量达50多万册。也正是这本《建立数据仓库》为恩门赢得“数据仓库之父”的殊荣,国内机械工业出版社也分别将第2第3版本引进翻译,恩门先生的著作也一直是亚马逊电子商务网站的畅销书,都深受广大数据仓库技术读者喜欢。同时恩门又是最知名的数据仓库咨询顾问专家,他为许多名列《财富》1000排行榜的公司提供过数据仓库设计和数据库管理方面的咨询服务。恩门这些年还创立过公司办过网上教育,1995创建了现在的Ambeo公司。

  恩门先生在上世纪80年代,其《建立数据仓库》一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。而不是一种可以购买的产品。正是他当初对数据仓库的这个定义,已成为了业界引用最多、说得最广的名言,每一个启蒙的数据仓库学习者都是从这一句名言开始的。

比尔·恩门的对头

  随着拉尔夫·金博尔(RalphKimball)博士出版了他的第一本书“The DataWarehouseToolkit”(《数据仓库工具箱》),数据仓库行业就开始喧哗起来,恩门的“Building the DataWarehouse”主张建立数据仓库时采用自上而下(DWDM)方式,以第3范式进行数据仓库模型设计,而他生活上的好朋友RalphKimball在“The DataWarehouseToolkit”则是主张自下而上(DMDW)的方式,力推数据集市建设,以致他们的FANS吵闹得差点打了起来,直至恩门推出新的BI架构CIF(Corporationinformation factory),把Kimball的数据集市包括了进来才算平息。

  在过去的15年中,RalphKimball和Bill Inmon一直是商业智能领域中的革新者,开发并测试了新的技术和体系结构。他们都撰写了关于数据仓库的多本书籍,这些书也经常被参考。Kimball和 Inmon 都同意组织需要一个与遗留系统和联机事务处理(OLTP)系统分开的数据仓库,以捕获组织的有关信息并且使之可用。他们也同意数据仓库中的数据应该是净化的、一致的,并且不受到其来源的遗留系统和OLTP 系统设计的牵制。

  在开始第一个数据集市之前,他们还同意用针对整个体系结构的思想重复构建数据仓库。到这里,他们的意见就发生了分歧。BillInmon将数据仓库定义为“一个面向主题的、集成的、随时间变化的、非易变的用于支持管理的决策过程的数据集合”(Building thedata warehouse,第 2 版,第 33页)。Inmon通过“面向主题”表示应该围绕主题来组织数据仓库中的数据,例如客户、供应商、产品等等。

  每个主题区域仅仅包含该主题相关的信息。数据仓库应该一次增加一个主题,并且当需要容易地访问多个主题时,应该创建以数据仓库为来源的数据集市。换言之,某个特定数据集市中的所有数据都应该来自于面向主题的数据存储。Inmon的方法包含了更多上述工作而减少了对于信息的初始访问。但他认为这个集中式的体系结构持续下去将提供更强的一致性和灵活性,并且从长远来看将真正节省资源和工作。RalphKimball说“数据仓库仅仅是构成它的数据集市的联合”(Figure 2,The DataWarehouse Lifecycle Toolkit,第 27 页)。

  他认为“可以通过一系列维数相同的数据集市递增地构建数据仓库”。每个数据集市将联合多个数据源来满足特定的业务需求。通过使用“一致的”维,能够共同看到不同数据集市中的信息,这表示它们拥有公共定义的元素。Kimball的方法将提供集成的数据来回答组织迫切的业务问题并且要快于Inmon的方法。Inmon的方法是只有在构建几个单主题区域之后,集中式的数据仓库才创建数据集市。而Kimball认为该方法缺乏灵活性并且在现在的商业环境中所花时间太长。

  从Inmon被人尊称为数据仓库之父,就可以看出,inmon对于数据仓库领域的技术发展作起的作用的巨大的,无数数据仓库爱好者甚至把《建设数据仓库》看作是数据仓库的“圣经”。inmon自己创建的网站上的文章被广为传颂,每当有inmon公开演讲的时候,很多用户和技术人员都把能够聆听inmon的最新成果为荣。在企业信息工厂的设计蓝图中,inmon清除地描述了如何从各种业务系统当中捕获需要的数据,并在随后的流程中,为适应不同的需求,而逐渐演变为各种不同的形态,所有的这一切都围绕着一个最重要的部件来运转,这就是企业数据仓库。

  在国内数据仓库领域,inmon和kimball的理论也一度争论不休,但是随着数据仓库建设的逐步深化,把企业数据仓库作为企业数据整合平台的思路深得人心,越来越多的企业开始强调在企业内部建立一个企业级别的数据仓库来支持整个企业的发展和运作。

比尔·恩门的重点著作

  以下列出恩门的几本重点著作:

  1、“Building the DataWarehouse ”(《建立数据仓库》)

  2、“Corporationinformation factory”(《企业信息工厂》)

  3、“Govmentinformation factory”《政府信息工厂》

  4、“The Data ModelResource Book: A Library of Logical Data and Data WarehouseDesigns”(《数据仓库建模》)

  5、“Managing the DataWarehouse”(《数据仓库管理》)

  6、“Data Warehousingfor E-Business”(《电子商务中的数据仓库技术》)

 

 

 

 

BillInmon

William Harvey Inmon (born1945) is an American computer scientist, recognized bymany as the father of the data warehouse.[1][2] Bill Inmonwrote the first book, held the first conference (with ArnieBarnett), wrote the first column in a magazine and was the first tooffer classes in data warehousing. Bill Inmoncreated the accepted definition of what a data warehouse is - asubject oriented, nonvolatile, integrated, time variant collectionof data in support of management's decisions. Compared with theapproach of the other pioneering architect of datawarehousing, Ralph Kimball, Inmon's approachis often characterized as a top-down approach.

Biography

Bill Inmon was born July 20, 1945 inSan Diego, California. He received his Bachelor of Science degreein Mathematics from Yale University, and his Master of Science degree inComputer Science from New Mexico State University.

Hehas worked for American Management Systems andCoopers & Lybrand before1991, when he founded the company Prism Solutions, which he tookpublic. In 1995 he founded Pine Cone Systems, which was renamedAmbeo later on. In 1999, Bill created the Corporate InformationFactory Web site to educate professionals and decision makers aboutdata warehousing and the Corporate Information Factory.[3]

Further Bill Inmonwas the creator of the Government Information Factory, as well asData Warehousing 2.0. Mr. Inmon is a prolific author on thebuilding, usage, and maintenance of the data warehouse and theCorporate Information Factory. His books include "Building the DataWarehouse" (1992, with later editions) and "DW 2.0: TheArchitecture for the Next Generation of Data Warehousing"(2008).

InJuly 2007 Bill was named by Computerworld as oneof the ten people that most influenced the first 40 years of thecomputer industry.[4]

BillInmon's association with data warehousing stems from the fact thathe wrote the first book on data warehousing, he coined the originalterm, he held the first conference on data warehousing (with ArnieBarnett), he wrote the first column in a magazine on datawarehousing, he has written over 1,000 articles on data warehousingin journals and newsletters, he created the first fold out wallchart for data warehousing and he conducted the first classes ondata warehousing. Recent advances by Bill include the creation ofDW 2.0 - the definition of the next generation of data warehousing.In addition Bill was the creator of the corporate informationfactory (the "cif") which describes the larger informationarchitecture into which warehousing fits. More recently Bill hasdeveloped the technology for including unstructured textual datainto the data warehouse - the worlds first "textualETL".

Publications

BillInmon has published more than 40 books and 1,000 articles on datawarehousing and data management. A selection:

  • 1981. EffectiveData Base Design. Prentice Hall, 1981
  • 1986.Information systems architecture : a systemdeveloper's primer. Prentice-Hall.
  • 1986. Thedynamics of data base. With Thomas J. Bird, Jr.Prentice-Hall.
  • 1988.Information engineering for the practitioner :putting theory into practice. Prentice Hall.
  • 1992. Rdb/VMS:Developing the Data Warehouse. With Chuck Kelley, QED,19921321abhish
  • 1992. Building the Data Warehouse. 1stEdition. Wiley and Sons
  • 1998. CorporateInformation Factory. With Claudia Imhoff and Ryan Sousa. JohnWiley and Sons
  • 2000.Exploration Warehousing: Turning Business Information intoBusiness Opportunity. With R. H. Terdeman, John Wiley andSons
  • 2007. BusinessMetadata. With Bonnie Oneil and Lowell Fryman. Elsevier Press2007
  • 2007. TappingInto Unstructured Data. With Tony Nesavich. Prentice Hall,2007
  • 2008. DW 2.0 -Architecture for the Next Generation of Data Warehousing. WithDerek Strauss and Genia Neushloss, Elsevier Press, 2008

References

  1. ^ Jill Dyché (2000).e-Data: turning data into information with data warehousing.Addison-Wesley. p.323.
  2. ^ Alexander Factor(2001). Analyzing Application Service Providers?. PrenticeHall PTR. p.290.
  3. ^ About Bill : William H. Inmon, "TheFather of Data Warehousing". Inmon ConsultingServices 2007.
  4. ^ Computer WorldMagazine's July 2007 issue.
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
比尔·恩门(Bill Inmon)
数据仓库的前世今生
基于大数据体系构建数据仓库
【佳文转载】概念解析:数据仓库与数据集市
聊聊数据仓库建设步骤
“科学怪人”带你认识大数据?
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服