本体驱动ETL过程的设计研究
电子元件,电子元器件深圳市创唯电子有限公司
您现在的位置: 首页 > 电子技术
本体驱动ETL过程的设计研究  2012/3/1
摘 要: 针对建立数据仓库时数据源存在结构多样性和语义异质性的问题,提出了本体驱动ETL过程的设计方法。通过元数据抽象以及语义建立本体,并运用OWL实现本体;再根据局部本体与全局本体之间的关系建立本体映射;最后运用本体映射和本体推理驱动ETL过程。该方法能有效解决数据源异构问题,并实现ETL过程的部分自动化。关键词: ETL;OWL;本体 随着数据挖掘技术的不断发展,数据仓库已经能够有效地将数据集成到结构一致的数据存储

摘  要:针对建立数据仓库时数据源存在结构多样性和语义异质性的问题,提出了本体驱动ETL过程的设计方法。通过元数据抽象以及语义建立本体,并运用OWL实现本体;再根据局部本体与全局本体之间的关系建立本体映射;最后运用本体映射和本体推理驱动ETL过程。该方法能有效解决数据源异构问题,并实现ETL过程的部分自动化。
关键词:ETL;OWL;本体

    随着数据挖掘技术的不断发展,数据仓库已经能够有效地将数据集成到结构一致的数据存储环境中,从而使分散、不一致的操作数据转换为方便查询和分析所需的信息。但由于数据源具有异构性,企业需要一个能够从所有平台和环境中抽取数据,再将数据转换后加入目标数据仓库的高效处理过程,这个过程就是数据的抽取、转换、装载,即ETL(Extract-Transform-Load)。
    数据源异构问题主要表现在:(1)结构的多样性,如不同的数据库,不同的数据类型和不同的概要设计等;(2)语义异质性,这包括不同的命名定义和不同的表示格式[1]。
    基于传统的XML元数据编码方法的ETL过程已经不能很好地解决数据源异构问题。首先,XML在处理元数据语义上存在两个问题[2]:(1)同一概念有多种词汇表示;(2)同一个词有多种含义(概念)。因此XML无法对元数据进行准确的描述,这会直接影响ETL过程的效果。其次,必要的转换和内部模式映射依旧依赖手工操作,这不仅费时而且还容易出错。
    为此,本文提出了一种本体驱动ETL过程的设计方法。
1 ETL和本体论
1.1 ETL概念

    ETL是负责将数据从源加载到目标数据仓库的过程,也是构建数据仓库的重要环节。ETL包括以下三个过程[3]:(1)抽取,数据抽取是捕获数据源的过程,即将数据从各种原始的业务系统中读取出来,这是所有工作的前提。(2)转换,按照预先设计的规则将抽取得到的数据进行转换、清洗,处理一些冗余、歧义、不完整、违反业务规则的数据,统一数据的粒度,使本来异构的数据格式统一起来。(3)装载,将转换后的数据按照计划增量全部导入到数据仓库中。
    ETL作为DW的核心和灵魂,大约占整个DW项目60%~80%的时间。在现实应用中ETL的执行效率往往成为实施DW项目的瓶颈,而ETL规则的设计和实施又是其中工作量最大的部分。
1.2 本体论和OWL
    Ontology概念起源于哲学领域,即“对世界上客观存在物的系统描述”。但其明确定义是在1991年由Neches[4]等人引入人工智能领域。其后在1993年Gruber和1997年Borst也给出了Ontology的定义。直到1998年Studer[5]等人在前人基础上给出了较为广泛接受的概念,即“Ontology是共享概念模型的明确的形式化规范说明”,并指出该定义包含四层含义:概念模型(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。此外2001年Hendler[6]也试图作出解释。
    W3C为本体的开发提供了一种网络本体语言OWL[7](Web Ontology Language),该语言包含了三种表达能力依次增强的子语言,即OWL Lite、OWL DL和OWL Full。OWL Lite支持只需要一个分类层次和简单约束的用户;OWL DL 支持需要最强表达能力的推理系统的用户,且这个推理系统必须确保计算的完全性和可判定性,OWL DL包括了OWL语言的所有语言成分,但使用时必须符合一定的约束,受到一定的限制;OWL Full支持那些不需要可计算保证的,但能在完全自由的RDF上进行最强描述的用户,包含OWL的全部语言成分并取消了OWL DL中的限制。
    相比于传统XML,OWL有更丰富的建模原语,能够表达语义并描述复杂逻辑关系,可以解决XML无法对元数据进行准确描述的问题。而且本体语言还可以通过建立本体映射,并运用本体推理来实现部分必要转换和内部模式映射的自动化。因此引入本体驱动ETL过程能有效地解决数据源异构问题,并实现ETL过程的部分自动化。
1.3 本体驱动ETL的一般步骤

与《本体驱动ETL过程的设计研究》相关列表
电话:400-900-3095
QQ:800152669
库存查询
Copyright(C) 2011-2021 Szcwdz.com 创唯电子 版权所有 备案号:粤ICP备11103613号
专注电子元件代理销售  QQ:800152669  电子邮件:sales@szcwdz.com  电话:400-900-3095