作者:Rick Sherman
译者:Daniel Zhen
数据集成(Data integration)受到其表象的影响,变成抽取(extract)、转换(transform)和装载(load)的代名词。同样,ETL也被认为是数据仓库技术。这两种错误的观点反映了企业的现状,它们极大了阻碍了企业通过集成数据来提供业务所需信息的努力。同样的短见行为,公司会失去把信息作为公司资产进行治理的机会。集成数据的成本增加了,纵容数据孤岛的形成,业务人员花费大量时间运用数据阴影系统(data shadow systems)或同步数据(reconciling data)填补信息断层。

超越简单ETL任务
数据集成的基本任务是收集数据,转换数据和发布数据到目标位置。如果这听起来像ETL,因为正是如此(如图1所示)。ETL工具可以自动化这些任务,并且为开发者提供比手工代码更易用的工具集。举例来说,ETL工具,包含为数据转换基本任务进行预构建转换的功能,提升复杂过程中变更数据捕获性能,和缓慢变化维功能。预构建转换极大的提升了开发者的生产效率,促进了结果的一致性。数据集成工具提供了很多很有特色的过程和技术,拓展基本ETL任务(如图2所示)。这些拓展可以把数据转换为可理解的、持久的、清洁的和当前的信息。拓展的过程包括数据剖析、数据质量和操作过程。以提供源系统状态监控,高效清洗,确保持久和管理所有过程(包括错误处理和性能监控)等能力。

数据集成组件扩展到包含的企业应用集成,企业信息集成和面向服务的架构都需要ETL批量数据集成,进行应用之间的互操作,或实现实时业务智能应用。
超越批量处理
企业中有很多集成计划。数据集成和批量驱动的ETL过程装载数据进入数据仓库关联起来,集成计划并不包含DW之外的其它技术。这些技术包括EAI,EII和SOA。虽然每种技术都有其基本应用,事实是组织的每个数据集成任务都在重复建设。结果是运用不同的技术进行集成,产生不一致的业务信息,而通常把数据集成作为事后的想法。
好消息是现在排名靠前的数据集成商把上述所有技术都融合到数据集成组件中。这些组件允许一个企业以一致的方式进行数据集成,部署采用相应的传输技术(比如:ETL,EAI,Ell或SOA)。
超越数据仓库
随着更多功能强大的组件出现,数据集成已经超越了数据仓库,包括了其它集成计划,比如:
· 数据迁移
· 应用整合
· 操作型和实时BI
· 数据统管,客户数据集成和产品信息管理
因为合并和收购或是对流应用的需求,公司经常要启动数据迁移和应用整合项目。过去,这些项目被看作一次性的典型的手工编码项目。当系统集成者在DW项目中精通ETL工具,他们意识到如果使用同样的数据集成工具,将会在数据迁移和应用集成项目中提高效率。甚至是一次性的项目,数据集成工具允许代码复用,重新分配预构建转换,更好的管理过程以及文本自动化。此外,它们不需要雇佣编码专家,只需重新配置已经雇佣的数据集成开发者。
市场需求使产品紧跟市场主流,在数据集成项目中使用DW项目中的BI工具,并允许操作或实时BI。这一驱动力包括构建在关系型数据库上的企业应用和不再绑定批量ETL容器的数据集成工具。此外,主要的企业应用提供商也提供了数据集成和BI工具,这些提供商绑定的组件可以在同样的数据集成和BI架构中(IT益处),集成持久,可理解和当前的信息(业务益处)。
MDM,CDI和PIM都用来处理数据项目中一致的和可维护的重要数据以及相关数据,比如客户数据和产品数据。技术解决方案会打包一系列的工具和应用来处理业务和个别行业。很多计划执行失败是因为这些应用倚重于数据集成,重构公司已存在的数据集成平台来创建MDM,CDI和PIM解决方案。
广义数据集成
数据集成工具现在还不是很普及,尽管使用它们是最佳实践。主要的抑制因素为成本和资源,缺乏对工具能力的理解和市场对工具定位不明。
尽管财富排名1000的企业趋向于使用这些工具构建数据仓库,他们仍手工编码构建他们的数据集市,OLAP和其它报表数据库。企业中应用工具的障碍包括:
l 费用。工具的许可证费用常会影响其广泛使用
l 资源。通常,数据集成开发者常会受制于数据仓库开发而不能装载其它数据库。
l 适用。某部门要求创建数据集市,cube和报表数据库时,公司的标准与所选择的数据集成工具可能并不完全匹配。
当选择工具时或正与工具提供商就价格进行谈判时,费用问题就可以得到很好的解决。当很多提供商提供多种价格区间的方案供选择时,许可证成本将不再是阻碍。
公司可以通过创建数据集成能力中心来解决资源问题。认定和提升企业中出现的数据集成任务的知名度将为IT的集成项目争取更多的资源或优先级,这样企业数据仓库也不会占用所有可用资源。
适用问题对于大企业来说是制度问题,因为解决方案的推进与所选的企业标准相冲突。实用的方案将创建两个企业标准:其一是企业级数据集成,另一个是下游数据库如数据集市或cube。下游数据库并不需要很多资源,进行数据清洗和数据装换是数据仓库需要。很多下游数据库可以应用经济实惠的ETL解决方案装载数据而没有企业集成的需求。
虽然公司的IT部门对这一解决方案有阻碍,但是工具提供商通常会认为只要不差钱,其它工具可以做到的都能做到。我对两组人回答是,切断两个标准的联系,下游数据库将继续手工编码,应对所有业务需求、IT成本和应用风险。此外,更多数据隐含系统将用来填补信息空白,手工编码应用耗费更多时间且增加维护成。
对于比财富排名1000规模小的企业,比如年度财政收入在250万美元到1500万美元之间的企业,使用数据集成工具的阻碍在于其成本,资源和对数据集成市场的认可。这些企业没有像财富排名1000的企业用于数据集成解决方案的IT预算和资源。虽然这意味着他们将在解决方案上少花费一些,但这并不意味着他们必须手工编码。
然而,它们也许并不了解工具—这至少反应在他们的预算上。如果他们能完全了解数据集成工具,很可能会发现顶级工具是昂贵和需要高性能资源的。他们所了解的工具来源于工业分析和期刊上提及的昂贵的工具。他们也从曾供职于财富排名1000的同事得到反馈,在支付顶级工具或手工编码中进行取舍,手工编码通常会胜出。
数据集成工具市场包括的产品具有一系列不同的用途,技术和所需成本。如上所述,有很多的可用的产品适合这些公司的需求、技术和预算。
下一步
如果你供职于财富排名1000的公司,问一下自己,你是否陷入了ETL的沼泽,或者是否遍布企业的业务组正手工编码,更糟的是,他们是否在构建数据隐含系统。如果你的公司规模小于财富1000,确定你是否在手工编码你的数据集成过程和原因。
在你得到答案后,做一名在企业中推广数据集成的倡导者,为业务需求提供信息。
数据剖析
数据剖析是检测和评定源系统的数据质量,完整性和一致性的过程。某些时候也叫做源系统分析,它有助于评估数据集成工作量,从而让你避免因糟糕数据带来的困扰。
具有自动化功能的数据剖析工具,能帮助你的团队不仅限于理解数据定义,而是真正去了解更多更重要的数据的内涵。没有这些工具,数据剖析需要手工写编码并和所期望的结果比较查询结果。这不仅仅费力耗时,而且看起来难以完成,因为人们通常无法手工编码源系统表,视图和列的所有排列组合。当项目组手工编码进行数据剖析时,数据仓库和BI项目经常会延期或遭到数据质疑。这还不是最坏的,更崩溃的是,人们会完全忽略它。
数据剖析应该作为每个数据仓库、BI和数据集成项目的最佳实践。在满足项目需求之外,数据剖析应该作为一个常态行为用来维护数据质量等级。
译者介绍:
甄浩,北京迈思奇BI开发工程师,资深BI咨询顾问,软件工程专业硕士。
主攻数据仓库、OLAP建模、数据挖掘、企业绩效管理等技术领域,具有6年的BI项目实施和咨询经验。
转载请注明出处。
|