标题: IBM信息管理软件DB2的技术优势
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:36  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
IBM信息管理软件DB2的技术优势

可用性

与竞争对手的产品相比,DB2 UDB V8.2 中引入的新的高可用性特性,以更低的成本交付了更高的可用性。

了解 DB2 UDB 经过客户验证的卓越可用性
阅读“使用IBM DB2通用数据库V8.1,为需要处理大量事务的电信应用程序提供十秒的故障切换 (pdf,2.34MB)”技术论文,了解某大型电信公司如何能够借助 DB2 UDB V8.1 实现每秒运行 3500 多个事务的系统的 9 秒故障恢复。



 附件: 您所在的用户组无法下载或查看附件




IBM小机AIX等系列培训,北京,已经推迟,欢迎关注http://www.loveunix.net/thread-86749-1-1.html

提供IBM小机及存储相关专业技术咨询、实施、维保和培训,代理备机及配件。EMAIL:allenlong68[at]hotmail.com。[at]换成@

AIX交友QQ群:24807728(群是朋友聊天用的,技术请在论坛谈。群满,不活动的会被请出,给新人腾位置)
QQ里谈技术没积累,是方便自己麻烦别人。在论坛里讨论,可以大家都参与,并留下参考。
技术不是简单看个文档就能提高的,多参与讨论进步快。对问题有见解的就发一下,说对了是帮助别人,说错了给机会纠正自己。
顶部
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:39  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
性能

通过确保数据库三连冠的两个新基准测试,IBM 再次证明 DB2 UDB 是世界上最快的数据库,无论什么样的工作负载类型,也无论什么样的工作负载规模,DB2 都是最佳的选择。

DB2 UDB V8.2,eServer p595 和 TotalStorage FASt900 公布了一个令人惊讶的 TPC-H 结果,结果为 3,210,540 tpmC,性价比为 $5.19/tpmC,证实了比Oracle RAC 的性能好 2.7 倍。 此前,在这一基准测试中,没有任何一家数据库供应商取得如此决定性的领先优势。事实上,这一新的 DB2 结果刷新了以前的记录,远高于 Oracle 和 Microsoft 的最大结果之和!





IBM小机AIX等系列培训,北京,已经推迟,欢迎关注http://www.loveunix.net/thread-86749-1-1.html

提供IBM小机及存储相关专业技术咨询、实施、维保和培训,代理备机及配件。EMAIL:allenlong68[at]hotmail.com。[at]换成@

AIX交友QQ群:24807728(群是朋友聊天用的,技术请在论坛谈。群满,不活动的会被请出,给新人腾位置)
QQ里谈技术没积累,是方便自己麻烦别人。在论坛里讨论,可以大家都参与,并留下参考。
技术不是简单看个文档就能提高的,多参与讨论进步快。对问题有见解的就发一下,说对了是帮助别人,说错了给机会纠正自己。
顶部
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:40  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
可扩展性

在可扩展性评比中,DB2 UDB 轻松战胜同类产品。从“典型的”性能、容量、向上扩展和向外扩展方面到功能和灵活性的"超越典型"方面,DB2 UDB 在所有方面都是可扩展的。它浓缩了灵活性和选择,可以支持任何企业业务。

集群可扩展性(向外扩展):除了在 TPC-H 集群基准测试方面的最佳表现外,DB2 UDB 还在单个集群所支持的节点数方面远远大于 Oracle 和 SQL Server。


SMP 可扩展性(向上扩展):DB2 UDB 展现了向上扩展能力,并超过了 Oracle 和 Microsoft SQL Server。或许更重要的还在于 DB2 UDB 领先的性价比,它使得企业在扩展系统的同时不会引起成本的飙升。


数据量可扩展性:DB2 具有优异的数据量可扩展性,并能轻松支持 TB 级数据量,同时提供高质量的性能。


平台可扩展性(超越典型):DB2 UDB 在多种供应商硬件上的性能得到了证实。


联合可扩展性:与 Oracle 和 Microsoft 不同,DB2 通过 WebSphere Information Integrator 交付了与异构数据库系统的优化集成,支持对不同数据的集成、实时访问,不管它们位于何处,都如同在单个数据库中一样。





IBM小机AIX等系列培训,北京,已经推迟,欢迎关注http://www.loveunix.net/thread-86749-1-1.html

提供IBM小机及存储相关专业技术咨询、实施、维保和培训,代理备机及配件。EMAIL:allenlong68[at]hotmail.com。[at]换成@

AIX交友QQ群:24807728(群是朋友聊天用的,技术请在论坛谈。群满,不活动的会被请出,给新人腾位置)
QQ里谈技术没积累,是方便自己麻烦别人。在论坛里讨论,可以大家都参与,并留下参考。
技术不是简单看个文档就能提高的,多参与讨论进步快。对问题有见解的就发一下,说对了是帮助别人,说错了给机会纠正自己。
顶部
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:42  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
总体拥有成本

IBM DB2 以最低的拥有成本提供领先技术
顾问和分析家称 DB2 具有较低的拥有成本
谈到产品定价、技术领先和拥有成本时,应该相信谁呢?请看这些顾问的一些观点。
D. H. Brown Associates:在 2002 年 1 月发表的这篇题为"DB2 UDB vs. Oracle9i: Total Cost of Ownership(pdf,336KB)"的研究报告中,独立分析机构 D. H. Brown 对其先前所作的 DB2 UDB v7.2 和 Oracle 9i 总体拥有成本对比研究结果进行了更新。该研究与最近由 Oracle 所推崇的研究的不同之处在于所使用的方法。虽然该报告是针对 IBM 作出的,但对比方法却是独立开发的。所使用的方法都是全面的,包括了软件和支持定价,以及所需的 DBA 任务和工作量,同时也是公平合理的,因为研究结果都得到了包括来自这两个供应商所提供的信息在内的各自研究成果的支持。此外,该方法的说明也非常详细,读者可以抛开自己的经验,更专心地思考其各自环境的可能 TCO。以下内容摘自该报告第 4 页上"Human Activities"一节:"在数据库设计和管理中进行各种活动所需的人力可能会因项目的不同而大不相同。因此,确定这些不同活动的重要性不是一项普通的任务。为了确定各种面向人的活动的合理的时间分配,D.H. Brown Associates, Inc.(DHBA)采访了许多在该领域工作的 DBA 和顾问。结果对于估计时间分配来说是一组可靠的数字。本研究报告中的结果是对这些专业人士所给予的评说的一种综合。本报告第 III 部分概括了这些结果,并针对几种不同的应用环境提供了可靠的时间分配。这是本报告中最容易变化的部分,最大的变化来自于项目和安装的变化。读者要根据各自的经验、人员以及项目需求更改自己的数字。"本报告主要关注:
软件定价:对于所有从外部 Internet 访问 DBMS 的场合来说,DB2 Universal Database(DB2 UDB)具有很强的价格优势。对于每 CPU 支持 25 个或更多命名用户的所有配置来说,DB2 UDB 同样具有很强的优势,并且其每 CPU 配置 50 个或更多命名用户的系统的价格仅为 Oracle 的一半。

DBA 效率:DBA 效率与 DB2 UDB 价格优势相辅相成。DB2 UDB 和 9i 都是成熟产品,都实现了许多 DBA 任务的自动化。尽管如此,在安装例程、查询优化、分布式数据库架构和查询管理方面,DB2 UDB 比 Oracle9i 仍更胜一筹。Oracle9i 只是通过其数据移动和变更管理功能部分弥补了这些效率。与 Oracle9i 相比,DB2 UDB 的优势则反映了更高水平的自动化,这使 DBA 能够避开重重技术复杂性,使经验较少的人员也能执行很多任务,使最终用户能够在较大程度上自我管理其查询。平均算来,DB2 UDB 效率可以使与 OLTP 系统相关的工作量总共减少 6%,对于大型 OLTP 系统则减少 15%,对于支持 Internet 的数据库减少 20%,对于数据仓库减少 18%。

5 年的总体拥有成本(TCO):产生 OLTP、大型 OLTP 和 Internet 应用程序 TCO 的软件、服务和人力成本涉及三种情况。DB2 UDB 在所有这三种情况下都提供了 TCO 优势,与 Oracle 相比,可使客户节省 20%~32% 的成本。
更多关于DB2 TCO 优势的分析和报告,请参阅DB2总体拥有成本分析





IBM小机AIX等系列培训,北京,已经推迟,欢迎关注http://www.loveunix.net/thread-86749-1-1.html

提供IBM小机及存储相关专业技术咨询、实施、维保和培训,代理备机及配件。EMAIL:allenlong68[at]hotmail.com。[at]换成@

AIX交友QQ群:24807728(群是朋友聊天用的,技术请在论坛谈。群满,不活动的会被请出,给新人腾位置)
QQ里谈技术没积累,是方便自己麻烦别人。在论坛里讨论,可以大家都参与,并留下参考。
技术不是简单看个文档就能提高的,多参与讨论进步快。对问题有见解的就发一下,说对了是帮助别人,说错了给机会纠正自己。
顶部
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:47  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
技术前沿与趋势

IBM DB2 信息管理与网格计算技术

随着市场竞争的白热化和用户需求的实际化使得决策者们深深的认识到:他们迫切需要一种理念和技术来帮助他们在整个企业范围内整合公司端到端的业务流程、集成关键的合作伙伴、供应商和客户之间的信息,以便对新的市场机遇以及外来威胁做出快速、灵活的反应。IBM 电子商务、随需应变的理论与技术正是为满足客户的这一需求而诞生。其主要核心技术网格计算、其虚拟化概念以及信息基础设施建设正是企业朝着电子商务随需应变方面演进的关键技术。其技术的主要特点是利用现有的、分布式的、异构的各种资源– 包括不隶属于单一的集中管理范围内的资源– 通过开放标准来提供卓越的服务质量,满足企业的实时响应能力、随需可变的成本结构、专注在核心与关键任务、以及自我适应与弹性能力的要求。由于网格技术的先进性和实用性,为企业随需应变提供了技术基础,也为IT技术的供应商提供了新的商机,同时也使某些供应商为了商业利益,对自己产品是否具有网格技术进行不切实际的宣传,为企业合理选择产品技术带来一定的困难。本文的目的是对网格计算技术、 DB2 与网格计算、网格客户实例等方面加以阐述,使读者真正了解网格计算的定义;一个真正具有网格计算技术的信息管理产品包含哪几个方面。

1.  网格计算以及其虚拟化概念
简而言之,所谓网格计算旨在利用企业用户现有的资源(为了保护企业用户已经存在的投资)、进行分布式的处理共享和系统的异构(包括:处理器、存储器、连接及信息和不隶属于集中控制范围内的资源)来帮助解决商业与技术问题。

虚拟化是网格计算中的一个重要概念,指的是将分布在不同地方的资源作为一个整体来利用、同时利用企业内部的网络(Intranet)或互联网 (Internet) 发现更多有用的资源,并允许这些资源根据具体的需要随意“进出”网格。
网格计算技术通过虚拟化的概念使得企业分布在各处的计算机资源实现共享或集中管理,其类似于一台大型的虚拟计算机。网格计算技术的实现方法是先在企业的内部实施,进行网格的规划,充分利用内部的计算机资源,提高其利用率。然后跨越公司的界限,引发服务器的整合,从而提供“随需应变”能力。
网格计算最初应用于学术、工程及科学领域,目前以向商业环境进军。IBM 公司之所以在网格计算领域占据领导地位,这主要归功于 IBM 通过利用现有的为企业用户提供的IT基础构架并采用 IBM 网格技术为企业用户带来巨大商业收益。在 DB2 与网格计算的用户一节中将谈到一些网格用户。
IBM 在网格计算定义与交付方面一直处于领先地位,致力于同业界及学术界领导者 Globus (面向网格计算的主要开放团体组织) 一起合作并创立全球网格论坛 (GGF),以便将网格计算推广到客户环境中。IBM 是制定网格计算标准的全球网格论坛的成员。IBM 与 Globus 协作,制定并提交了名为开放网格服务架构(Open Grid Services Architecture ,OGSA)的规程,以便将网格计算协议与Web服务协议合并在一起,并使用简单对象访问协议(Simple Object Access Protocol,SOAP)及Web服务描述语言(Web Services Description Language,WSDL)等Web 服务标准及其他服务标准。网格服务允许应用使用标准 WSDL 发现计算机、均衡工作负载并转换工作。

网格计算技术之所以被业界如此重视,是因为网格计算蕴涵着如下巨大的价值,包括:
(1 )基于更好的信息共享来增强协作。
(2 )通过利用更大数量的资源来提高工作效率,实现更高的性能、可扩展性及可用性。
(3 )通过简化应用编程工作以及更好地利用现有资源(利用客户现有的闲置计算能力)来降低成本。


2.  DB2 与网格计算
DB2 是 IBM IM (Information Management ) 部门信息管理产品家族的品牌标志。其有五大部分组成:DB2 UDB数据库管理服务器; DB2 BI (商务智能)解决方案;( 包括 DB2 Warehouse Manager, DB2 OLAP, DB2 Intelligent Miner 等);DB2 CM (内容管理)解决方案;DB2 II (信息集成)解决方案和 DB2 数据管理工具。
实践证明 IBM 的信息管理解决方案是当今功能最全、处理能力最强、考虑最全面的数据管理解决方案。它管理现实世界的所有结构化和非结构化数据,集成所有异构数据库管理系统,包括层次的、网状的和关系的以及文件系统。支持非共享的并行体系结构(Share Nothing Architecture),提供了容易的可扩展能力;DB2 BI 及数据仓库解决方案,除为用户提供了数据的抽取、数据存储、数据展现的功能之外,还提供了数据挖掘工具,为深度的决策分析提供必备的手段;DB2 的内容管理是一套面向企业的所有内容管理集成方案,该方案具有实时和无缝访问数字化、索引化内容的能力; DB2 信息集成通过以虚拟化信息资产提供对网格上的各种分布式数据资源的透明接入,使它们就象单一资源那样供用户接入;DB2 的企业数据管理工具集,提供了命令中心、控制中心、性能分析界面、事件分析器、数据仓库管理中心、存储过程创建器等为数据库管理人员、应用开发人员提供方便易用的工具。

众所周知,一个满足电子商务、随需应变的系统运行环境应据备开放性 (Open)、虚拟化(Virtual)、集成性(Integrated)、自主性 (Autonomic) 的特质。作为信息基础构架的DB2,其具有如下的特性:
(1 )开放性 -提供分布式计算资源基于标准的接入。DB2 除遵守 ISO 所要求的所有 SQL 标准之外,DB2 提供 Web 服务支持,使 DB2 家族产品能够运行在面向服务的架构中,既是 Web 服务提供者又是使用者。
(2 )虚拟化 -帮助应用与用户接入各种分布式数据,实现服务质量目标。在网格环境中,数据虚拟化是主要概念。复合应用需要接入跨越数据库、文件系统、文档与内容库、电子邮件系统及 Web 等的各种数据资源。数据格式、位置、接入协议及功能之间的差别隐藏在应用的后面,不为人知。这允许企业扩展现有投资、加速实现复合应用的价值并控制成本。
(3 )集成性 -DB2 Information Integrator(DB2 信息集成器)是实现集成的关键产品,其通过以下方式虚拟化信息资产:
  • 提供到网格上的各种分布式数据资源的透明接入,使它们就象单一资源那样供用户接入。
  • " 提供卓越的服务质量。其主要表现在:
    • 查询优化—采用智能决策的方法决定在哪执行其分查询—将查询改写、下推分析以及基于成本的查询优化,包括在执行方案中将数据服务器、网络及 IO 功能考虑在内的能力;
    • 数据布局功能—能够发现靠近应用的数据,以便构建适当的数据拓扑以提高应用效率的能力—提供利用缓存及复制特性来移植数据的方法。
在信息管理市场,DB2 信息集成产品是唯一能满足网格计算信息管理的信息集成产品。某些竞争伙伴的方法只能满足数量极其有限的网格计算信息管理要求。它无法实现网格计算协调异构机种资源的承诺– 包括不隶属于集中管理范围内的资源—从而无法实现现有信息资产的广泛协作与利用。
(4 )自主性 - DB2 允许轻松、有效且有效地管理IT基础设施,在自主性特性方面领先行业水平,自主性包括自配置、自治愈、自优化及自我保护等功能,使环境更易于管理。在实际的使用中,许多用户的 DBA 感到使用 DB2 要比使用其它数据库系统产品省三倍的时间。

经过 20 年的实践与发展,DB2已经在以下方面奠定了领导地位:
  • 可扩展性 – 可同时向上扩展(通过 SMP)并向外扩展(最多 1000 个节点的群集),数据容量几乎不受限制。而其它的竞争伙伴最多支持 8 个节点的群集,DB2 是其 125 倍。
  • 性能 – 在 TPC-C、TPC-H 及 ISV 基准测试中成绩突出,且客户评价很高。
  • 可管理性 – 自配置、自治愈、自优化及自我保护数据库,可简化群集领域的管理工作。DB2将群集(即使多达 1000 个节点)看作是单一数据库镜像,因此,管理群集几乎象管理一个 SMP 安装那样简单。与其它竞争伙伴相比,DB2 的管理工作非常轻松,尤其是在安装、存储管理、查询调整及配置管理方面。此外,DB2 的自主特性以及成熟的运行情况监视功能、设计顾问 (为您设计最佳的索引和 MQT) 及配置顾问,使 DB2 显然成为数据库群集内外最易于管理的数据库。
  • 可用性 – 一家 DB2 电信客户仅在9秒内就能完成对速度为3500次事务处理/秒的应用的故障切换。
  • 总投资成本 (TCO) – Market Magic Research 的调查显示,DB2 在 TCO 方面远胜过其竞争伙伴,总投资成本比其中的一个竞争伙伴低 49% - 70%,比另一个竞争伙伴低 7% - 36%。
经过上述的分析,我们可以清楚的看到:DB2 具备开放、虚拟化、集成性及自主性等特性,能够满足企业客户电子商务随需应变对信息基础设施的需求及其对统一的单一系统向上向外扩展的需求以及联合接入各种分布式数据,以便更好地利用现有数据资产的需求。DB2 的可扩展性、性能及虚拟化程度均领先业界水平。


3.  DB2与网格计算的用户
企业要实现随需应变的电子商务,必须要建立好信息管理的基础设施,而满足电子商务、随需应变的信息基础设施必须要有网格计算技术支撑,接受IBM访谈的企业(无论隶属商业还是科学领域),都希望网格计算及信息管理基础设施能够更好地利用现有的异构机种计算与数据资产,降低该环境中的开发与管理成本。

他们需要:
(1 )支持接入各种分布式数据资源
(2 )支持现有的异构平台
(3 )提供所需的服务质量(高性能、可伸缩、高可用及及
时响应等)
(4 ) 易管理的运行环境

IBM的网格计算技术与信息管理的DB2 品牌产品完全满足用户的上述要求。目前现有100多名网格技术商业客户,分布在金融服务、石油勘探、通信、政府、电子及零售等9个行业。DB2 技术为客户提供异机种环境中的开放标准计算及联合数据接入功能。例如:
  • 去年,Butterfly.net, Inc. 与 IBM 部署了在线视频游戏市场中第一个定制的商业网格。Butterfly Grid(蝴蝶网格)使在线视频游戏供应商能够向最受欢迎的领域及最受欢迎的游戏分配计算资源,从而支持参与同一个游戏的大量玩家。Butterfly.net 是面向在线视频游戏市场的开发工作室与基础设施供应商,利用 DB2 通用数据库及 WebSphere 基础设施软件在 IBM eServers 上构建了该网格,它可在由服务器库及分散的计算平台(包括PC、Pocket PC 以及与Palm 兼容的手持设备等)组成的网络上分配视频游戏交互处理资源。
  • 今年,IBM、United Devices及Accelrys宣布联合开展大规模的计算网格项目,该项目关注研制可以抵御天花病毒后期传染的新药。项目将得到全球数百万计算机主人的支持,他们贡献闲置的计算资源,帮助成功研制出大量抗天花新药。项目还采用计算化学原理来分析药物分子库(由3500万个潜在的药物分子组成)与天花病毒上多个目标蛋白质间的化学反应,以便研制出有效的抗病毒药品来治疗天花后期传染。DB2 通用数据库每天将处理1500万个查询,对约200万台计算机(分析数十亿个虚拟药品界面)提供的数据进行全面管理。
  • 2002年,牛津大学与IBM和英国政府共同构建先进的计算网格,用于乳腺癌的早期过滤和诊断,并为专业医学工作者提供更多信息,帮助他们治疗疾病。该项目名为"eDiamond",由牛津研究员负责,是第一个全部通过商用技术构建的网格。DB2 Information Integrator及DiscoveryLink数据集成软件将使医院能够接入、共享并存储数字形式的乳房X光照片。eDiamond Grid还将为内科医生提供先进的分析工具和功能,支持他们更好地为患者诊断癌症。
  • 2001年,IBM与宾夕法尼亚大学共同启动了功能强大的计算网格,旨在为全美国乳腺癌患者的诊断及过滤提供先进方法。国家数字乳房X光照片档案(National Digital Mammography Archive,NDMA)网格构建在开放标准上,是通过互联网将计算资源作为类似效用的服务来提供的海量分布式计算机。DB2通用数据库使数千家医院能够访问并存储数字形式的乳房X光照片,该网格能够提供分析工具,帮助内科医生诊断每个病例并确定易患乳腺癌的人群。DB2还允许授权的医疗人员实时接入病历并减少对昂贵的胶片X光照片的需求。
  • 还是在2001年,IBM与北卡罗莱纳州的非赢利性IT服务机构MCNC合作,构建国家第一批计算机网格,为生命科学研究提供计算、数据存储及网络资源。由IBM DiscoveryLink数据集成软件、WebSphere基础设施软件及pSeries硬件共同驱动的North Carolina Biogrid,可供遍及北卡罗莱纳州的数千家科研及教育人员接入,帮助加快基因组群的研究步伐,从而研制出新药与疾病抗衡,并为全世界人民研究出更有营养的食品。
综上所述,IBM在网格计算技术以及信息基础设施建设方面不仅是倡导者而且是实践者。在DB2品牌满足网格计算用户的要求方面是站在全方位的角度考虑而不止是仅仅某一方面。可以说DB2是一个真正具有网格计算技术的信息管理基础设施构架品牌产品集,它在技术与交付方面一直处于领先地位。目前IBM仍然不断地对支持网格计算进行投资,主要包括:
  • 投资成熟的网格服务,包括数据接入、安全性、复制及工作负载管理等;
  • 继续投资于性能及可扩展性,如采用并行机制向上扩展联合查询的能力以及使用联合引擎来向外扩展单一系统镜像的能力等;
  • 投资原数据管理及存储库,以便实现对用来发现、了解、接入并共享企业数据资产的抽象信息模式及其他原数据资产的管理;
  • 基于策略的管理,为实现服务质量目标提供指导及最终的自适应应答能力。





IBM小机AIX等系列培训,北京,已经推迟,欢迎关注http://www.loveunix.net/thread-86749-1-1.html

提供IBM小机及存储相关专业技术咨询、实施、维保和培训,代理备机及配件。EMAIL:allenlong68[at]hotmail.com。[at]换成@

AIX交友QQ群:24807728(群是朋友聊天用的,技术请在论坛谈。群满,不活动的会被请出,给新人腾位置)
QQ里谈技术没积累,是方便自己麻烦别人。在论坛里讨论,可以大家都参与,并留下参考。
技术不是简单看个文档就能提高的,多参与讨论进步快。对问题有见解的就发一下,说对了是帮助别人,说错了给机会纠正自己。
顶部
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:50  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
技术前沿与趋势

信息集成:新一代信息技术
摘要:
企业软件行业正在进行变革,企业应用程序开发处于变革的十字路口。单独在后台无尘室(Clean room)部署单片大型机的日子已经一去不复返了。今天企业应用程序面临的挑战是实现跨企业不同信息平台和跨互联网、并尽可能地快地将大量可用的数据集成和转换成信息资产-----------这些信息资产可以让企业更有针对性地回应市场及客户的需求、从而保持领先的市场竞争力并不断开辟新的商机。在这里我们基于对部分行业信息集成应用的典型需求分析,介绍了信息集成技术的历史发展及IBM利用其数十年来企业数据管理基础设施中的优势,在提供强大和统一的信息集成解决方案方面的技术理念。
撰稿
M. A. Roth
D. C. Wolfson
J. C. Kleewein
C. J. Nelin
近几年来互联网和电子商务的极速发展引发了企业应用程序可用信息数量和类型的爆炸性增长。分析家们预测,在接下来的三年内,企业将生成大量的数据。互联网业务的发展步伐远远领先于应对这一信息爆炸的工具和技术的开发,许多企业发现它们的系统在面对所管理的数据的数量和多样性方面很难更上一层楼。当前企业面临的挑战是信息集成。企业应用程序必须能够与数据库、应用程序服务器、内容管理系统、数据仓库、工作流管理系统、搜索引擎、信息队列、Web crawlers、挖掘和分析包以及其它企业集成应用程序交互。它们必须使用广泛的编程界面,了解多种语言和格式;它们还必须提取和结合多种交付机制生成的多种格式的数据。很明显,传统上存在于数据库管理系统、内容管理系统、中级缓存、数据仓库和其它数据管理系统之间的界限越来越模糊,企业迫切需要一个能够为所有这些服务及它们提供的数据提供统一视图的平台。
如果市场保持这一发展势头,那么在接下来的三年内企业将生成比以往任何时候都更多的数据,互联网的大范围普及使得所有这一切变得轻而易举,通过一个URL(统一资源定位器)就能访问到它们。这种信息爆炸带来了激动人心的交叉行业商机。那些可以从数据的海洋中迅速提取关键信息并把它们转换成重要资产的企业将成为市场上的强者。
事情远不止您想象的那么简单。今天的企业系统扩展远超出了企业数据中心的范畴,包括客户、供应商、业务伙伴和电子市场。这些系统与数据库、应用程序服务器、内容管理系统、数据仓库、工作流系统、搜索引擎、信息队列、Web crawlers、挖掘和分析包以及其它企业应用程序交互,它们需要大量的编程界面(ODBC [开放数据库连接]、JDBC** [Java**数据库连接]、Web业务、Java对象、J2EE** [Java 2平台、企业版本]),以及与大量的数据模式和语言协作(SQL [结构化查询语言]、XML [可扩展标记语言]、XPath [XML路径语言]、WSDL [Web业务描述语言]、SOAP [简单对象接入协议])。这些系统可以提供不同时间属性的数据,如实时(stock tickers、news wires)、现有(数据库)、稍微过期(中级缓存、数据库复制)和历史(数据仓库)数据。数据通过各种交付机制来生成,如(应用程序、数据库、文件、CD-ROM、连续的数据反馈、电子邮件、Web下载),并且格式多样(关系表、XML文档、图像、视频文件、音频文件)。
目前企业软件应用程序的挑战是信息集成。信息集成是将数据管理系统、内容管理系统、数据仓库和其它企业应用程序中的核心功能集成到一个通用平台中的一项技术。本文将详细阐述信息集成挑战的特性,介绍提供端到端解决文案来透明管理数据的数量和多样性的体系结构组件,以及目前市场上的数据管理系统。
这一平台的基础是强大的数据管理系统,它提供关系和XML数据存储,以及一组丰富内容服务器的接入。这一基础层利用数十年数据库技术的演进,藉此应对强大的数据管理相关的存储、检索、可扩展性、可靠性和可用性挑战。与这一基础层紧密结合的是综合业务层,它利用商务智能、内容管理和商务流程集成中的同步技术演进,这些技术可以减轻开发和管理复杂的企业应用程序工作。统一的界面层为基础层和综合业务层提供的大量业务和数据提供标准编程模式和查询语言。
下面我们将简要回顾数据管理基础设施和企业软件基础设施的发展史。我们将通过不同行业提供的案例来阐述信息集成挑战的范畴并拟定解决方案的需求。接下来的两个小节介绍满足这些需求的下一代企业软件技术平台的组件,显示这一平台如何满足上述需求以提供端到端的信息集成解决方案。最后进行总结。
企业软件技术发展历程
在过去30年中,数据管理系统一直是企业软件基础设施的核心,图1显示了它们的演进历程。20世纪70年代初关系数据模式和数据独立性概念的推出,使数据管理行业焕然一新并迅速赶超提供大规模数据管理的网络和分级系统。在接下来的二十年内,在IBM研发小组的杰出领导下,借助于存储和检索技术、并行控制和恢复以及查询处理技术,如基于成本的优化,等领域的关键创新,关系数据库发展成一种高性能、高容量的查询处理引擎。分布式系统和并行处理技术使全球企业能够管理大量的分布式数据。随着新业务需求的出现,可扩展的数据库架构允许用户轻松地引入数据类型、接入战略和索引方案。联邦的数据库技术提供强大且灵活的方法来透明接入全异的分布式数据源。
在数据库管理系统(DBMS)技术演进到管理商业数据的同时,其它重要的技术也同步发展,从而使用户可以更轻松地管理商务逻辑和商务流程。数据仓库、数据挖掘和OLAP(在线分析处理)技术增加了商务智能, 它提供对商务数据基于发现和基于假设的分析方法,以确定发展态势和模板,执行“假设”分析。数字图书馆和内容管理系统演进到管理大量数字媒体仓库, 从而提供登录和退出业务、权限管理和分级存储移植。信息处理系统和信息代理(message brokers)为企业应用程序集成提供基础设施,允许自主应用程序以可扩展的异步方式相互通信。工作流系统13有助于实现商务流程自动化,提供基础设施来管理订单的逐步履行、向适当的人选分配任务以及在适当的时间调用自动化步骤等流程。
商务应用程序与数据管理和企业管理系统一同发展,从而可以利用这两个系统的最佳特性来创建先进的软件程序,这些软件程序奠定了目前所有企业的基础。过去集成这些系统成为了企业应用程序开发人员的重负。但是企业不再能够容忍这种情况的出现。传统定制构建的集成系统不能够满足互联网的大范围普及带来的可扩展性和可靠性需求。重要的开发和计算资源都用于在系统之间传输数据,以及数据格式的相互转换。为了能够参与如今“全天候”全球市场的竞争,企业应用程序需要新的信息集成平台,它将过去三十年中企业数据管理方面的优势集成到单个、统一的界面中。
请点击看图1 向信息集成演进

许多商业系统和学院项目解决了综合的信息集成平台多个方面的问题。通常,其中许多方法从新构建优化用于满足特定目的的专用系统。例如,Tamino和Ipedo等产品致力于提供可以优化用于管理XML文件的数据仓库。同样,数据联邦提供稳定的研究基础和多种商业实施方案。TSIMMIS 、DISCO、HERMES和Information Manifold等项目构建专用的查询处理系统来探究联邦数据库技术的多种特性,如调整、补充和可扩展性。Nimble、Callixa和InfoShark等产品联邦数据库引擎外部的数据。Garlic和DB2 Relational Connect扩展了传统的关系数据库引擎,使之具有联邦的功能,DiscoveryLink 是使用这一技术构建的商业应用程序,主要面向生命科学领域。
实际上,DiscoveryLink的成功验证了信息集成的商业价值和强大性,它以商业数据库系统开始。正如图1所示,由于各方面的原因,目前全球正在对DBMS技术进行广泛的投资。数据库可以非常自然且强大地满足传统企业数据的存储、检索和可靠性需求,它可以轻松地支持大量的数据和接入模式。我们相信一个能够全方位拓展和增强DBMS体系结构的平台是提供强大的端到端信息集成的最佳方案。
请点击看图2 金融服务案例
当前的发展趋势显示信息集成是一种跨行业的挑战。从金融服务到制造业,这些行业都受到数据数量和多样性,以及互联网业务模式引发的业务连续性需求的冲击。在这一小节,我们介绍三个不同行业提供的案例来阐述集成挑战,以及根据这三个案例拟订解决方案的一般需求。
金融服务。我们的第一个案例是一家金融服务公司,它订阅了多种商业研究出版物。这些出版物提供格式为RIXML (研究信息标记语言)的数据, XML词汇表结合投资研究信息和标准格式来描述报告的元数据。报告可能来自企业内部和外部多个数据源,它可以通过多种机制来传递,如实时信息反馈、电子邮件分发表、Web下载和CD-ROM。图2显示了这类研究信息在公司内的传输流程。
当收到一份报告时,系统将按报告自身的XML格式进行归档,将音像剪辑发送到适当的媒体服务器。接下来,系统从报告中提取重要的元数据,如公司名称、股价和盈利评估,并将它存储到关系表中。 该公司在全球都设立了办事处,因此这类信息立即在多个位置进行复制。这类信息用于检测买/卖/持有价位发生的变化并向股票和债券经纪人和重要客户提出建议。挖掘应用程序更全面地分析原始文件及其提取的元数据,查询“合并”、“并购”或“破产”等关键字来对内容进行分类和汇总。汇总后的信息将与历史信息一同向企业的市场研究和投资银行部门提供。这些部门结合汇总后的信息以及存储在电子表格和其它文件中的财务信息来进行趋势预测和确定并购良机。
电信。在完成了与多家企业合并之后,一家电信企业依赖于度身定制的客户服务系统来为客户提供支持。这一系统包括多家通过并购获得的呼叫中心,如图3所示。当收到客户呼叫时,系统将它传送到适当的呼叫中心、记录并将它保存到音频服务器中,该音频数据也可以被转换成文本文件并保存到文本仓库中。为了响应呼叫,业务代表启动将用于跟踪故障处理的“故障票”。
请点击看图3 电信案例
首先,业务代表调用与客户相关的所有信息,它可以采用多种不同的格式,在多个站点之间进行分发或复制。例如,计费和账户信息可能来自于应收账款部门,而工程规范可能来自于产品开发部门,这两个部门都位于呼叫中心以外其它位置。XML用于在企业内部不同站点之间传输信息。接下来,业务代表开始排障,使用高级搜索引擎来帮助诊断故障。这种搜索依赖于先前的故障票提供的关键短语和故障类别,它们可能通过电话呼叫生成,或者从现场技术人员的信函或笔记中提取。
在初步诊断之后,业务代表将业务请求添加到将分配给现场技术人员的队列中并向客户返回确认码。现场工程应用程序从队列中删除该请求并将它分配给适当的技术人员,技术人员在移动设备上接收请求,开始修复。在企业的另一面,产品管理部门使用搜索引擎来查找常见的故障领域,客户使用模板来确定质量保证问题,发现需要的功能并确定新产品需求。
请点击看图4 货运代理案例(Freight brokerage)
货运代理。货运代理公司为客户提供服务,旨在在众多的商业航空公司中找到最低的运输费用。图4阐述了这一流程。客户和客户应用程序通过向代理公司发送一条XML信息(也许使用SOAP)来请求运输预订,在收到请求后代理公司系统将启动一个工作流程来进行处理。该工作流程对最初的请求归档,然后使用该请求信息来更新客户历史记录。承运人信息系统使用一组符合要求的承运人来匹配客户请求,联系外部的货运路线调度系统来确定可能的货运路线。接下来,承运人信息系统调用每家承运人的Web业务请求,联系每家相关的承运人来获得一份报价。系统将在答复中计算最终胜出的报价并通知客户,同时记录报价和答复以便进一步分析,它用于监视承运人伙伴、获得更合算的合同运费以及确定运输趋势和新机会。
信息集成需求。处理介绍的案例的系统必须依赖自己的API(应用编程界面)和工具提供的多种数据管理系统和企业应用程序,并且企业必需开发复杂的内部集成和管理软件来管理它们。虽然这三个案例出自不同的行业,但它们表达了这样一个信息,即传统存在于DBMS、数据仓库、内容管理系统和其它数据转换和集成业务之间的界限越来越模糊。这些案例之间的相似之处阐述了强大的信息集成平台一组常见的需求。
企业应用程序必需支持XML作为第一类数据模式。虽然在过去三十年内关系数据模式推动了企业应用程序的发展,但XML成为了便携式数据的混合语言。企业极其依靠它来实现企业集成。XML更适合于表示半结构化(semistructured)和(未结构化 )数据,并且与关系模式不同,它还提供元数据的标准表示法来描述这些数据。这种灵活性允许金融服务公司接收不同厂商发布的报告;为货运代理人提供一种通用语言来与多家承运人协商报价;使电信企业能够整合通过并购获得的多个客户支持系统。
企业依靠它们企业应用程序中多个、不同的数据源。金融服务公司依靠实时数据反馈、数据库电子表格和媒体服务器。货运代理人依靠外部货运路线调度系统和承运人的实时接入。电信企业应用程序需要接入多个自主的垂直应用程序。这些案例使用了信息整合,从多个数据源收集数据并整合到中心仓库,然后联邦,其中多个自主源的数据作为查询的一部分来接入,但不离开它们的原始源。某些数据源遵循一种模式,而其它数据源,如信息门户,并非如此。由于企业收到如此多的数据源发来的信息,因而用于描述数据源发送的数据的元数据与该数据一样重要。
通过统一界面来接入所有数据和业务的单个系统可以精简开发流程,提升性能。
今天的企业系统需要混合查询和数据转换业务并提出了越来越苛刻的性能要求。前面介绍的案例需要对存储在不同系统并使用不同格式的数据进行参数化查询、纯文本查询、挖掘和数字化资产管理业务。虽然目前市场上提供了具有不同API的专业化系统来处理各类查询,通过统一界面来接入所有数据和业务的单个系统可以精简开发流程,提升性能。
这些案例还表明,企业流程天生就是不同步的。报告故障的客户可以使用确认码,无需在排除故障的同时一直拿着电话不放。繁忙的股票交易员不希望被大量的信息淹没,实际上,他们更喜欢在需要的时候获得正确的信息。而且,连续可用性需求意味着在故障时应用程序必需能够继续运行。数据源和应用程序有规律的启动和休眠(come up and go down),数据馈入可能被硬件或网络故障中断。如果电信客户服务系统处于休眠状态,现场技术人员将继续进行分配给他们的修复工作。如果特定的承运人不可用,货运代理人应协商可用的承运人提供的报价。这些例子显示信息处理和工作流系统像数据管理一样,是企业应用程序的一个完整部分。
最后,这些案例中应用程序的复杂性阐述了开放标准的基本需求。这类应用程序联邦大量的数据源、管理系统和应用程序。如果未制订管理它们界面和统一编程模式的标准,那么整合和管理这类动态环境中的新数据源的工作将非常庞大,而且招聘和留住具有开发集成软件所需技能的员工的成本将很快超过系统自身创造的价值。
请点击看图5 三层信息集成体系结构
在本小节,我们介绍可以应对信息集成挑战的强大技术平台的三层体系结构。图5显示了这一体系结构。基础层支持不同数据源的不同格式数据的存储、检索和转换。在基础层之上构建的集成层利用企业集成应用程序,提供将数据接入业务透明嵌入到企业应用程序和商务流程中的基础设施。顶层提供基于标准的编程模式和灵活的查询语言支持,以接入基础层和集成层提供的一套丰富的业务和数据。
请点击看图6 基础层体系结构
基础层。如图所示,基础层位于信息集成平台的核心,提供一套核心业务来存储和检索全异的数据。基础层基于可以在所有层扩展具有数据集成功能的高性能DBMS引擎。这些扩展包括支持XML作为本身的数据存储、Xquery作为本身的数据集成语言以及提供外部数据接入的联邦数据接入组件,好像这类数据本身由DBMS引擎来管理一样。
图6显示了这类引擎的组件。最低级别为数据接入组件,它提供API来有效存储和检索永久性存储设备的数据。两个数据接入组件提供用于本机数据。通过关系数据接入组件来存储、索引和检索结构化数据,提供子程序来有效存储、索引和导航分级XML结构的新数据接入组件可以接入本机的XML数据存储。
除了用于本机数据存储的数据接入组件之外,集成引擎还提供用于外部数据的联邦数据接入组件。用户可以通过这一组件来透明接入大量的数据源和丰富的内容供应源,包括外部数据库、文件系统、文件存储、基因数据库和多媒体对象服务器。外部数据源可通过wrapper来接入, 它提供一个界面,集成引擎可以通过这一界面来制订存储和检索数据、管理事务处理和对外部数据执行功能的执行计划。除了集成的查询支持以外,信息集成客户机通过联邦的数据组件接入还可以接入面向内容的功能,如图像查找、多媒体流和生物信息建模。
查询编译器位于数据接入组件的上方,提供可以用来有效存储和检索数据的Xquery和SQL查询语言。与使用何种语言无关,请求被传送到查询编译器来解释该请求并生成执行计划来处理该请求。查询编译器使用基于语言的语汇分析器和解析器来解释请求和广泛使用XQGM (eXtended查询图表模式)结构。XQGM是Starburst Query Graph Model (QGM)的增强版本,它提供比QCM更丰富的语义表示法,包括原始的XML数据模式表示和外部数据源的联邦接入。查询编译器分析XQGM、研究执行该请求的多种战略以及从其最小成本的备选方案中选择一项计划。作为分析的一部分,查询编译器考虑XML数据存储的索引和导航算法、确认外部数据接入以及调用适当的绕接器(wrapper)查询规划子程序来生成有效的外部接入计划。运行时间执行引擎执行选定的计划,与关系数据存储、XML数据存储和联邦接入层交互,以结合适当的数据来履行最初的请求。运行时间引擎包括XML数据接入的Xpath处理运算符(Operator),以及联邦接入的运算符。
与查询处理和数据接入组件一起,信息引擎提供所有数据管理系统需要的一组系统业务,包括鉴权、代码页面管理、登录、恢复、事务管理和事务监视界面,如那些WebSphere提供的界面。
集成业务层。存储和检索级别的数据集成不够支持今天的企业应用程序。比接入不同数据源且采用多种格式的数据更为重要的是知道什么信息可用以及如何使用。集成层提供在可用的信息海洋中进行导航的基础设施并把它部署在用于企业应用程序的环境中。下面介绍集成层提供的关键业务。
元数据。对于全面使用可以通过基础层接入的大量数据源的企业应用程序来说,描述什么内容和业务可用的元数据至关重要。这类元数据由基础层来管理,集成层打包并汇总这类信息以便客户机应用程序导航。这种方法允许客户机应用程序使用相同的API和查询语言来查询元数据和基础数据。
元数据分为两类:系统元数据和应用程序元数据,系统元数据描述资源以及可以在这些资源上运行的业务,应用程序元数据提供关于数据对象以及它如何与其它对象关联的基于域的知识。例如,系统元数据包括关于数据源信息、功能签名、数据格式和索引信息。系统使用这些信息来管理基础数据,处理请求,它们还可以做为客户机应用程序动态发现什么内容和业务可用的重要信息源。本体(Ontologies)、模式(Schema)集成技术和工具可以用于把关联域中不同应用程序的数据映射到通用模式中。应用程序元数据经常包括关于该数据的基于域的注释,它可以帮助用户更深入地理解数据以及它们是如何与其它数据相关联,它们还可以用于把数据从一种表示法转换成另一种表示法,或者提升关注用户查询感兴趣的对象的能力。在金融服务案例中,研究报告中提到的行业、企业和分析家列表等数据都是应用程序元数据的例子。管理元数据的关键是模式映射和模式集成。
内容管理业务。当企业应用程序构建、存储和管理复杂的商业对象时,将创建应用程序元数据,这些商业对象组成多个数字资产。例如,金融服务研究报告包括一份XML文件、多份PDF(便携式文件格式)文件和一份音频或视频剪辑。电信故障票包括客户账户信息、音频剪辑和多份文本文件。集成层提供一套核心业务来管理这些对象及它们的组件,包括登录/退出业务、版本、接入控制和数字权限管理以及分级存储移植业务33。
集成层为数字资产提供URL寻址性,这些数字资产很大并具有与它们相关的基于内容的操作,如媒体流、文件渲染(document rendering)和图像查找。客户机应用程序可以通过查询元数据来查找感兴趣的对象,集成引擎将返回与该查询相匹配的对象的URL。然后客户机可以通过URL直接接入和管理对象。
文本查找和数据挖掘。必须对未结构化的信息进行分析和分类以便企业应用程序使用,对于实时决策来说,答案的及时性是确保质量的关键要素。集成业务层通过向与基础层基础设施紧密结合的综合查询提供多种功能来运行这一分析。
请点击看图7 综合查询业务
综合查询功能如图7所示。基础层中的Astate-of-the-art文本索引引擎提供对集成数据进行原文本查找的基础设施,包括结构化数据、XML文件和用户定义的结构。第二类综合查询提供查询语言结构,以在单个查询中透明结合文本查询和参数查询。除了一种语言的编程优势之外,这种方法允许查询编译器拓展这些语言结构并优化联邦查询。最后,基础层中本来的挖掘算法提供特性提取、汇总和分类业务,并且可以通过该查询语言来调用这些挖掘业务。而且,将挖掘算法嵌入到基础层中允许查询编译器优化这些查询,它可以实现卓越的性能。
通过通用界面和查询语言来进行综合查询和挖掘的关键优势是数据的可操作性(actionability)。例如,通过结构文本查询和特性提取以及数据库触发器,可以对未知内容的数据进行分析并迅速传送到感兴趣的用户。
工作流、信息处理和商业流程集成。
在连续可用的环境中运行的全球企业需要异步通信和信息处理来开发可扩展和容错的商业应用程序。集成业务层使用工作流引擎来透明调度和管理长时间运行的数据密集型应用程序和自身的功能,它们在数据操作内部集成保证的信息传递。
应用程序界面。应用程序界面层提供允许应用程序接入和管理基础层和集成业务层提供的数据和业务的界面。它支持多种API、查询语言和编程模式以实现最大的灵活性。根据应用程序要求和编程人员的偏好,数据可以根据结构化数据模式来检索,如XML文件,或XML文件分段。关于这些方法的详细信息将在下面介绍。
编程界面。应用程序界面层通过嵌入式SQL、ODBC34和JDBC35,结合使用广泛的编程语言来全面支持传统的数据库编程。这些API包括支持XML数据以及关系数据的扩展36。ODBC和JDBC和其它流行的数据库API本身是同步的,不能很好地适用于处理不持续可用、数据接入中的长延迟或多个信息传送源和目标的数据的应用程序。对于这些类型的应用程序来说,应用程序层提供信息处理和Web业务编程模式,以及一套构建面向异步环境的应用程序的工具。
查询语言。 实践证明,SQL是一种极其强大的检索结构化数据的语言,XQuery作为查询半结构化和未结构化数据的语言。应用程序层支持这两种语言,任何一种语言都可以用于接入基础层视为SQL或XML数据支持的联邦内容。查询可以透明地结合关系表、XML存储的数据以及从外部服务器检索到的数据。对于那些使用SQL来检索XML数据的应用程序来说,该文件或文件分段作为某特定行数据的列值被返回。对于那些选择Xquery来接入关系数据的应用程序来说,应用程序层提供单表或多表的XML视图,查询结果作为XML文件返回,它附带该视图定义的标记。
解决方案
现在我们回到金融服务案例,阐述刚才描述的体系结构如何应对信息集成挑战。图8显示了使用这类平台为投资银行部门构建的门户应用程序。这一门户方便用户接入从外部厂商购买或公司内其它部门制订的市场研究报告,如交易室提供的“晨会(morning meeting)”总结。
图8描绘了纽约交易室生成的XML文件流程,它汇总了晨间报告(morning call)。该文件包括RIXML部分,它提供关于集会的元数据,如提到了那些分析家、企业和行业。 它还包括一个音频剪辑和包含该集会多种语言版本的多份PDF文件。
图8左侧显示收到了晨间报告文件。信息集成平台通过嵌入到编程界面中的异步侦听来接收报告,在收到报告后将立即启动一个工作流程。工作流的第一步是存储最初的XML文件到本身的XML存储中,将关于源、格式和接入权限的信息存储到系统元数据存储中的文件中。工作流的第二步是调用索引和挖掘业务来索引、分类和汇总晨间报告的内容。第三步是提取PDF文件,将它们转发到文件服务器并将这类文件的语言信息记录到系统元数据存储中。最后一步是提取音频剪辑并将它转发到流式媒体服务器以便存储。
图8的右侧阐述接入晨间报告以及多份其它文件,包括其它晨间报告、行业评述和公司报告的门户应用程序。该应用程序发布最近收到的文件的Xquery请求并在Web页面上显示文件汇总。系统元数据的接入控制作为处理该Xquery请求的一部分来进行,因此,只检索应用程序有接入权限的文件。返回到原XML文件的内容由基础层不同的存储和接入组件提供。例如,系统元数据提供关于文件源和结构的信息,文件类型和汇总可以通过工作流程某一步骤提取的挖掘信息来了解。集成引擎起源于与系统元数据和代码页面提供的文件相关的PDF文件修订版本,为其计算URL,门户应用程序使用该URL,通过联邦接入组件来检索文件服务器上的文件。同样,集成引擎为晨间报告的音频剪辑生成一个URL,以便门户应用程序用来精简媒体服务器发送的音频。
请点击看图8金融服务案例的信息集成
Mary A. Roth IBM 软件部,硅谷实验室,555 Bailey Avenue, San Jose, California 95141 (电子邮件:torkroth@us.ibm.com)。 Roth女士是IBM硅谷实验室电子商务数据库技术部的高级工程师兼经理。她在数据库研发方面拥有12年的工作经验。作为IBM Almaden 研究中心的研究人员和Garlic项目成员,她在全异的数据集成技术及联邦查询优化方面作出了重大的贡献,致力于把Garlic支持转向DB2。Roth女士领导开发人员小组来为Xperanto-IBM面向分布式数据接入和集成的信息集成计划提供一组关键组件。
Daniel C. Wolfson IBM软件部,11501 Burnett Road,Austin, Texas 78758(电子邮件: dwolfson@us.ibm.com)。Wolfson先生是电子商务数据库技术部的高级技术员工成员兼经理,在分布式计算方面拥有15年以上的工作经验,他的兴趣非常广泛,涵盖数据库、信息处理和事务处理系统。Wolfson先生是信息集成领域的主要设计师,专攻DB2与WebSphere、MQSeries®、工作流、Web业务和异步客户机协议的集成。
James C. Kleewein IBM 软件部,硅谷实验室,555 Bailey Avenue, San Jose, California 95141 (电子邮件:kleewein@us.ibm.com)。 Kleewein先生是IBM硅谷实验室数据库体系结构、战略和技术领域的著名工程师,他为IBM工作15年了。Kleewein先生的专业技术涵盖广泛的IBM数据管理产品,包括IMS™、DB2/MVS、DB2/390、DB2 Sysplex数据共享、DB2 Spatial Extender、DataJoiner®和DiscoveryLink。Kleewein先生是Xperanto的主要设计师,关注通过向DB2引擎添加XML功能,将DB2的职责从结构化数据存储扩展到结构化和半结构化数据存储。
Constance J. Nelin IBM 软件部, 11501 Burnett Road,Austin, Texas 78758 (电子邮件: nelin@us.ibm.com)。Nelin女士是IBM数据库先进技术领域的高级技术员工成员。她从1987年开始为IBM工作,专攻数据库应用程序开发支持和工具。Nelin女士负责应用程序开发工具战略、体系结构和数据管理开发,这包括整个DB2系列的应用程序开发支持,涵盖核心关系数据库、联邦数据库、XML、Web业务和信息处理特性领域。





IBM小机AIX等系列培训,北京,已经推迟,欢迎关注http://www.loveunix.net/thread-86749-1-1.html

提供IBM小机及存储相关专业技术咨询、实施、维保和培训,代理备机及配件。EMAIL:allenlong68[at]hotmail.com。[at]换成@

AIX交友QQ群:24807728(群是朋友聊天用的,技术请在论坛谈。群满,不活动的会被请出,给新人腾位置)
QQ里谈技术没积累,是方便自己麻烦别人。在论坛里讨论,可以大家都参与,并留下参考。
技术不是简单看个文档就能提高的,多参与讨论进步快。对问题有见解的就发一下,说对了是帮助别人,说错了给机会纠正自己。
顶部
[广告] 记录自己的思想火花,留住每日的技术积累,尽在拥有属于自己独立域名的博客。
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:54  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
技术前沿与趋势

中文知识管理风光无限 ── 浅谈针对中文知识管理专门开发的一些技术

IBM中国研究中心 潘越博士

潘越博士于1998年加入IBM中国研究中心工作至今。他1996年于中国科学院自动化研究所获博士学位,曾就职于信息产业部信息化工程总体研究中心。先后主持过国际互联网内容选择平台(PICS)、跨语言检索(Native Search)、中文知识门户技术(Chinese Knowledge Portal)、市场情报门户(Market Intelligence Portal)等项目的研究开发。目前的研究兴趣包括信息检索、自然语言处理、知识的表示和推理等。

中文知识管理特别是文档管理技术和文本挖掘与检索技术等技术对DB2未来发展有着重要意义,事实上在DB2 的背后一直有着IBM 强大的技术研发力量的支持,也正是这些重要的技术保证IBM DB2 在数据库及信息管理领域的领先地位。

知识就是以文字或语言的形式保存的信息资源与人头脑中具有的经验、思维的综合,它通常隐性地存在,不容易直接为人们发现。知识管理就是对知识加以有效的识别、获取、存储、分解、利用、传递和扩展的过程,从而改进和提高个人、部门和组织的创新能力、响应能力、生产力和技能素质。它可以在适当的时候把相关的信息与知识传送到适当的人员,使其能够有效地利用信息与知识,采取行动,产生效益。知识管理实际上是对人与信息资源的动态管理过程,人是知识管理的核心,信息是知识管理的基础,创新和效益是知识管理的最终目标。

知识管理技术是实现有效知识管理的基础,是协助人们识别、获取、存储、分解、利用、传递和扩展知识的一种技术体系。它包括的技术内容非常繁多,其中最重要的是文档管理技术、文本挖掘与检索技术、企业知识门户技术等。

主要知识管理技术

(1)文档管理技术
知识管理技术中的文档管理不是信息技术里的文件管理,更类似于档案管理。它具有分类归档、外部特征管理、关键词管理等功能。分类归档功能用于把各种体裁的文档纳入知识管理系统的文档管理系统中,包括新闻稿、产品说明书、设计资料、演示文档、工作报告等企业运营中产生的各种文档,同时系统还能将上述文档在目录中列出、打开和编辑。外部特征管理功能,能自动提取文档的外部特征,并允许按文档外部特征进行检索。关键词管理功能允许使用者给出文档的关键词以便检索。文档管理最重要的价值在于将原先要由不同系统处理的各类文档集中在一个平台下统一管理。

(2)文本挖掘与检索技术
知识管理技术的最大瓶颈是如何在海量的非结构化文档中又快、又准、又全地找到用户所需的文档。毫无疑问,检索是知识管理的核心技术,检索的效率和质量决定了知识管理解决方案的优劣。

检索技术通常采取两种方案:一是将文档归入一个有序的结构,再按结构规则提取文档(检索),这种方法也被称为文本挖掘(text mining);另一种方案是不建立结构,在检索时,用户自由地输入检索词或短语,由系统进行匹配,并将匹配到的文档按检索词出现频率的统计规则提供给用户,即全文检索。

结构化方案本身又可分为两种:一是由机器根据文档特征,按一定算法自动建立有序的结构,并将文档归入该结构;其二是人工建立结构,再人工将文档归入结构。第一种方法的代表产品是IBM的DB2 Text Miner。第二种方法通常采用的结构是树状分类表,文档内容按分类表归入某一个最终子类,检索时可按树状结构一层一层地找到文档。除分类表外,还有另一种方法--主题词表。它将本领域的主要概念(主题词)收集在一起,按文档内容所涉及的主题,从主题词表中选出若干个概念,作为该文档的标识,并存入数据库。以后,只要从主题词表中选出合适的主题词,就可以提取文档。

(3)企业知识门户技术
企业知识门户现在已经成为知识管理系统的标准配置。对用户来说,企业门户是信息系统的唯一界面,日常工作的一切事务都可在企业门户中完成。例如,在企业门户中可以打开各类文档进行编辑、访问数据库、访问Internet和Intranet、收发邮件、进入工作流操作等。企业门户还可以按不同需求定制。总之,企业门户试图将日益复杂的应用集成到一个统一的平台上。

除此之外,知识管理技术还包括数据仓库、工作流、专家系统、商业智能等技术。但是由于理解不同,至今为止还没有统一、科学和规范的知识管理技术分类标准。

针对中文的知识管理技术

中文是世界上使用人口最多的语言,但现代信息技术对中文的贡献却远远落后于其它语言。目前成熟、领先的知识管理技术都针对于英语、法语等语种,在中文内容的理解、检索和表示上都存在着或多或少不尽人意的地方,对中文内容管理技术的投入也远远低于其他语言。此外,中国企业的管理体制与西方大不相同。如果直接应用国外的知识管理工具,可能会存在很多水土不服的地方。因此需要针对中文知识管理专门开发一些技术。

IBM一直致力于中文自然语言理解技术的研究,并且在此研究基础上,开发出了一系列用于中文知识管理的技术,包括中文智能检索技术,中文摘要智能生成技术,中文文本自动分类技术,中文文本自动聚类技术,中文主题检测与追踪技术以及中文文本消重与相似检索技术。在这些技术中,IBM采用了最新的自然语言处理算法,通过运用这些技术,可以大大提高中文信息检索速度和质量,从而加快中国企业信息化和管理科学化的发展。

中文智能检索技术:中文智能检索技术是为知识发现提供服务的一项技术。它一般包括索引创建、查询处理和结果排序等内容。为了提高中文检索的速度和准确性,IBM的中文智能检索技术在检索的整个过程中都使用了先进的中文处理技术,同时还考虑最终用户的使用环境与习惯,使查询结果能够最大程度地满足用户的要求,从而提高用户的查询效率。

文本自动分类技术:分类是为知识管理提供文件分类归档的一种重要方法。通过分类,用户可以更快速、精准、有效地取得并处理所要的数据。在文本自动分类技术中,用户只需要事先定义好分类器的架构,并经过适当的训练,之后系统便可以依据分类器的内容对新的文本自动分类。分类时,除了用参考以前训练样本的统计数据外,用户还可以指定特殊的规则进行分类时的参考。这个技术可应用在多个领域中,例如:在网站管理中,管理员可以建立并训练好分类器,以后每当有新的文章到来时,就可以利用分类器快速得知它属于哪个类别。

文本自动聚类技术:自动文件聚类技术是为知识管理提供文件分类归档的另一种重要方法,它可以让用户对大量的文章进行快速且粗略的分类。用户事前完全不需要对系统进行训练,系统会根据文件的内容,自动将内容相近的文件归成同一类。通过本技术,使用者可以对大量的文章进行快速的分类。

自动摘要生成技术:自动摘要生成技术可以针对中文文档摘取出重要的句子,产生属于该文档的摘要。应用这个技术,用户可以快速从多篇文章中,挑出重要的或感兴趣的文章阅读。使用时,使用者可动态决定生成摘要的大小,摘要的内容,并可针对多篇文章产生一份摘要。

主题侦测与追踪技术:主题侦测与追踪技术包含了主题侦测和主题追踪两个功能。用于发现输入流中的新主题,并自动跟踪相关主体的文章,可应用于很大的文档集合。

自动查重和文章相似检索技术:自动查重和文本相似检索技术可以帮助用户自动发现重复文章、相似文章,可以应用于文档查重等诸多领域。

IBM所提供的这些中文信息检索技术不仅满足了中国企业知识管理的简单、快速、全面、精确的要求,大大提高了工作效率和知识发现能力,而且还进一步巩固了IBM在该领域的领先地位。目前,这些技术正在一些领域得到广泛应用。






IBM小机AIX等系列培训,北京,已经推迟,欢迎关注http://www.loveunix.net/thread-86749-1-1.html

提供IBM小机及存储相关专业技术咨询、实施、维保和培训,代理备机及配件。EMAIL:allenlong68[at]hotmail.com。[at]换成@

AIX交友QQ群:24807728(群是朋友聊天用的,技术请在论坛谈。群满,不活动的会被请出,给新人腾位置)
QQ里谈技术没积累,是方便自己麻烦别人。在论坛里讨论,可以大家都参与,并留下参考。
技术不是简单看个文档就能提高的,多参与讨论进步快。对问题有见解的就发一下,说对了是帮助别人,说错了给机会纠正自己。
顶部
[广告] 记录自己的思想火花,留住每日的技术积累,尽在拥有属于自己独立域名的博客。
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:55  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
IBM 数据管理工具技术优势及应用

数据管理工具在 IBM 数据库产品家族里占有重要的位置。IBM 数据管理工具的目标是为使用 IBM DB2,IBM IMS(IBM 的层次型数据库管理系统)IBM IDS (Informix Dynamic Server ) 的用户和合作伙伴通过使用该工具更有效的提高数据库系统的性能,更容易的管理系统的有效资源,减少运行费用。达到少投入,多产出的目的。 IBM 数据管理工具为使系统管理简单化和减少整体系统开销,在数据库系统中采用了SMART(Self-Managing and Resource Tuning 自我管理和资源调整)的技术。
该技术的主要特点是:IBM 数据管理工具可以主动帮助用户降低管理复杂度,并通过系统自我管理能力的提升来自动的提高服务质量; 通过系统的自动化操作,提高数据库管理人员(DBA)的工作效率,减轻 DBA 的繁重的工作;将数据库性能调整和数据库恢复自动化; 灵活的支持多种平台和多种数据库系统,主要包括IBM AIX®、Linux®、Microsoft® Windows®、HP-UX 和 Sun Solaris 等操作环境和 DB2,Imformix,IMS 。
IBM 数据管理工具是 IBM 数据管理解决方案的一个重要的组成部分。它使用户为更有效合理的利用系统资源,高速度的运行自己的应用, 满足日益增长的业务要求提供了高效的工具。 IBM Data Management Tools for DB2 专门为增强 IBM DB2 Universal Database®在 IBM AIX®、Linux®、Microsoft®Windows®、 HP-UX 和 Sun Solaris 等平台的性能和自动管理能力而设计。
IBM 数据管理解决方案
随着数据管理技术不断的飞速发展和市场竞争的日益激烈,政府决策机构、企事业单位对数据管理技术的要求也越来越高。从用户需求的角度看,可以划分三大类:对传统的、日常的事务处理,也即我们经常提的联机事务处理(OLTP)应用;联机分析处理与辅助决策,既商业智能(BI);对非结构化数据和历史数据的存储、分析、处理和展示,既内容管理。对于现实世界的实际要求和不断发展的变化,上述的三大类的需求也随着技术的更新、完善再不断的发生着变化。从应用技术的处理方式看:从早期的单点处理、90年代的分布式处理、到目前的大集中与于分布式相结合的处理方式。从计算机技术使用角度看:除IBM的大型主机系统一直占主导地位外,以UNIX为主的开放平台从单CPU、SMP到MPP(海量并行处理);从数据库技术的体系结构看:从单纯的进程处理方式的体系结构、客户/单服务器(Client/Server)、客户/多服务器体系结构、共享磁盘(Share Disk)的体系结构到非共享的并行(share Nothing)体系结构.。
IBM 的数据管理解决方案,根据用户的不断变化的要求,在不断的增强功能、完善解决数据管理解决方案的各个环节, 满足用户对系统要有高效的性能、随着业务的变化要有可扩展能力、对庞大的系统使数据库管理人员(DBA)能够更容易的管理、 对应用开发人员更方便的开发、使系统有很好的可用性、互操作性、安全性、集成能力等要求 。实践证明 IBM 的数据管理解决方案是当今功能最全、 处理能力最强、考虑最全面的数据管理解决方案。它管理现实世界的所有结构化和非结构化数据,集成所有异构数据库管理系统,包括层次的、 网状的和关系的,支持非共享的并行体系结构,提供了容易的可扩展能力;BI 及数据仓库解决方案,除为用户提供了数据的抽取、数据存储、 数据展现的功能之外,还提供了数据挖掘工具,为深度的决策分析提供必备的手段;IBM 的内容管理是一套面向 Web 的内容管理集成方案, 该方案具有实时和无缝访问数字化、索引化内容的能力;IBM 的企业数据管理工具集,提供了命令中心、控制中心、性能分析界面、事件分析器、 数据仓库管理中心、存储过程创建器等为数据库管理人员、应用开发人员提供方便易用的工具。综合起来 IBM 数据管理解决方案主要有六大部分组成:
  • 企业信息集成(IBM 企业信息门户 Enterprise Information Portal)
  • 数据库管理服务器(IBM DB2,Informix,IMS)
  • BI 及数据仓库解决方案(DB2 Warehouse Manager,DB2 OLAP,Red Brick,DB2 Intelligent Miner)
  • 内容管理解决方案(Content Management )
  • 企业数据管理工具(Data Management Tools)
  • 核心应用,核心 ISV 合作伙伴
IBM 数据管理工具
IBM 提供的数据管理工具主要可分为四类:
  • 数据库管理工具集。用于帮助用户精简数据库管理任务,并提高系统整体效用。
  • 性能管理工具集。如要在高需求的情况下提高峰值运行水平,可采用性能管理工具集。
  • 恢复与复制工具集。针对用户的备份和恢复要求, IBM提供了各类恢复和复制工具集合。
  • 应用管理工具集。由于业务增长意味着对用户数据的更大需求,IBM 提供应用管理工具集可支持用户从全球快速获取贵公司的信息。
上述四种分类使用户能够领略到IBM工具所提供功能的广博性,用户能够从每一类产品中按需选择任意数目的 IBM 工具, 创建一个完整、灵活和经济实用的解决方案。
1. IBM 数据库管理工具集
多平台版 IBM DB2 高性能卸载(High Performance Unload),版本 2.1(5724 -B90)
响应迁移或者重新组织的需要,快速有效地卸载数据。从 Tablespace 或一个映像拷贝中快速卸载 DB2 的数据库表, 同时根据用户定义的格式将数据库表中的数据卸载到多个文件中。
2. IBM 性能管理工具集
多平台版 IBM DB2 性能专家(Performance Expert)版本 1 (5724-B92)
Performance Exper 可以方便的提供 DB2 数据库性能分析,报表信息和性能调整建议(SMART)。 Performance Exper 支持多种平台,包括(z/OS, S/390,Microsoft Windows, HP-UX, Sun's Solaris IBM AIX and Linux)。
3. IBM 恢复和复制工具集
多平台版 IBM DB2 恢复专家(Recovery Expert)版本 1(5724-B91)
DB2 Recovery Expert 应用 SMART(自我管理和资源调整)技术可以对数据库系统进行自我诊断,实现便捷,全面, 自动的数据恢复功能。
4. IBM 应用管理工具集
多平台版 IBM DB2 表格编辑器(Table Editor),版本 4.3 (5724-B33)
一个多平台的,功能强大的 DB2 数据库表维护工具,用户可以方便的对多平台 DB2 数据库表中的数据进行建立,更新,删除, 并可保证数据的安全性和一致性。表编辑工具可以支持 WINDOWS 和 JAVA 平台,用户也可以通过浏览器对数据和表进行维护。 包括对 Informix Dynamic Server 的支持。
多平台版 IBM DB2 网络查询工具(Web Query Tool),版本 1.3 (5724-B34)
WEB 查询工具是一个基于 WEB 应用,它不受数据库大小,硬件,操作系统影响,可以安全高效的查询。无论是开发人员, 系统管理员或最终用户都可以使用浏览器对任何平台上的 DB2 数据库进行查询访问,同时可以将查询结果转换 XML 或其他通用文件格式。 包括对 Informix Dynamic Server 的支持。
实际案例
IBM 的数据库工具集为用户提供了更为易用的管理能力,用来帮助简化数据管理的工作,减少计算成本来提高系统管理的质量。 例如 Aberdeen 集团,系统管理需要占用将近 75% 的整体数据库系统成本。通过 IBM 今天提供的 20 种新工具,包括新的自我管理专家 (self-managing expert),帮助用户大大降低复杂性,并且在系统性能方面自动地获得提升。
由于 IT 领域内 DBA(数据库管理员)数目的不足,使得对系统自动操作的需求不断增大,2000 年, IBM 投资 2 亿美金用于数据库工具的开发就是为了满足这一需求。在过去的 18 个月中,IBM 的数据库工具业务增长了三倍, 单单在 2001 年就增长了 240%。
AMICA 互助保险公司,国家汽车行业养老互助保险公司,提供住房、生命、航海以及个人保险业务等。 就是依靠 IBM 的数据库工具来优化数据库性能和进一步提高可用性。
“在 AMICA,我们最初被 IBM 的数据库工具所吸引的,是整体成本的降低。我们已经很快地意识到对多项任务来说它们是如此地不可缺少, 它们可以自动完成基本的数据库维护工作来帮助减少数据库查询的成本。”AMICA 的数据库部门经理 Rick Buckley 这样说,“在 AMICA 的 IT 环境中, 依靠 IBM 的 DB2 工具,我们的 DBA 有更多的时间来专注于有附加价值的项目,比如将我们支持更高级别客户服务的系统进行升级。”
AMICA 互助保险加入了一个正不断增长的名单中,这个名单上的公司都依靠 IBM 的数据库工具来提高生产力,并节约成本, 这份名单中包括 Bank Of America,Verizon,DaimlerChrysler, Travelers, Sprint PCS, Home Depot, Progressive, Unicible, the German Government and CSC Denmark。





IBM小机AIX等系列培训,北京,已经推迟,欢迎关注http://www.loveunix.net/thread-86749-1-1.html

提供IBM小机及存储相关专业技术咨询、实施、维保和培训,代理备机及配件。EMAIL:allenlong68[at]hotmail.com。[at]换成@

AIX交友QQ群:24807728(群是朋友聊天用的,技术请在论坛谈。群满,不活动的会被请出,给新人腾位置)
QQ里谈技术没积累,是方便自己麻烦别人。在论坛里讨论,可以大家都参与,并留下参考。
技术不是简单看个文档就能提高的,多参与讨论进步快。对问题有见解的就发一下,说对了是帮助别人,说错了给机会纠正自己。
顶部
[广告] 记录自己的思想火花,留住每日的技术积累,尽在拥有属于自己独立域名的博客。
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:57  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
信息整合技术及解决方案 Information Integrator

作者:IBM 软件 Barry Devlin 博士
数据仓库正在改变,改变以因应新的商务需求。当然,原来对数据存储的许多要求仍然存在,比如要能带来商业价值,要使数据简洁和前后一致, 要可以对信息随意分块、切片和挖掘。对数据仓库的新的基本要求涉及数据的时效性和可扩展性-其目的在于使企业级用户在需要时可以得到当前的、 远程的或非结构化的数据。所有这些数据必须与用户过去通常通过数据仓库和数据中心提供的历史信息进行无缝集成。
这些要求是在过去几年中逐步显示出来的。IT 机构通常是通过创建运作数据存储(ODS)或干脆以更高的速度周期性地向数据仓库加载越来越多的数据, 来满足对数据存储的新要求。然而,向数据仓库不断存入新的实时数据的方法成本很高,对大多数企业来说很不划算。而且有些数据(甚至可能是很重要的数据), 由于它们的用法、大小或格式不适合于数据仓库或用户查询,因而不能或不需要保存在数据仓库中。
为了成功地满足这些需要,企业需要新的方法,不必首先将所有数据存入数据仓库就可以对信息进行集成和发送。这正是 IBM 信息集成观所要达到的目标。 该目标旨在实现数据位置和格式对用户或应用程序的透明,使传统数据仓库的中央、本地访问与对远程数据的分布式访问可以统一在同一个基础架构内。
所以,不要害怕!我们并不是要您舍弃您在数据仓库方面投入的所有设备和资金。实际上,从许多方面来说,信息集成都是您过去为建立和维护现有数据仓库所做努力的自然和合乎逻辑的延伸。 首先,本文概述了数据仓库技术在过去 20 年里的发展历程。它向人们说明了为什么数据集成是数据仓库技术的基础,并进而阐述了为什么信息集成概念是数据仓库技术逻辑发展的必然结果。 它还描述了对几近实时的数据和在数据仓库中进行一定程度的读/写操作的不断增长的需要,如何迫使传统数据仓库架构发生了改变。
然后,本文集中论述了信息集成在分布式访问方面的内容,正如 IBM DB2 Information Integrator 所提供的那样。 它描述了这一技术如何对数据在本地、在有所规定、有所控制的环境下进行直接访问,从而满足这些新的商务需要。 它还专门讨论了该联合功能在哪些情况下适合和不适合使用的问题。最后,本文列举了一些关于 DB2 Information Integrator 如何通过扩展已有的数据仓库来满足新商务需要的实例。

数据仓库——20 年的成长历程
当初企业需要数据仓库技术的原因是众所周知的。简单地说,就是利用数据仓库为最终用户提供可用和易懂的商业信息。 虽然其中一些信息已经存在于企业的 IT 系统中,但显然还有巨量的原始数据在那里,并可以转换成有用的信息。
为满足这些商业需求,IBM 和其他公司一起于 20 世纪 80 年代中后期提出了现在已被广为接受的三层数据架构。 但是,为什么要把数据分为那么多层呢?这里有两个基本原因。第一是出于性能上的考虑。 如果允许最终用户的复杂查询运行于为其他目的而设计和优化的运作系统上,则这些查询可能会严重影响这些底层系统的性能。 同时,最终用户查询的响应时间也可能很差。这便要求数据架构至少要分二个层次,一个在本质上为运作层,另一个为信息层。
采用三层架构的第二个原因是使多个业务观点建立在统一的信息基础之上。这里需要解释一下。首先,大家知道,由于其定义的时间和目的不同, 各种运作系统看待世界的观点也不同。比如,一个系统对:“客户”的定义可能与另一个系统的不同。记录集可能相互重叠, 记录明细可能不一致。为了提供一个一致、全面的业务观点,首先要对基本运作系统数据进行协调,使之保持一致。 这些经过协调一致的数据及其历史,以基本上标准化的形式存入商务数据仓库(BDW)中。虽然解决了一致性问题, 但这些数据还不是企业需要的形式,也不具有查询的可操作性。数据架构的第三层,数据中心,要解决的就是此类问题。在这一层, 经过协调的数据被进一步转换为支持最终用户对不同业务观点的需要,并且可以简便快捷地查询的信息集。
这种三层数据架构付出的明显代价之一是,在数据到达运作系统和出现在数据中心之间,造成了相当长的延迟时间。这在以前对大多数公司来说并无大碍。 实际上,与过去常常要忍受的长达数周的数据协调时间框架相比,这种数据架构轻而易举就能实现的区区一天的时间延迟,会令许多公司窃喜不已。 然而,20 世纪 90 年代出现的电子商务、客户关系管理(CRM)、呼叫中心以及其他新事物都对延迟时间提出了更高要求,在某些情况下甚至要求降到一分钟以下。
象我们看到的,IT 机构通过在数据仓库中引入 ODS 和运作数据中心来应对了这一需要。对比只读性的 BDW 和传统数据中心, 这些新组件的特点在于最终用户在其中既可以读数据,又可以更新数据。从架构上说,ODS 可以从两方面来看:或者作为在运作系统和 BDW 之间增加的一层, 意味着所有数据都要通过 ODS;或者作为通向 BDW 的一个旁路, ODS 负责在运作系统与数据中心之间来回传递几近实时数据。 这就需要一个并行处理接着对架构中不同层次的数据进行协调一致。然而,在该数据架构中引入双向、甚至循环数据流的做法可能在整个环境范围内引发数据一致性问题。
在数据仓库和非数据仓库项目中建立运作数据存储的做法,在过去几年里获得了加速发展。结果,这些项目的复杂程度因此大大增加,因为设计者在努力缩短层间数据移动延迟的同时, 还要保证数据在高度复制环境下的完整性。虽然许多企业采用 IBM DB2 Universal Database 成功地解决了这个问题,但是在许多应用程序中使用联合的方法会更容易,也更经济。
不断增长的对几近实时数据的访问和在过去被视为纯信息环境中进行读/写操作的需要并不是 IT 机构面临的唯一问题。人们对并合传统结构化数据和五花八门的非结构化数据的要求也在与日俱增。
非结构化数据,或者称为内容,多年来默默地处于数据仓库的视野之外。尽管据一些分析人士估计,这些非结构化数据约占数字化数据总量的 85%,它们却通常被存放在产权内容库或平面文件里, 备受数据仓库用户和创建者冷落。虽然人们在通过检索系统链接这些数据方面做过一些尝试,但是与单纯为结构化数据创建数据仓库所涉及的大量而复杂的工作相比,此类项目就显得微不足道了。
然而,情况在近几年里已有所改变。Internet 催生了大量以非结构化内容为主的巨型数据仓库。随着客户关系管理(CRM)的发展,企业已开始认识到将客户的交易活动(结构化数据)与其他诸如电话、 传真、电子邮件等互动活动(大多为非结构化数据)相联系的重要价值。文本说明、甚至图片和视频也成为潜在的数据来源,因为它们为传统交易数据提供了背景资料。数据仓库已经慢慢地, 但却是勿毋庸置地从传统的用户基础扩展到了企业的其他部分。
迄今为止,数据仓库技术供应商主要是通过对传统工具套件的扩展和提升来满足数据仓库的新要求。关系数据库已加入了对非结构化内容的支持。ETL 供应商在他们的工具套件中, 增加了几近实时的支持,如个人记录处理、复制和消息排队支持等功能。
然而,可以推测,面对前面讲到的商务和技术方面的革命性需要,在现有数据架构内对产品功能进行的渐进式革新,也许是不够的。数据架构本身需要被重新审视和扩展。 因此,现在该是跨入信息集成世界的时候了。





IBM小机AIX等系列培训,北京,已经推迟,欢迎关注http://www.loveunix.net/thread-86749-1-1.html

提供IBM小机及存储相关专业技术咨询、实施、维保和培训,代理备机及配件。EMAIL:allenlong68[at]hotmail.com。[at]换成@

AIX交友QQ群:24807728(群是朋友聊天用的,技术请在论坛谈。群满,不活动的会被请出,给新人腾位置)
QQ里谈技术没积累,是方便自己麻烦别人。在论坛里讨论,可以大家都参与,并留下参考。
技术不是简单看个文档就能提高的,多参与讨论进步快。对问题有见解的就发一下,说对了是帮助别人,说错了给机会纠正自己。
顶部
[广告] 记录自己的思想火花,留住每日的技术积累,尽在拥有属于自己独立域名的博客。
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:58  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
信息集成 - 数据仓库架构的扩展

信息集成的首要指导原则是:在用户看来,他们需要的所有数据,应该好像驻留在一个单一的数据源里一样。信息可能在不同的地方、以不同的语义、格式存储,访问方法各异,因之对信息的检索也变得极为复杂。信息集成技术实质上将信息需求者屏蔽于所有这些复杂性之外。用户或代表用户的应用程序可以通过诸如 SQL 或 XML 的标准语言,或标准网络服务、内容应用程序界面(API),来对数据进行寻址。这样,用户就可以毫无隔碍地查看信息,而不用考虑其物理实现过程。

做到这一点可以有两种方法,或者其实是两种方法的结合。信息集成的两种主要方法是:(1) 通过数据联合进行分布式数据访问,(2) 将数据移动到对应用程序更有效或更一致的位置,这种方法被称为数据合并或数据安排。分布式访问对应的是企业信息集成(EII)技术,而数据安排对应的是 ETL 和复制技术。合起来,这些功能构成了信息集成所需要的核心部分。用最简单的话来解释,联合在一个地方接受一个查询,然后对查询的相应部分进行分布,让它们作用于数据,而不管数据位于何处、以何种形式构成。而数据放置则首先将位于不同地方的数据置于同一处,这样,对用户查询就不需要再进行分布了。两种方法都需要广泛、基本相同的支持功能。

分布式访问和数据安排都需要底层映射、转换和高速缓存功能。另外,由于同样的数据,根据企业不同的需要,有时需要被集中,有时需要被联合,所以两种方法都需要一套相同的转换和映射功能支持,以保持数据在整个企业的一致性。映射提供了理解不同数据片段之间关系的能力。转换通过对不同表述形式的数据进行转换的功能,将相关数据通过映射进行合并。缓存提供了一个暂时的数据存储,该存储能够通过透明地存储一个结果集的拷贝来改善联合的性能。

这些功能依赖于它们所处运作环境的细节描述。这种描述包括商业含义、关系、位置、技术格式等等。简言之,就是元数据。这些元数据必须是全面和一致的,而且从集成项目的发现和定义阶段,直至联合查询操作的整个过程,都必须是有用的。一套全面而具有逻辑一致性的元数据集,不管它们是物化在单个物理存储器中,还是分布于多个存储器中,对信息集成技术来说都是不可或缺的基础。

信息集成与数据仓库的关系

当今的分层式数据架构是建立在下面的前提基础上的:某个最终用户的查询或报表所需的一切数据都应该集中到单个数据中心,或至少集中到使用 ETL 功能的单个数据仓库环境中。 这样做是为了获得数据的稳定性和一致性,以及确保对数据的访问。

但如何使新的需要(更短的数据延迟、更少的非常用数据存储、对远程和多种数据源的访问)获得支持?答案显然是分布式查询方法。 联合功能提供了在不事先对所有数据进行物理移动的情况下,保持单一数据仓库或数据中心逻辑特征的可能性。

这是否意味着要抛弃传统的数据仓库方法?绝对不是!联合功能不能也不应该取代整个数据仓库方法。基于众所周知的性能、 一致性和自主性方面的原因,完全联合或虚拟的数据仓库并不值得提倡。联合更应该在某些明确而有限的范围内,为解决具体的商务需要, 对现有数据仓库进行扩展或增强。因此,数据仓库的信息集成方法既包括数据安排,又包括数据联合。

1. 数据访问

当企业需要结合已经存在于数据仓库中的传统的、历史的或分析的数据来访问具体的实时数据条目时,联合功能可以发挥重要作用。 某个主要基于数据中心可提供的历史的、合并处理过的数据的最终用户查询或报表,也需要一些最后一分钟的信息。在传统数据仓库架构中, 这些实时数据必须(一般通过一个 ODS)不断地送入数据中心。这不仅要求数据中心存储大量的这类信息,而且要求 ETL 环境必须具有持续吞吐几近实时数据的能力。

在许多情况下,联合提供一个更简单也更上乘的解决方案。当最终用户查询被运行时,对特定信息的简单请求可以被发送到运作系统, 结果被返回并与从数据中心检索到的信息相连接。可用这种方式访问的运作系统包括各种基于 DB2 Universal Database 的关系和非关系数据库以及 IBM WebSphere MQ 系列和网络服务。 利用此功能,不必在中心存储几近实时的数据或让 ETL 环境处理这种数据。

请注意一个重要的限定。发送到运作系统的查询应该是简单的,并且运作系统是专为高效处理此类型查询并返回特定信息而设计。 这样可限制对运作系统和网络性能的任何影响。

联合查询使用标准 SQL,标准 SQL 允许透明使用现有的业务智能 (BI) 分析工具。这样,现有的 BI 工具可访问本地和远程的关系和非关系数据。 这保护了对现有工具的商业投资,并能充分利用 IT 开发人员使用这些工具及其基于 SQL 模式的技能和专长。联合不限于访问实时数据。任何数据都可以这样访问, 而不必把数据存储到数据仓库或中心。众所周知,数据仓库中的很多数据之所以在那里,是因为可能被用到。然而,在很多部署中,许多这样的数据 - 20% 到 50% - 几乎从不被访问。 在数据使用不频繁而且已经存在于别处的情况下,联合查询允许在原始位置上访问这样的数据。当数据已成为历史的,可能有必要把它保存在数据仓库中,因为仅有的其它副本在备份磁带上。 但当所需的数据保存在运作系统数据库中时,联合可允许从数据仓库中消除此数据,而仍支持最终用户的需求。

还有另一个优点。拥有这样的联合基础架构,机构也可以让运作应用程序轻易地访问数据仓库中的数据,并把数据和来自分布式源中的现有运作数据相结合,如在图 3 的右上角所示。尽管严格来说这不是数据仓库应用程序,但毫无疑问它提供了重新利用数据仓库数据的额外可能性。

2. 访问非结构化内容

显示了联合扩展数据仓库的另一种方式。在本例中,业务需求是把非结构化数据或内容结合到在数据仓库环境下生成的报告中。在传统的数据仓库架构中, 采用的方案可能是把所需的内容从源中加载到数据仓库,然后以通常方式查询所有的内容。然而,这样的数据常常是大量的。即使机构愿意在数据仓库中保存如此多的数据, 还会产生其它问题。比方说,这样的内容可能不稳定,或在机构的控制范围之外,位于 Internet 上或合作伙伴的数据存储器中。在此例中,可能很难知道数据何时被更改, 也就无从知晓何时需要加载新版本。

联合又一次显示出它的优点,即它允许在需要时、根据需要对内容进行访问。当运行报告时,子查询被发送到原始内容源并以其最新的形式仅返回所需的信息。

3.数据中心与商务数据仓库的联合

需要反复强调的是,IBM 认为,转移用户查询和向纯联合基础架构层报告,从而取消数据仓库和中心,不是一个好主意。虚拟数据仓库被尝试过很多次, 大都以失败而告终-未能提供最终用户所需的价值。联合不替换数据仓库。联合扩展了现有的数据仓库概念。

还有第三种对数据仓库可能的扩展,它针对一种在当今业界普遍存在的情况。这就是,在一个公司中存在多个数据仓库:这十分有害,但又普遍存在。 这种情况是由兼并、收购造成的,或仅仅是在不同部门中互不相干、未加协调的投资的结果。由于这些分散数据仓库的出现或增长,很快管理层就会想要比较或结合多个数据仓库中的信息。 传统数据仓库架构很难满足这样的需求。在这种模式中,方案是设法把第二个数据仓库中的内容加载到第一个数据仓库中,或创建一个总观数据仓库,把两个原始数据仓库中的数据都包含其中。 所涉及数据的浩瀚数量姑且不论,一个根本性的难题是,要设法创建统一的数据模型,使其涵盖两个源并允许数据从一个数据仓库加载到另一个数据仓库中。

在这种情况下,联合方案又一次提供了简单得多的解决方案。联合查询仅处理需要响应管理层请求的数据子集。不必把一个数据仓库中的数据全部加载到另一个数据仓库中去, 从而避免创建至少一个额外数据副本。尽管两个模型间的区别依然存在,联合方案允许随时仅对模型的一个子集,即支持联合查询的部分,逐渐增加侧重。

另外,在联合查询中可能包含一个或更多的 BDW。这允许在结果集合中包含详尽的数据,而在 ETL 填充步骤中,数据中心此前并未包含这样的数据。很明显,联合的这种用法不限于有多个数据仓库的情况。 它同样也适用于单个数据仓库的环境,并允许特定数据中心的用户偶尔访问 BDW 级的数据。

应该注意的是,这是一种可以发展的方案,在每一步不断扩大联合范围,直到最终可一同使用中心中的所有数据。随着数据仓库的扩大,几乎不可避免地会出现在不同数据仓库之间的意义或内容的不一致, 而以这种方式,这些不一致可以被逐渐发现和处理。最后,企业可决定是否物理合并原有的中心。由于分析已完成,合并后的中心显著简化了。这样,联合方案在整个过程中分阶段工作,实现了价值增长 —— 这是此方案的一个令人满意的属性。

4.联合还是不联合

但是,使用此方案的代价是什么?一个要考虑的事实是联合查询是针对远程源,包括运作系统进行的。可能会有人争辩,这会影响运作的应用程序的性能,但我们可以仅向运作系统发送简单、特定的查询, 来减轻这一影响。这与向同一环境发送完整、复杂的最终用户查询是完全不同的。在联合情况下,从而可预测和管理对性能的可能影响。

另一个潜在的问题是怎样逻辑地、正确地把数据仓库中的数据和远程系统中的数据链接起来。这与设计一个数据仓库的 ETL 填充流程时必须处理的问题相同。 需要同样地详细分析和理解源和它们与目标的关系。正确的数据建模仍十分必要。有时,很明显关系太复杂,或源数据质量太差,而无法进行联合访问。在一些情况下, 如果一个人理解填充数据仓库的 ETL 流程设计,那么他就可以在建立联合查询时重新利用此设计。通常情况下,联合一点也不减少对详细分析或建模的需求。 事实上,因为任何所需转换的实时、联机特性,对此过程的要求只会更加严格。

这些需要考虑的问题决定了可用联合扩展数据仓库的环境。当需要访问实时数据以及不是简单地存储在数据仓库中的内容或很少使用的数据时,联合是一种功能强大的方案。 相对于频繁使用和可预测重复使用的查询,它更适合偶尔的查询并从源数据的预处理中获益。对于必须访问非关系数据的查询,它也很有用。

然而,当需要对源数据进行复杂转换或清理的时候,联合处理起来就很费劲了,这时最好是将数据加载到数据仓库中。如果复杂的查询是可预测的并频繁重复, 把数据一次加载到数据仓库中并本地访问数据可能更合情理。

显然,联合并不能解决所有的数据访问问题;但是完全能够解决一些众所周知的需求。也可以看到,随着联合工具的改良,企业数据环境更好地集成,使用联合的机会将扩大。 我们可以明确地预测网络服务将有能力实时提供更复杂的数据转换和清理,从而扩展联合查询使用的方式。

联合允许从运作系统中将数据作为数据仓库查询的部分读取;如果您已经接受这一可能性,下一个逻辑问题便是联合是否应该用于将数据写回运作系统。 解决这个问题的技术已经成熟,但是为了最小化对运行环境内的数据完整性和安全性的潜在影响,应该通过创建和维护这些运作系统中数据的应用程序来解决这个问题。





IBM小机AIX等系列培训,北京,已经推迟,欢迎关注http://www.loveunix.net/thread-86749-1-1.html

提供IBM小机及存储相关专业技术咨询、实施、维保和培训,代理备机及配件。EMAIL:allenlong68[at]hotmail.com。[at]换成@

AIX交友QQ群:24807728(群是朋友聊天用的,技术请在论坛谈。群满,不活动的会被请出,给新人腾位置)
QQ里谈技术没积累,是方便自己麻烦别人。在论坛里讨论,可以大家都参与,并留下参考。
技术不是简单看个文档就能提高的,多参与讨论进步快。对问题有见解的就发一下,说对了是帮助别人,说错了给机会纠正自己。
顶部
老农
管理员
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
民工


LU爱心使者  
UID 2
精华 25
积分 16836
帖子 28486
活跃指数 1661
LU金币 23727 个
LU金条 0 个
阅读权限 255
注册 2003-9-16
来自 北京
 
发表于 2006-11-20 03:58  资料  个人空间  主页 短消息  加为好友  添加 老农 为MSN好友 通过MSN和 老农 交谈 QQ
数据仓库中使用 IBM DB2 Information Integrator

IBM DB2 Information Integrator 及其先前的产品 —— IBM DB2 DataJoiner 和 IBM DB2 Relational Connect 支持 IBM 的信息集成观。 DB2 Information Integrator 提供 EII 功能,允许访问和查询多种分布式数据的集成化视图。通常,数据以多种格式驻留在多个数据库中,包括:

DB2、Informix、Oracle、Sybase、SQL Server 和 Teradata 数据库

XML、ODBC、OLE DB 和 Microsoft Excel 文件格式

网络服务、消息队列、平面文件和 IBM Lotus(r) Extended Search 数据源
以下例子阐明了在通常数据仓库条件下,如何使用 DB2 Information Integrator 合并三种架构模式。

1. 通过数据仓库获取最新帐户信息

试想在银行或其它金融机构的一个呼叫中心。代理人可通过数据仓库基础架构访问关于客户的大量信息。这样的信息可能包括一段时间的交易详细信息, 以及显示动作趋势、市场