2007-10-16 11:11
艾依然
【视频】建立可扩展的数据仓库系统(演讲者:严飞雪)
[b]严飞雪——广州从兴电子开发有限公司信息系统部高级顾问(Senior Technical Consulting)
[/b]1997年加入从兴,先后在网络通信,应用开发,系统管理,数据库设计与维护等领域做出深入研究。长期从事移动BOSS/BI领域的数据库系统规划工作,对多种主流数据库技术有良好的实践经验,参与多次数据库选型测试,深入了解各类数据库系统的优缺点。尤其在数据仓库系统有比较丰富的经验。曾经以技术为主要兴趣,现闲暇主要研究历史与经济,尤其对晚清历史颇有心得。
[b]主题:建立可扩展的数据仓库系统——演讲者严飞雪[/b]
在数据量日益膨胀的今天,如何让数据仓库在信息爆炸的状态下得到合理的设计与维护,最大限度的发挥其性能,在DB2数据仓库的建设过程中,哪些是我们应该高度重视的问题,DB2数据库设计与存储设计的紧密联系,通过规划来获得DB2的最高性能,并保持良好的扩展能力,同时节省IT投资。
本次讲座以广东移动经营分析系统数据仓库(全亚洲最大的数据仓库之一)为建设范例,介绍海量数据库的设计思想和方法,对多节点TB级数据仓库的 构建与维护,提出基于长期实践的看法,希望对数据仓库的建设有所帮助,与业界交流类似经验。
[b]《建立可扩展的数据仓库系统》笔记[/b]
[b]曾宏整理[/b]
数据仓库系统是一个面向未来的分析系统,数据与业务的发展对该系统的未来产生最大的影响,因此该系统的设计必须着眼于未来,而不是现在。
广东移动经营分析系统的数据仓库情况介绍:
03 底开始建设到现在,
50 T -100T 的数据仓库,
节点数 32 个
ETL 入库每天 20亿条记录
数据库系统容量 100 T ETL 系统为 20 T
硬件状况 200 T 的阵列,IBM P595 系列主机
40 T ---100T 系统规划很重要
[b]建立可扩展的数据仓库系统[/b]
1、数据的膨胀
2、可扩展的设计
粒度,存储
3、可持续的管理
4、数据周期
生命周期
ETL 周期
[b]数据膨胀的原因[/b]
1、OLTP 交易,数据的增长(7000万用户,每天清单30亿)
2、多种数据的集聚
比如:除了清单还有短信,网管等
3、低粒度细节数据的保留 (应用和安全的需要,需保持数据在线时间……)
4、汇总数据的长期使用 (长期查询的需要)
导致数据仓库数据的增加,管理、投资急剧增加(主机、CPU、软件 License )
[b]数据膨胀的影响[/b]
1、大量软硬件投入
系统存储资源
系统计算资源
2、数据管理规则
数据生命周期 (什么数据是不需要的,可以拿出来的)
3、系统资源协调
多业务资源的协调
需求处理的资源分布
[b]可扩展的设计——数据粒度与分级[/b]
数据粒度涉及
根据业务确定合适的数据粒度
根据不同粒度的数据预估行和空间
规划数据分级存储的机制
按数据使用频率分级(频率高的放在高档存储上)
按数据生命期分级 (过期不用的数据拿出或者放在低档存储上)
[b]可扩展的设计——数据存储的初步规划[/b]
结合数据仓库系统的升级周期来规划
该系统在存储不作扩容的情况下可维持时间
1、2、3 年?
预计下次系统升级的范围
主机还是存储?(导致迁移方式的不同)
预计下次系统升级或者迁移的方式
大数据量的迁移工作量巨大
以最简化的方式完成升级和迁移
[b]可扩展的设计——数据存储的详细规划[/b]
存储设计是数据库,尤其是数据仓库性能与安全的关键
数据仓库系统 IO 巨大,大量的全表扫描 (吞吐量大)
对存储系统的自我定制和规划是最好的
自动分配的东西只能满足一般业务的需求 (适合于小系统,不适合大系统,多节点存储考虑要求高, )
逐步详细的数据存储规划
(存储细化很重要,具体到每个 LV)
预留磁盘空间执行恢复
[b]可持续的管理——数据库的持续调整[/b]
数据的存储
频繁数据 (高端存储)
非频繁数据 (低端存储)
数据的访问调整
访问速度的级别分类
主动控制不同数据存储的访问速度和存储空间
通过 IO 控制资源
不同级别的存储是可以混合使用的
目的:降低成本,保护投资
[b]可持续的管理——应用的持续调整[/b]
对全表扫描的理解()
INDEX 的使用
如何使用 LIKE
减少使用 UPDATE
更新操作代价高昂
保持统计信息的更新
[b]可持续的管理——数据库的特性调整[/b]
DB2 多节点数据库的调整
节点分配 (初期设计就需要考虑,偶数个节点,DB2 官方推荐 NODE:CPU = 1:2 ,两个 CPU 带一个节点)
内存分配 (可能大量全表扫描,不看中 bufferpool 的命中率)
分区内并行 (后来开启)
多个预装载的配置 (指定节点 preload )
应用优化 (效果最好)
[b]可持续的管理——数据库存储的参数[/b]
页面大小
32K,16K,8K (测试 32K 与16 K 页面性能差别不大,选用 32K)
PREFETCH 预读取 (大一些较好)
EXTENTSIZE (直接用的 128 ,不见得是硬盘的倍数)
[b]可持续的管理——硬件的利用模式[/b]
CPU 资源的最大利用 (保护用户投资)
达到存储所能提供的最大 IO
避免内存溢出,减少 BUFFER 命中率
最大利用网络带宽 (千兆网络)
[b]数据生命周期[/b]
OLTP 系统等企业数据———ETL入库———>调入数据仓库———使用频率下降———>二级存储(文件系统或数据库的二级存储区域)———休眠数据———>归档存储
规划二级存储
数据库、文件系统、虚拟带库
规划频繁使用与非频繁使用数据的分类处理
在线时间、查询频率、安全要求
休眠数据的归档
降低数据仓库的总体成本
[b]数据生命周期——减少 IT 投入[/b]
利用旧存储实现数据分级
利用数据库压缩技术减少存储量
[b]数据 ETL 周期[/b]
数据抽取对 OLTP 系统的影响
1、时间间隔越低,系统的投入就越大,尤其对操作端的压力增加
2、延迟度的增加提高数据的稳定性
数据加载对 DW 系统的影响
1、按数据特点区别加载数据,加载周期控制在合理范围
过于频密浪费资源
周期过长瞬间压力大,安全性降低
视频专辑:[url=http://www.56.com/w60/album-aid-2533523.html]http://www.56.com/w60/album-aid-2533523.html[/url]
2007-10-16 11:14
艾依然
[align=center][flash]http://www.56.com/n_v41_/c30_/17_/28_/ibm-club_/zhajm_119193553168_/1465880_/0_/20374111.swf[/flash][/align]
2007-10-16 11:15
艾依然
[align=center][flash]http://www.56.com/n_v166_/c31_/4_/4_/ibm-club_/zhajm_119207594320_/1466280_/0_/20466883.swf[/flash][/align]
2007-10-16 11:15
艾依然
[align=center][flash]http://www.56.com/n_v166_/c31_/28_/24_/ibm-club_/sc_119207274073_/1468000_/0_/20464020.swf[/flash][/align]
2007-10-16 11:15
艾依然
[align=center][flash]http://www.56.com/n_v198_/c31_/10_/21_/ibm-club_/zhajm_119190776818_/338104_/0_/20349291.swf[/flash][/align]
2007-10-16 11:16
艾依然
[b]曾宏[/b]牺牲自己的宝贵时间为大家整理出视频文字,为此表示衷心的感谢!
页:
[1]
Powered by Discuz! Archiver 5.5.0
© 2001-2006 Comsenz Inc.