点击流数据仓库 View more presentations from bookcold.
|
|||||
|
点击流数据仓库 View more presentations from bookcold. 来自:《数据仓库结构设计与实施——建造信息系统的金字塔》 源(系统)数据定于与说明 源系统地址、网络连接、访问方式; 计算机系统、操作系统; 数据库服务器名、访问方式、数据结构、有关的表、列 以上信息都是有可能要变化的,应作为元数据存入数据表,ETL程序和处理过程可以读入这些信息,以进行远程数据链接和数据访问,这大大优化将以上信息写入程序中的那种硬性编程方式; 源数据库链接说明; 逆向工程与源系统设计获取定义说明 元数据交换说明你。 暂存定义与说明 源至暂存区映像 暂存区只目标区映像 中间文件的传输说明 中间文件的说明及使用 中间文件的前后处理(清理与压缩)说明 暂存区数据库的前后处理和中间处理的说明及使用 目标模型定义与说明 星型结构; 事实表定义说明,包括: 度量 数字键 交替键 索引 定义数据(如数据类型、数值大小和默认值) 有效性制约 数据域值定义 分区定义说明 存储说明 维表定义与说明,包括: 主键 缓慢变化的维 维的等级/层次 维的共享 维的版本号 数据库的完整性限定 映像定义与说明 源至目标映像 基本数据到综合数据的映象 标准字典 转换字典 参照表 映象表 ETL定义与说明 转换规则和方法 数据清洗说明 批作业说明 加载频率 累加时间片控制说明 退回说明与准则 剥离与修改数据准则 转换函数库 传输定义与说明 加载定义与说明 会期/对话管理定义与说明,包括以下几个方面 [...] W.H.Inmon的新书《DW2.0》,介绍了数据仓库新的范式;个人觉得其实也不新,只是在数据仓库实践了这么多年之后,理论上的一次整理更新。这本书的内容,边看边记吧! DW2.0数据结构 数据的生命周期 在DW2.0中,重新定义了数据在DW中的作用,主要根据入仓库的时间定义了数据的生命周期。而数据的访问频率也会随着存储时间的增加而下降。这样的分区方式为仓库的架构尤其是硬件架构设计提供了支持。 1. 交互区 交互区是数据进入数据仓库的第一站,是数据联机更新的场所。 2.整合区 在一定的时间点,数据需要进行整合;存储在交互区的数据通过ETL进入整合区,数据脱离了应用状态。 3.近线区 近线区是整合区的一个延伸,在分区中是可选的。当数据量非常大并且数据间访问的概率差别很大时,可以利用近线区来处理。 4.归档区 存储访问频率很低的历史数据,通常是5-10年,甚至更长。 元数据 由于数据仓库更大,更多样化(用户多样化、数据源多样化等),为了能更好的管理和使用数据仓库,元数据的作用显得更加重要。 存储方案 在交互区,元数据与应用数据本身是分开存储的,即元数据与它所描述的数据在物理上是分开的;而在归档区,元数据直接与数据一起存储。这样的存储方式就避免了分析历史数据的困难。 元数据分类 DW2.0对于元数据的分类还是挺不错的,这样就避免元数据本身显得杂乱。 1. 本地元数据 被各种工具所专业的元数据,例如ETL工具的元数据、BI工具的元数据: 1)业务元数据 用业务语言书写的适合于公司业务的元数据; 2)技术元数据 公司的技术人员所应用的元数据。 2. 企业范围元数据 结构化数据和非结构化数据 在DW2.0中,数据库被要求整合结构化和非结构化的数据至数据仓库中。在现代环境下,对于非结构化的数据也同样蕴含着大量的价值。当数据仓库中包含非结构化的数据时可以有三种处理方式:a)非结构化数据单独进行访问分析;b)非结构化数据可以同结构化数据一起分析;c)一些非结构化数据可以近似的与结构化数据链接。 对于非结构化数据处理除了普遍存在的文本分析的难题上,还有两个需要特别注意的地方: 1)非结构化数据同样充斥着无用的信息,在进入DW的环境中,需要对这部分数据进行筛选; 2)文本的规范化。同结构化数据需要对不同的术语进行统一类似,为了在仓库中更好的利用文本信息,也需要对文本信息进行规范。规范化的过程需要将文字映射为两种格式——特定格式(自然语言)和一般格式(规范化)。对特定数据添加一般数据才能使得数据更适合分析。 应对业务需求的变化 [...] 来自:《数据仓库结构设计与实施——建造信息系统的金字塔》 |
|||||
|
Copyright © 2010 Bookcold's Blog - All Rights Reserved |
|||||