<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Bookcold&#039;s Blog &#187; 数据仓库</title>
	<atom:link href="http://bookcold.com/category/data-warehouse/feed" rel="self" type="application/rss+xml" />
	<link>http://bookcold.com</link>
	<description>Just for pleasure</description>
	<lastBuildDate>Sun, 29 Aug 2010 06:39:14 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
			<item>
		<title>点击流数据仓库</title>
		<link>http://bookcold.com/2010/05/477</link>
		<comments>http://bookcold.com/2010/05/477#comments</comments>
		<pubDate>Tue, 18 May 2010 11:05:54 +0000</pubDate>
		<dc:creator>bookcold</dc:creator>
				<category><![CDATA[数据仓库]]></category>
		<category><![CDATA[ClickStream]]></category>
		<category><![CDATA[DW/BI]]></category>

		<guid isPermaLink="false">http://bookcold.com/2010/05/477</guid>
		<description><![CDATA[点击流数据仓库 View more presentations from bookcold. </p> ]]></description>
			<content:encoded><![CDATA[<div style="width: 425px" id="__ss_4136546"><strong style="margin: 12px 0px 4px; display: block"><a title="点击流数据仓库" href="http://www.slideshare.net/bookcold/ss-4136546">点击流数据仓库</a></strong><object id="__sse4136546" width="425" height="355"><param name="movie" value="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=random-100518050211-phpapp02&amp;stripped_title=ss-4136546" /><param name="allowFullScreen" value="true" /><param name="allowScriptAccess" value="always" /><embed name="__sse4136546" src="http://static.slidesharecdn.com/swf/ssplayer2.swf?doc=random-100518050211-phpapp02&amp;stripped_title=ss-4136546" type="application/x-shockwave-flash" allowscriptaccess="always" allowfullscreen="true" width="425" height="355"></embed></object>
<div style="padding-bottom: 12px; padding-left: 0px; padding-right: 0px; padding-top: 5px">View more <a href="http://www.slideshare.net/">presentations</a> from <a href="http://www.slideshare.net/bookcold">bookcold</a>.</div>
</p></div>
]]></content:encoded>
			<wfw:commentRss>http://bookcold.com/2010/05/477/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>元数据的定义和管理</title>
		<link>http://bookcold.com/2010/04/387</link>
		<comments>http://bookcold.com/2010/04/387#comments</comments>
		<pubDate>Wed, 07 Apr 2010 14:35:04 +0000</pubDate>
		<dc:creator>bookcold</dc:creator>
				<category><![CDATA[数据仓库]]></category>
		<category><![CDATA[元数据]]></category>

		<guid isPermaLink="false">http://bookcold.com/2010/04/387</guid>
		<description><![CDATA[<p>来自：《数据仓库结构设计与实施——建造信息系统的金字塔》</p> 源（系统）数据定于与说明 源系统地址、网络连接、访问方式； 计算机系统、操作系统； 数据库服务器名、访问方式、数据结构、有关的表、列 <p>以上信息都是有可能要变化的，应作为元数据存入数据表，ETL程序和处理过程可以读入这些信息，以进行远程数据链接和数据访问，这大大优化将以上信息写入程序中的那种硬性编程方式；</p> 源数据库链接说明； 逆向工程与源系统设计获取定义说明 元数据交换说明你。 暂存定义与说明 源至暂存区映像 暂存区只目标区映像 中间文件的传输说明 中间文件的说明及使用 中间文件的前后处理（清理与压缩）说明 暂存区数据库的前后处理和中间处理的说明及使用 目标模型定义与说明 星型结构； 事实表定义说明，包括： 度量 数字键 交替键 索引 定义数据（如数据类型、数值大小和默认值） 有效性制约 数据域值定义 分区定义说明 存储说明 维表定义与说明，包括： 主键 缓慢变化的维 维的等级/层次 维的共享 维的版本号 数据库的完整性限定 映像定义与说明 源至目标映像 基本数据到综合数据的映象 标准字典 转换字典 参照表 映象表 ETL定义与说明 转换规则和方法 数据清洗说明 批作业说明 加载频率 累加时间片控制说明 退回说明与准则 剥离与修改数据准则 转换函数库 传输定义与说明 加载定义与说明 会期/对话管理定义与说明，包括以下几个方面 [...]]]></description>
			<content:encoded><![CDATA[<p>来自：《数据仓库结构设计与实施——建造信息系统的金字塔》</p>
<ol>
<li>源（系统）数据定于与说明
<ul>
<li>源系统地址、网络连接、访问方式；</li>
<li>计算机系统、操作系统；</li>
<li>数据库服务器名、访问方式、数据结构、有关的表、列</li>
</ul>
<p>以上信息都是有可能要变化的，应作为元数据存入数据表，ETL程序和处理过程可以读入这些信息，以进行远程数据链接和数据访问，这大大优化将以上信息写入程序中的那种硬性编程方式；</p>
<ul>
<li>源数据库链接说明；</li>
<li>逆向工程与源系统设计获取定义说明</li>
<li>元数据交换说明你。</li>
</ul>
</li>
<li>暂存定义与说明
<ul>
<li>源至暂存区映像</li>
<li>暂存区只目标区映像</li>
<li>中间文件的传输说明</li>
<li>中间文件的说明及使用</li>
<li>中间文件的前后处理（清理与压缩）说明</li>
<li>暂存区数据库的前后处理和中间处理的说明及使用</li>
</ul>
</li>
<li>目标模型定义与说明
<ul>
<li>星型结构；</li>
<li>事实表定义说明，包括：
<ul>
<li>度量</li>
<li>数字键</li>
<li>交替键</li>
<li>索引</li>
<li>定义数据（如数据类型、数值大小和默认值）</li>
<li>有效性制约</li>
<li>数据域值定义</li>
<li>分区定义说明</li>
<li>存储说明</li>
</ul>
</li>
</ul>
<ul>
<li>维表定义与说明，包括：
<ul>
<li>主键</li>
<li>缓慢变化的维</li>
<li>维的等级/层次</li>
<li>维的共享</li>
<li>维的版本号</li>
<li>数据库的完整性限定</li>
</ul>
</li>
</ul>
</li>
<li>映像定义与说明
<ul>
<li>源至目标映像</li>
<li>基本数据到综合数据的映象</li>
<li>标准字典</li>
<li>转换字典</li>
<li>参照表</li>
<li>映象表</li>
</ul>
</li>
<li>ETL定义与说明
<ul>
<li>转换规则和方法</li>
<li>数据清洗说明</li>
<li>批作业说明</li>
<li>加载频率</li>
<li>累加时间片控制说明</li>
<li>退回说明与准则</li>
<li>剥离与修改数据准则</li>
<li>转换函数库</li>
<li>传输定义与说明</li>
<li>加载定义与说明</li>
<li>会期/对话管理定义与说明，包括以下几个方面
<ul>
<li>预定作业安排</li>
<li>批作业前后事件说明及处理方法</li>
<li>批作业日志</li>
<li>会期/对话日志</li>
<li>拒收日志</li>
<li>坏数据日志</li>
</ul>
</li>
</ul>
</li>
<li>综合管理系统的定义与说明
<ul>
<li>事实表/维度表至总计方阵映像；</li>
<li>总计至总计映像；</li>
<li>总计方阵设计；</li>
<li>聚合定义说明；</li>
<li>实体化视图/方阵定义说明，如：
<ul>
<li>方阵间关系</li>
<li>嵌入式实体化视图/方阵之间的关系</li>
<li>方阵组</li>
</ul>
</li>
</ul>
<ul>
<li>刷新过程的定义与说明，包括以下几个方面：
<ul>
<li>刷新前后事件处理说明</li>
<li>刷新方法</li>
<li>刷新组</li>
<li>刷新执行顺序</li>
<li>刷新频率</li>
<li>刷新过程处理软件</li>
<li>刷新作业的监控检查</li>
</ul>
</li>
</ul>
</li>
<li>联机分析（OLAP）的定义与说明
<ul>
<li>查询机制；</li>
<li>虚拟方阵/视图定义；</li>
<li>访问权限管理说明；</li>
<li>用户接口定义与说明；</li>
<li>访问方式</li>
<li>结果数据提交方法；</li>
<li>结果数据传输定义与说明；</li>
<li>用户登入/登出</li>
<li>用户活动日志以及出错处理</li>
<li>联机分析用户手册</li>
</ul>
</li>
<li>应用软件说明
<ul>
<li>软件版本号管理与说明，包括：
<ul>
<li>数据库应用版号</li>
<li>软件与程序版号</li>
</ul>
</li>
</ul>
<ul>
<li>程序与数据的参照说明</li>
<li>包/过程软件函数</li>
<li>函数库</li>
<li>元件</li>
<li>程序调用层次模型定义与说明</li>
<li>2-3级结构</li>
<li>业务规则定义说明，包括：
<ul>
<li>业务规则表</li>
<li>业务规则表语业务政策的联系</li>
</ul>
</li>
</ul>
</li>
<li>质量控制与安全说明
<ul>
<li>安全政策</li>
<li>审计日志</li>
<li>错误捕捉</li>
<li>错误追溯方法及说明</li>
<li>数据库访问及网络交通日志</li>
</ul>
</li>
</ol>
]]></content:encoded>
			<wfw:commentRss>http://bookcold.com/2010/04/387/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>DW 2.0简介</title>
		<link>http://bookcold.com/2010/04/380</link>
		<comments>http://bookcold.com/2010/04/380#comments</comments>
		<pubDate>Tue, 06 Apr 2010 11:44:51 +0000</pubDate>
		<dc:creator>bookcold</dc:creator>
				<category><![CDATA[数据仓库]]></category>
		<category><![CDATA[读书笔记]]></category>
		<category><![CDATA[DW2.0]]></category>

		<guid isPermaLink="false">http://bookcold.com/2010/04/380</guid>
		<description><![CDATA[<p>W.H.Inmon的新书《DW2.0》，介绍了数据仓库新的范式；个人觉得其实也不新，只是在数据仓库实践了这么多年之后，理论上的一次整理更新。这本书的内容，边看边记吧！</p> <p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160; DW2.0数据结构</p> 数据的生命周期 <p>在DW2.0中，重新定义了数据在DW中的作用，主要根据入仓库的时间定义了数据的生命周期。而数据的访问频率也会随着存储时间的增加而下降。这样的分区方式为仓库的架构尤其是硬件架构设计提供了支持。</p> <p>1. 交互区</p> <p>交互区是数据进入数据仓库的第一站，是数据联机更新的场所。</p> <p>2.整合区</p> <p>在一定的时间点，数据需要进行整合；存储在交互区的数据通过ETL进入整合区，数据脱离了应用状态。</p> <p>3.近线区</p> <p>近线区是整合区的一个延伸，在分区中是可选的。当数据量非常大并且数据间访问的概率差别很大时，可以利用近线区来处理。</p> <p>4.归档区</p> <p>存储访问频率很低的历史数据，通常是5-10年，甚至更长。</p> 元数据 <p>由于数据仓库更大，更多样化（用户多样化、数据源多样化等），为了能更好的管理和使用数据仓库，元数据的作用显得更加重要。</p> 存储方案 <p>在交互区，元数据与应用数据本身是分开存储的，即元数据与它所描述的数据在物理上是分开的；而在归档区，元数据直接与数据一起存储。这样的存储方式就避免了分析历史数据的困难。</p> 元数据分类 <p>DW2.0对于元数据的分类还是挺不错的，这样就避免元数据本身显得杂乱。</p> <p>1. 本地元数据&#160; 被各种工具所专业的元数据，例如ETL工具的元数据、BI工具的元数据：</p> <p>1）业务元数据&#160;&#160;&#160;&#160; 用业务语言书写的适合于公司业务的元数据；</p> <p>2）技术元数据&#160;&#160;&#160;&#160; 公司的技术人员所应用的元数据。</p> <p>2. 企业范围元数据</p> 结构化数据和非结构化数据 <p>在DW2.0中，数据库被要求整合结构化和非结构化的数据至数据仓库中。在现代环境下，对于非结构化的数据也同样蕴含着大量的价值。当数据仓库中包含非结构化的数据时可以有三种处理方式：a）非结构化数据单独进行访问分析；b）非结构化数据可以同结构化数据一起分析；c）一些非结构化数据可以近似的与结构化数据链接。</p> <p>对于非结构化数据处理除了普遍存在的文本分析的难题上，还有两个需要特别注意的地方：</p> <p>1）非结构化数据同样充斥着无用的信息，在进入DW的环境中，需要对这部分数据进行筛选；</p> <p>2）文本的规范化。同结构化数据需要对不同的术语进行统一类似，为了在仓库中更好的利用文本信息，也需要对文本信息进行规范。规范化的过程需要将文字映射为两种格式——特定格式（自然语言）和一般格式（规范化）。对特定数据添加一般数据才能使得数据更适合分析。</p> 应对业务需求的变化 [...]]]></description>
			<content:encoded><![CDATA[<p>W.H.Inmon的新书《DW2.0》，介绍了数据仓库新的范式；个人觉得其实也不新，只是在数据仓库实践了这么多年之后，理论上的一次整理更新。这本书的内容，边看边记吧！</p>
<h4><a title="http://scottfelten.files.wordpress.com/2008/06/inmon_fig1.gif?w=440&amp;h=591" href="http://scottfelten.files.wordpress.com/2008/06/inmon_fig1.gif?w=440&amp;h=591"><img style="border-bottom: 0px; border-left: 0px; display: inline; border-top: 0px; border-right: 0px" title="inmon_fig1" border="0" alt="inmon_fig1" src="http://bookcold.com/wp-content/uploads/2010/04/inmon_fig11.gif" width="446" height="549" /> </a></h4>
<p>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160; DW2.0数据结构</p>
<h4>数据的生命周期</h4>
<p>在DW2.0中，重新定义了数据在DW中的作用，主要根据入仓库的时间定义了数据的生命周期。而数据的访问频率也会随着存储时间的增加而下降。这样的分区方式为仓库的架构尤其是硬件架构设计提供了支持。</p>
<p><strong>1. 交互区</strong></p>
<p>交互区是数据进入数据仓库的第一站，是数据联机更新的场所。</p>
<p><strong>2.整合区</strong></p>
<p>在一定的时间点，数据需要进行整合；存储在交互区的数据通过ETL进入整合区，数据脱离了应用状态。</p>
<p><strong>3.近线区</strong></p>
<p>近线区是整合区的一个延伸，在分区中是可选的。当数据量非常大并且数据间访问的概率差别很大时，可以利用近线区来处理。</p>
<p><strong>4.归档区</strong></p>
<p>存储访问频率很低的历史数据，通常是5-10年，甚至更长。</p>
<h4>元数据</h4>
<p>由于数据仓库更大，更多样化（用户多样化、数据源多样化等），为了能更好的管理和使用数据仓库，元数据的作用显得更加重要。<a href="http://bookcold.com/wp-content/uploads/2010/04/image2.png"><img style="border-right-width: 0px; display: inline; border-top-width: 0px; border-bottom-width: 0px; margin-left: 0px; border-left-width: 0px; margin-right: 0px" title="image" border="0" alt="image" align="right" src="http://bookcold.com/wp-content/uploads/2010/04/image_thumb2.png" width="453" height="289" /></a></p>
<h6>存储方案</h6>
<p>在交互区，元数据与应用数据本身是分开存储的，即元数据与它所描述的数据在物理上是分开的；而在归档区，元数据直接与数据一起存储。这样的存储方式就避免了分析历史数据的困难。</p>
<h6>元数据分类</h6>
<p>DW2.0对于元数据的分类还是挺不错的，这样就避免元数据本身显得杂乱。</p>
<p>1. 本地元数据&#160; 被各种工具所专业的元数据，例如ETL工具的元数据、BI工具的元数据：</p>
<p>1）业务元数据&#160;&#160;&#160;&#160; 用业务语言书写的适合于公司业务的元数据；</p>
<p>2）技术元数据&#160;&#160;&#160;&#160; 公司的技术人员所应用的元数据。</p>
<p>2. 企业范围元数据</p>
<h4>结构化数据和非结构化数据</h4>
<p>在DW2.0中，数据库被要求整合结构化和非结构化的数据至数据仓库中。在现代环境下，对于非结构化的数据也同样蕴含着大量的价值。当数据仓库中包含非结构化的数据时可以有三种处理方式：a）非结构化数据单独进行访问分析；b）非结构化数据可以同结构化数据一起分析；c）一些非结构化数据可以近似的与结构化数据链接。</p>
<p>对于非结构化数据处理除了普遍存在的文本分析的难题上，还有两个需要特别注意的地方：</p>
<p>1）非结构化数据同样充斥着无用的信息，在进入DW的环境中，需要对这部分数据进行筛选；</p>
<p>2）文本的规范化。同结构化数据需要对不同的术语进行统一类似，为了在仓库中更好的利用文本信息，也需要对文本信息进行规范。规范化的过程需要将文字映射为两种格式——特定格式（自然语言）和一般格式（规范化）。对特定数据添加一般数据才能使得数据更适合分析。</p>
<h4>应对业务需求的变化</h4>
<p>由于不断变化的业务与不变的技术基础设施时不相一致的。因此在DW2.0的开发方法要求数据仓库不能一建到底，也就是说数据仓库不能深植于仓库底层的技术（网络、操作系统、应用程序、数据库管理系统、缓存等）中。数据仓库必需设置在一个动态技术基础上，否则它只是不断反映昨天的业务需求。</p>
]]></content:encoded>
			<wfw:commentRss>http://bookcold.com/2010/04/380/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>数据仓库三要素</title>
		<link>http://bookcold.com/2010/04/375</link>
		<comments>http://bookcold.com/2010/04/375#comments</comments>
		<pubDate>Tue, 06 Apr 2010 02:40:09 +0000</pubDate>
		<dc:creator>bookcold</dc:creator>
				<category><![CDATA[数据仓库]]></category>
		<category><![CDATA[读书笔记]]></category>

		<guid isPermaLink="false">http://bookcold.com/2010/04/375</guid>
		<description><![CDATA[<p></p> <p>来自：《数据仓库结构设计与实施——建造信息系统的金字塔》</p> ]]></description>
			<content:encoded><![CDATA[<p><a href="http://bookcold.com/wp-content/uploads/2010/04/image1.png"><img style="display: inline; border: 0px;" title="image" src="http://bookcold.com/wp-content/uploads/2010/04/image_thumb1.png" border="0" alt="image" width="557" height="466" /></a></p>
<p>来自：《数据仓库结构设计与实施——建造信息系统的金字塔》</p>
]]></content:encoded>
			<wfw:commentRss>http://bookcold.com/2010/04/375/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
<!-- WP Super Cache is installed but broken. The path to wp-cache-phase1.php in wp-content/advanced-cache.php must be fixed! -->