第11章 数据仓库和数据智能知识点梳理

第11章 数据仓库和数据智能知识点梳理(附带页码)


◼ 数据仓库(Data Warehouse,DW):始于 20 世纪 80 年代,发展于 20 世纪 90 年代,后与商务智能(Business Inteligence,BI)作为业务决策主要驱动力协同发展。赋能组织将不同来源的数据整合到公共的数据模型,整合后的数据能为业务运营提供洞察,为企业决策支持和创造组织价值开辟新的可能性。减少数据冗余,提高信息一致性,让企业能够利用数据做出更优决策的方法。数据仓库是企业数据管理的核心。P290

◼ 业务驱动因素:运营支持职能、合规需求(历史数据响应)和商务智能活动(主因。提供洞察。提升效率。增强竞争优势。)。P290
在这里插入图片描述
◼ 数据仓库的建设目标
1)支持商务智能活动。
2)赋能商业分析和高效决策。
3)基于数据洞察寻找创新方法。P291

◼ 数据仓库建设应遵循原则
1)聚焦业务目标。用于最优级的业务并解决它。
2)以终为始。以业务优先级和最终成果驱动仓库创建。
3)全局性的思考和设计,局部性的行动和建设。
4)总结并持续优化,而不是一开始就这样做。
5)提升透明度和自助服务。
6)与数据仓库一起建立元数据。DW 的成功关键是能准确解释数据。
7)协同。与其他数据活动协作,尤其是数据治理、数据质量和元数据管理活动。
8)不要千篇一律。为每种数据消费者提供正确的工具和产品。P291-292

◼ 活动
1.理解需求。
2.定义和维护 DW 和 BI 架构。
3.开发数据仓库和数据集市。
4.加载数据仓库。
5.实施 BI 产品组合。
6.维护数据产品。

◼ 商务智能:第一层含义,商务智能指的是一种理解组织诉求和寻找机会的数据分析活动。数据分析的结果用来提高组织决策的成功率。第二层含义,商务智能指的是支持这类数据分析活动的技术集合。P292

◼ 数据仓库:一个集成的决策支持数据库和与之相关的用于收集、清理、转换和存储来自各种操作和外部源数据的软件程序。数据集市是数据仓库中数据子集的副本。从广义上讲,数据仓库包括为任何支持商务智能目标的实现提供数据的数据存储或提供操作。P292

◼ 数据仓库建设:数据仓库中数据的抽取、清洗、转换、控制、加载等操作过程。数据仓库建设流程的重点是通过强制业务规则、维护适当的业务数据关系,在运营的数据上实现一个集成的、历史的业务环境。还包括与元数据资料库交互的流程。传统意义上建设主要关注结构化数据,现在也包含半结构化数据和非结构化数据。P292

◼ 数据仓库建设的方法。两位思想领袖比尔·恩门(Bill Inmon) 和拉尔夫·金博尔( Ralph Kimball)分别使用范式建模和多维建模来完成数据仓库建模。P293。比尔·恩门在《数据仓库》(Building the Data Warehouse )中定义:数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。拉尔夫·金博尔在《数据仓库工具箱》(The DataWarehouse Toolkit)中提出:主张自下而上(DMDW)的方式,力推数据集市建设,他定义为“为查询和分析定制的交易数据的副本。”参考:https://blog.csdn.net/Luomingkui1109/article/details/91349335;(重要性★★★★★)

◼ 他们遵循的核心理念相似
1)数据源于其他系统。
2)以提升数据价值的方式整合数据。
3)便于数据被访问和分析。
4)都为了让授权的利益相关方访问到可靠的、集成的数据。
5)建设目的涵盖工作流支持、运营管理和预测分析。
【源于其它。提升价值。便于分析。确保可靠。使能预测。】 P293

◼ 企业信息工厂(Corporate Information Factory,CIF)
1)面向主题的。不关注功能或应用。
2)整合的。统一的、内聚的。
3)随时间变化的。存储的是某个时间段的数据。
4)稳定的。数据不频繁更新,新数据加到老数据后。一组记录可代表交易的不同状态。
5)聚合数据和明细数据。即有原子的交易明细,也有汇总后的数据。
6)历史的。当前的/历史的。P293

◼ 企业信息工厂(Inmon)组成
1)应用程序。
2)数据暂存区
3)集成和转换。
4)操作型数据存储(ODS)。
5)数据集市。
6)操作型数据集市(OpDM)。操作型数据集市是专注于运营决策支持的数据集市。直接从操作型数据存储而不是从数据仓库获取数据,具有与操作型数据存储相同的特性:包含当前或近期的数据,这些数据是经常变化的。
7)数据仓库。单向流向数据集市。
8)运营报告。运营报告从数据存储中输出。
9)参考数据、主数据和外部数据。图见 P295 图11-2。
在这里插入图片描述
◼ 业务系统到数据集市,数据流程过程的变化
1)目标:功能执行——>数据分析。
2)用户:业务人员——>决策人员。
3)使用:固定操作——>即席查询。
4)时间:即时要求高——>不高。
5)影响面:数据少——>涉及更多数据。P295

◼ 数据仓库和集市中的数据与应用程序中的数据不同
1)按主题域而非功能需要组织。
2)是整合而非孤立的。
3)随时间变化的系列数据而非仅当前时间点的。
4)延迟高。
5)历史数据多。
【1)组织形式:功能需要——>主题域。2)状态:烟囱——>整合。3)时间:当前时间——>时间序列。4)延迟性:低——>高。5)历史数据:少——>多。】P295

◼ 多维数据仓库(Kimball):专为查询和分析而构建的事务数据的副本,它不是以实体关系模型的规范化要求组织的。多维模型通常称为星型模型,由事实表(包含有关业务流程的定量数据,如销售数据)和维度表(存储与事实表数据相关的描述性属性,为数据消费者解答关于事实表的问题,如这个季度产品 X 卖了多少)组成。多事实表通过“总线“共享公共的维度或遵循一致性的维度。事实表与许多维表关联,整个图看上去像星星一样。P296

◼ Kimball 的数据仓库分为业务源系统、数据暂存区域、数据展示区域、数据访问工具四个部分。P296
在这里插入图片描述
◼ 数据仓库的总线矩阵展示的是生成事实数据的业务流程和表示维度的数据主题域的交汇。独立于技术,用于表示数据仓库/BI 系统长期数据的内容需求,帮助组织确定可管理的开发工作范围。

◼ 数据仓库环境包括:一系列组织起来以满足企业需求的架构组件。包括源系统,数据集成,数据存储区域等。大数据方案一般会先加载数据,再处理,即 ELT。

◼ 数据仓库架构组件的数据存储区域包含
1)暂存区。介于原始数据源和集中式数据存储库之间的中间数据存储区域。
2)参考数据和主数据一致性维度。
3)中央数据仓库。数据结构的设计元素包括:①基于性能考虑而设计的业务主键和代理主键之间的关系。②创建索引和外键以支持维度表。③用于检测、维护和存储历史记录的变更数据捕获(Change Data Capture,CDC)技术。
4)操作型数据存储 ODS。操作型数据存储包含一个时间窗口的数据而不是全部历史记录,因此可以比数据仓库有更快地刷新频率。
5)数据集市。面向特定主题域、单个部门或单个业务流程。
6)数据立方体 Cubes。3 种经典的支持在线分析处理系统 OLAP:基于关系、基于多维及混合型存储结构。P296-298
在这里插入图片描述
◼ 数据仓库建设涉及两种主要的数据集成处理类型:历史数据加载和持续不断的数据更新。P299

◼ 历史数据处理
1.Inmon 类型的数据仓库建议所有数据存储在单个数据仓库层中。这一层中存储已清洗过的、标准化的和受管控的原子级数据。
2.Kimball 类型的数据仓库建议,数据仓库由包含已清洗过的、标准化的和受管控数据的部门级数据集市合并而成。数据集市将在原子级别存储历史记录,由一致性维度表和一致性事实表提供企业级信息。
3.Data Vault,作为数据暂存处理的一部分,同样进行数据清洗和标准化。历史数据以规范化的原子结构存储,每个维度定义了代理键(Surrogate key)、主键(Primary key)、备用键(Alternate key)。P299-300

◼ 批量变更数据捕获。数据仓库是通过每天晚上的批处理窗口进行一次数据加载服务。因为不同源系统可能需要不同的变更捕获技术,所以加载过程可以包含各种变更检测。P300
在这里插入图片描述
◼ 准实时和实时数据加载
1)涓流式加载(源端累积)。不同于夜间窗口批量加载,它会以更频繁的节奏或阈值进行批量加载。微批处理。
2)消息传送(总线累积)。极小数据报发到消息总线,目标系统订阅总线。MQ。
3)流式传送(目标端累积)。目标系统使用缓冲区或队列方式收集数据,并按顺序处理。kafka。P300-301

◼ 【活动 1】理解需求
1 要考虑业务目标和业务战略。
2 确定业务领域并框定范围。
3 进行访谈,确定原因及想要的数据。
4 确定需求的优先级。
5 找出可以快速启动具有价值的需求。P301

◼ 【活动 2】定义和维护数据仓库/商务智能架构
【活动 2-1】确定数据仓库/商务智能技术架构。应能以原子化的数据处理方式支撑交易级和运营级的报表需求。做好原型设计可以快速证明或驳斥关键需求的实现,避免对某些技术或架构进行过大的投入。
【活动 2-2】确定数据仓库/商务智能管理流程。通过协调和集成维护流程进行生产管理,定期向业务团队发布。建立一个有效的发布流程,确保管理层理解这是一个以数据产品为中心的主动流程,而不是已安装产品的被动式问题解决方式。

◼ 【活动 3】开发数据仓库和数据集市。数据仓库/商务智能建设项目有三条并存的构建轨迹:
1)数据。支持业务分析所必需的数据。识别最佳来源、设计规则、处理不合预期数据。
2)技术。支持数据存储和迁移的后端系统及流程。
3)商务智能工具。内容:(70%的工作)1.将源映射到目标。建立转换规则。确保链接有效性或等效性。逻辑数据模型。最困难是确定多系统数据间的链接有效性或等效性。2.修正和转换数据。数据修正或清理活动的执行标准。纠正域值。源系统应负责数据的修复工作并确保数据正确。乐观加载策略:创建维度记录以容纳事实数据。悲观加载策略:事实数据的回收区域。P302-303

◼ 【活动 4】加载数据仓库。工作量最大的部分是数据准备和预处理。确定数据加载方法时,
1.要考虑的关键因素是数据仓库和数据集市所需的延迟要求、源可用性、批处理窗口或上载间隔、目标数据库及时间帧的一致性,还必须解决数据质量处理过程、执行转换的时间、延迟到达的维度和数据拒绝等问题。
2.另一个因素是围绕变更数据捕获过程检测源系统中的数据变更,将这些变更集成在一起,并依时间调整变更。P303-304

◼ 【活动 5】实施商务智能产品组合
1.根据需要给用户分组。了解用户组。将工具与用户组匹配。
2.将工具与用户要求相匹配。需要系统资源、技术支持、培训和架构集成。P304

◼ 【活动 6】维护数据产品
1.发布管理。确保是最佳状态。
2.管理数据产品开发生命周期。
3.监控和调优加载过程。了解性能瓶颈和依赖路径。分区、备份调优、恢复策略。归档是难题。
4.监控和调优商务智能活动和性能。最佳实践是定义一组面向客户满意度的指标。定期审查 。透明度和可见性推动数据仓库/商务智能监控的关键原则。P305-307

◼ 工具
1.元数据存储库。A.数据字典和术语。数据字典是支撑数据仓库使用的必需组件。字典用业务术语来描述数据,数据字典内容来自逻辑数据模型。B.数据和数据模型的血缘关系。1)调查数据问题的根本原因。2)对系统变更或数据问题进行影响分析。3)根据数据来源确定数据的可靠性。
2.数据集成工具。用于加载数据仓库。考虑:1)过程审计、控制、重启和调度。2)有选择地提取数据元素并将其提供给下游系统进行审计的能力。3)控制操作的执行,并重启失败或中止的进程。还提供 BI 产品的集成功能,支持工作流消息、电子邮件甚至语义层的导入导出。
3.商务智能工具。1)运营报表。2)业务绩效管理 BPM。旨在优化业务战略的执行。绩效度量和带正反馈回路是关键的要素。绩效度量和带正反馈回路是关键的要素。3)描述性自助分析。为前台提供,指导运营决策。P307-310

◼ 运营报表:业务用户直接从交易系统、应用程序或数据仓库生成报表。数据检索和报表工具,有时称为即席查询工具,允许用户编写自己需要的报表或创建供他人使用的报表。业务运营报表中的需求通常与业务查询报告的需求不同。生产报表跨越了数据仓库/商务智能的边界,它经常直接查询交易系统,产生诸如发票或银行对账单之类的操作项。传统的商务智能工具可以很好地展现表格、饼图、折线图、面积图、条形图、直方图、K 线图等一些数据可视化方法。P309

◼ 在线分析处理 OLAP:多维分析查询提供快速性能的方法。常见操作有切片、切块、向下/向上钻取、向上卷积、透视。三种经典 OLAP 实现方法如下:关系型联机分析处理 ROLAP。多维矩阵型联机分析处理 MOLAP。混合型联机分析处理 HOLAP。P311

◼ 一些有用的方法
1.驱动需求的原型。数据剖析有助于原型设计,降低风险。状态评估有助于集成可行性和工作范围的评估。演示数据。数据虚拟技术。数据探查。源系统评估。
2.自助式商务智能。基本交付形式。根据用户权限提供。按标准计划推送。在门户中执行报表提取数据。社区。
3.可查询的审计数据。所有结构和流程都应能创建和存储审计数据。能进行细粒度的跟踪和报告。提升用户信心。可快速定位问题。P311-312。

◼ 就绪评估/风险评估:从先决条件清单开始,业务支持,与战略保持一致。
1)明确数据敏感性和安全性约束。
2)选择工具。
3)保障资源安全。
4)创建抽取过程以评估和接收源数据。P312-313

◼ 版本路线图:逐步建设。要考虑实现的最后状态。P313

◼ 组织与文件变革:始终保持一致的业务重点是项目成功的关键。了解企业的价值链是理解业务环境的好方法。要确保数据仓库团队与业务部门团队保持一致。P312-313

◼ 成功的关键
1)业务倡议。是否有合适的管理层支持?
2)业务目标和范围。是否有确切的业务需要、业务目标和工作范围?
3)业务资源。是否有专家?参与度如何?
4)业务准备情况。业务合作是否准备好这是长期的增量交付项目?目标组织内的平均知识水平或技能差距有多大?
5)愿景一致。IT 战略对业务愿景的支持程度如何?P313-314

◼ 数据仓库/商务智能治理的考量因素:治理流程应降低风险,而不是减少任务的执行。最关键的功能是那些管理业务运营的发现或改进区域,以及确保数据仓库本身质量稳定的功能。
1.业务接受度。
2.客户/用户满意度。
3.服务水平协议 SLA。
4.报表策略。P314

◼ 业务接受度:一个关键的成功因素是业务对数据的接受程度,包括可理解的数据、具有可验证的质量、具有可证明的数据血缘关系。要考虑:
1)概念数据模型。组核心信息?关键的业务概念?如何相互关联?
2)数据质量反馈循环。如何识别和修正问题数据?如何了解问题是怎么产生的?怎样对解决问题负责?对数据仓库的数据集成过程中引起的问题进行补救的过程是什么?
3)端到端元数据。架构如何支持集成的端到端元数据流?是否理解上下文环境的意义?数据消费者如何回答诸如“这个报表的含义是什么”或“这个指标是什么意思”等基本的问题?
4)端到端可验证数据血缘。业务用户公开访问的项目是否能以自动化的、可自维护的方式追溯到源系统?所有数据是否都记录在案?P315

◼ 报表策略要解决
1)安全访问。确保只有获得授权的用户才能访问敏感数据。
2)描述用户交互、报告、检查或查看其数据的访问机制。
3)用户社区类型和使用它的适当工具。
4)报表摘要、详细信息、例外情况以及频率、时间、分布和存储格式的本质。
5)通过图形化输出发挥可视化功能的潜力。
6)及时性和性能之间的权衡。P316

◼ 度量指标
1.使用指标。包括注册用户数、连接用户数或并发用户数。
2.主题域覆盖率。衡量每个部门访问仓库的程度 3.响应时间和性能指标。指标的后续跟进工作是验证和服务级别调整。P316


第1章 数据管理
第2章 数据处理伦理
第3章 数据治理
第4章 数据架构
第5章 数据建模和设计
第6章 数据存储和操作
第7章 数据安全
第8章 数据集成和互操作
第9章 文件和内容管理
第10章 参考数据和主数据
第11章 数据仓库和数据智能
第12章 元数据管理
第13章 数据质量
第14章 大数据与数据科学
第15章 数据管理成熟度评估
第16章 数据管理组织与角色期望
第17章 数据管理和组织变革管理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/550594.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MAC上如何将某个目录制作成iso格式磁盘文件,iso文件本质是什么?以及挂载到ParallelDesktop中?(hdiutil makehybrid )

背景 ParallelsDesktop没有安装ParallelsTools的无法共享目录,可以通过ParallelsDesktop提供CD磁盘的方式共享进去 命令 # 准备文档 mkdir mytestdir cp xxx mytestdir# 生成iso hdiutil makehybrid -o output.iso mytestdir -iso -joliethdiutil是MAC提供的磁盘…

使用FastDDS编译IDL文件

1.安装FastDDS环境 Ubuntu22.04 1.1安装依赖的软件 sudo apt-get update //基础工具安装 sudo apt install cmake g python3-pip wget git //Asio 是一个用于网络和低级 I/O 编程的跨平台C库,它提供了一致的 异步模型。 TinyXML2是一个简单,小巧&…

DFS算法系列题 全排列II

DFS算法系列题 – 全排列II DFS精选题- > 这次我们挑战的对象是: 全排列II 题目链接:47. 全排列 II - 力扣(LeetCode) 这道题和我们之前做的全排列不同的点在于这道题的题目包含了重复的数字,要求我们返回不重复…

Transformer的Decoder的输入输出都是什么

目录 1 疑问:Transformer的Decoder的输入输出都是什么 2 推理时Transformer的Decoder的输入输出 2.1 推理过程中的Decoder输入输出 2.2 整体右移一位 3 训练时Decoder的输入 参考文献: 1 疑问:Transformer的Decoder的输入输出都是什么 …

SQLite数据库中JSON 函数和运算符

返回:SQLite—系列文章目录 上一篇:维护SQLite的私有分支(二十六) 下一篇:SQLite—系列文章目录 ​ 1. 概述 默认情况下,SQLite 支持 29 个函数和 2 个运算符 处理 JSON 值。还有两个表值函数可用于分解 JSON…

最优算法100例之52-合并两个单调递增的单链表

专栏主页:计算机专业基础知识总结(适用于期末复习考研刷题求职面试)系列文章https://blog.csdn.net/seeker1994/category_12585732.html 题目描述 合并两个单调递增的单链表 题解报告 解法1:采用尾插法首先确定一个头结点出来&a…

【Java EE】关于Spring MVC 响应

文章目录 🎍返回静态页面🌲RestController 与 Controller 的关联和区别🌴返回数据 ResponseBody🎋返回HTML代码片段🍃返回JSON🍀设置状态码🎄设置Header🌸设置Content-Type&#x1f…

【halcon】C# halcon 内存暴增 续,找到一个解决方案

这里写自定义目录标题 背景释放临时缓存具体的使用感受背景 在之前的文章《【halcon】C# halcon 内存暴增 》中我们提到了一些会导致内存暴增的原因。 其中一个就是使用了计算复杂的算子,且图片很大时,此时内存就会暴增,而且内存无法被释放。 这次,我在做一个项目时,用到…

一个开源的全自动视频生成软件MoneyPrinterTurbo

只需提供一个视频 主题 或 关键词 ,就可以全自动生成视频文案、视频素材、视频字幕、视频背景音乐,然后合成一个高清的短视频。 一:功能特性 完整的 MVC架构,代码 结构清晰,易于维护,支持 API 和 Web界面…

软件杯 深度学习图像修复算法 - opencv python 机器视觉

文章目录 0 前言2 什么是图像内容填充修复3 原理分析3.1 第一步:将图像理解为一个概率分布的样本3.2 补全图像 3.3 快速生成假图像3.4 生成对抗网络(Generative Adversarial Net, GAN) 的架构3.5 使用G(z)生成伪图像 4 在Tensorflow上构建DCGANs最后 0 前言 &#…

复习回顾ES6基础篇(一小时学会es6)

基本语法 多行注释 /* 这里的所有内容 都是注释。 */单行注释 // 这是一条注释。变量定义 var x "" //定义范围变量 let y "" //定义局部变量 const z "" //定义常量运算符 变量类型 流程语句 if (condition) {/* 条件为真时运行的代…

LVM与磁盘配额

目录 一.LVM概述 1.LVM (Logical Vokume Manager )逻辑卷管理 2.LVM的管理命令 3.创建并使用LVM操作步骤 二.磁盘配额概述 1.实现磁盘限额的条件 2.Linux磁盘限额的特点 3.实现磁盘配额的步骤 三.总结: 一.LVM概述 1.LVM &#xff…

【静态分析】软件分析课程实验-前置准备

课程:南京大学的《软件分析》课程 平台:Tai-e(太阿)实验作业平台 1. 实验概述 Tai-e 是一个分析 Java 程序的静态程序分析框架,相比于已有的知名静态程序分析框架(如 Soot、Wala 等)&#xf…

《手把手教你》系列基础篇(九十二)-java+ selenium自动化测试-框架设计基础-POM设计模式简介(详解教程)

1.简介 页面对象模型(Page Object Model)在Selenium Webdriver自动化测试中使用非常流行和受欢迎,作为自动化测试工程师应该至少听说过POM这个概念。本篇介绍POM的简介,接下来宏哥一步一步告诉你如何在你JavaSelenium3自动化测试…

算法打卡day36

今日任务: 1)01背包问题理论基础(卡码网:46. 携带研究材料) 2)01背包问题滚动数组(卡码网:46. 携带研究材料) 3)416. 分割等和子集 4)复习day11 卡码网:46. 携带研究材料 题目链接&…

35、链表-LRU缓存

思路: 首先要了解LRU缓存的原理,首先定下容量,每次get请求和put请求都会把当前元素放最前/后面,如果超过容量那么头部/尾部元素就被移除,所以最近最少使用的元素会被优先移除,保证热点数据持续存在。 不管放…

排序(三)——快速排序(递归以及栈和队列实现非递归)超详细

目录 1.hoare法 2.挖坑法 3.前后指针法 4.快排的非递归 4.1 栈实现快排非递归 4.2 队列实现快排非递归 快排我们之前在学习通讯录的时候就用了,那时候我们知道快排是一个很牛逼的排序算法,那他到底是怎么实现的呢? 1.hoare法 快速排序…

【Redis 神秘大陆】003 数据类型使用场景

三、Redis 数据类型和使用场景 Hash:对象类型的数据,购物车List:队列/栈Set:String类型的无序集合,intset,抽奖、签到、打卡,商品评价标签Sorted Set:存储有序的元素,zip…

六、OpenFeign服务接口调用

一、提问 已经有loadbalancer为什么还要学习OpenFeign? 两个都有道理的话,日常用那个? 二、是什么 OpenFeign是什么 官网翻译 Feign是一个声明性web服务客户端。它使编写web服务客户端变得更容易。使用Feign创建一个接口并对其进行注释。它具有可…

【InternLM 实战营第二期笔记】LMDeploy 量化部署 LLMVLM实战

Huggingface与TurboMind介绍 Huggingface HuggingFace是一个高速发展的社区,包括Meta、Google、Microsoft、Amazon在内的超过5000家组织机构在为HuggingFace开源社区贡献代码、数据集和模型。可以认为是一个针对深度学习模型和数据集的在线托管社区,如…