在数据仓库、数据平台、数据中台、数据湖的相关概念中,都与数据有关系,但它们之间又有什么区别呢?本文围绕它们的概念、架构、使用场景进行了介绍,一起来看一下吧。
我们经常听到别人谈论数据仓库、数据平台、数据中台、数据湖的相关概念,它们都与数据有关系,但它们之间又有什么区别,下面我们将围绕数据仓库、数据平台、数据湖和数据中台的概念、架构、使用场景进行介绍。
一、数据仓库1. 数据仓库概念
数据仓库由比尔·恩门(Bill Inmon,数据仓库之父)于1990年提出,主要功能是将企业系统联机事务处理(OLTP)长期壁垒的大量数据,通过数据仓库理论支持所持有的数据存储结构,做有系统的分析整理。
随着企业的发展,业务系统的数据不断激增,这些存储在企业业务数据库中(也就是关系型数据库Oracle,Microsoft SQL Sever,MySQL等)数据会随着时间的积累越来越多,会使业务数据库会有一定的负载,导致业务系统的运行效率低,且这些数据中有很大一部分是冷数据,而我们业务系统一般对我们近期的数据,也就是热数据调用的比较频繁,对冷数据使用频率较低。
同时随着企业数据驱动业务概念的兴起,企业需要将各业务部门的业务数据提取出来进行数据分析与挖掘,辅助高层进行分析与决策,但各部门需求的数据种类千差万别,接口错综复杂,过多的数据查询脚本以及接口的接入导致业务数据库的稳定性降低。
为了避免冷数据与历史数据的积压对我们业务数据库效能产生影响,企业需要定期将冷数据从业务数据库中转移出来存储到一个专门存放历史数据的仓库里面,各部门可以根据自身业务特性对外提供统一的数据服务,这个仓库就是数据仓库。
2. 数据仓库特点
数据仓库(Data Warehoese)的特点:面向主题的、集成的、稳定的、反映历史数据变化的。
- 面向主题的:数据仓库是用来分析特点主题域的,所以说数据仓库是面向主题的。例如,电商行业的主题域通常分为交易域、会员域、商品域等。
- 集成的:数据仓库集成了多个数据源,同一主题或产品相关数据可能来自不同的系统不同类型的数据库,日志文件等。
- 稳定的:数据一旦进入数据仓库,则不可改变。数据仓库的历史数据是不应该被更新的,同时存储稳定性较强
- 反映历史数据变化的:数据仓库保存了长期的历史数据,这点相对OLTP的数据库而言。因为性能考虑后者统筹保存近期的热数据。
3. OLTP与OLAP
1)OLTP与OLAP概念
数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。
OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
2)OLTP与OLAP区别