大家都知道数据仓库的其中一个重要的特点就是面向主题的,那么数据仓库对于主题域的划分是如何划分的呢?在介绍主题域的划分之前,先看下主题和主题域的定义。
关于主题:
数据仓库中的数据是面向主题组织的,主题是在较高层次上将企业信息系统中的数据进行综合、归类和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。如财务分析就是一个分析领域,因此这个数据仓库应用的主题就为“财务分析”。
关于主题域:
主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题域(也说是对某个主题进行分析后确定的主题的边界。)
简单来讲就是将业务过程或者维度进行抽象的集合。
特点:面向分析,业务抽象的,通用的,长期维护。
关于主题域划分
主题域划分规则
第一种方式就是按业务主题去划分
业务主题:我们可以将一个业务主题理解为公司的一条业务线,或者说数据仓库待建设的一个数据集市。
例如一个公司有很多业务,每个业务线做的事情不一样,例如业务线1负责广告,业务线2负责游戏,业务线3负责电商,可以根据职能部门来划分,此时就可以按照业务线来划分主题域。
第二种方式是按照数据主题去划分
数据主题:一般来讲,我们会侧重于将数据主题理解为行为数据主题,比如说登陆、点击、下载等行为主题。
例如说公司中有很多的业务线,每个业务线下可能又很多子业务线,但是很多业务线的形态是类似的,比如说阿里系的淘宝和天猫,腾讯系的QQ和微信,他们的很多行为是类似的,他们的很多的业务线虽然不一样,但是他们的用户的很多核心的动作是类似的,所以我们可以把它抽象出一些公共的行为主题出来。
对于一些大公司的业务线比较多,数据场景还相对比较复杂的情况下,此时我们可以先划分业务主题,然后再去分析数据主题,通常情况下,在做数据仓库之前,我们通过业务调研,可以先画出如下的业务数据矩阵来帮助我们来划分数据仓库主题域。
业务数据矩阵:我们可以认为它的作用是从全局的角度来对公司的数据进行规划和设计。一般来讲,在数据仓库的设计初期,数据仓库架构师会根据对业务和数据的理解来设计一个全局的业务数据矩阵,以此从宏观的角度来描述公司的业务和数据现状,并指导后续的数据仓库建模。
上图中右侧黄色的部分可以理解为各个业务线,各个业务中所关注的数据主题有相似的地方,也有不一致的地方。
上图中灰色部分可以理解为归纳出的不同的数据主题。
通用行为数据主题:即各业务场景都容易出现行为,比如曝光、点击和下载等。
业务行为数据主题:主要是指和业务强相关的行为,比如说视频业务中有播放行为,论坛业务中发表帖子行为。
衍生行为数据主题:主要是指非用户原始的行为,比如说留存,本身是由用户活跃来描述的。
其它行为数据主题:有一些多主题交叉的数据,比如跨业务主题的海内外互通用户主题,或者跨业务和行为的阅读带来的购买行为数据主题。
业务数据矩阵的作用:
- 能够帮助数据仓库架构师清晰地梳理整个数据体系。
- 能够帮助决策者(各位老板)从宏观的角度了解数据仓库的整体情况。
- 能够让所有的数据仓库参与者了解数据仓库的设计,根据矩阵有规划地填充数据表即可。
评论留言