文化行业

注册

 

发新话题 回复该主题

马欢DAMA数据管理知识体系及对制造业数 [复制链接]

1#
男性白癜风怎么治疗 http://pf.39.net/bdfyy/tslf/180306/6084104.html

首先介绍一下数据管理协会(DAMA),数据管理协会在年成立,已经有40多年历史,本身由一些IT技术、业务人员组成的一个非盈利、厂商中立的协会组织,在北美、欧洲、澳洲、亚洲有60多个以城市或者国家命名的分会,个人会员有2万余人。

马欢|上海市海外经济技术促会浦江学术委员会委员,DAMA中国理事

DAMA中国是DAMA在中国地区的一个分会,目标是为了促进国际、国内数据管理领域的最佳实践的交流与合作。这里面要跟大家特别提醒的就是DAMA这些分会其实都是独立的,并不是由总部任命的分会组织,每一个地区的分会只要认可DAMA的愿景、理念就可以同DAMA国际签署一个从属协议,用DAMA这个品牌、名字。但是各个分会从人员、财务方面都是独立的。

我们DAMA主要有两个IP,一个是数据管理知识体系,简称DMBOK,大家可能对项目管理知识体系PMBOK了解得更多一点,其实两者非常类似。在整个数据管理这个领域中,DMBOK把数据管理到底管什么做了一个总结,这个知识体系是由20多个各领域专家集体编写的一本书,中文版第二版今年刚刚出版,*色封面的第一版是清华出版社8年前出版的。另外我们还有一个认证体系,我们叫做数据管理专业认证,简称CDMP,这个认证从入门级、专家级、大师级、院士级共有4个级别。

下面我给大家介绍一下我们这个知识体系的内容,首先要说的是DAMA的数据理念,这个理念最近国内也非常热,说数据是石油、*金,也是数字经济的基础,但是如果没有妥善的管理,数据不仅不能成为*金和石油,而且会带来巨大的风险和灾难。

这张图是知识领域的车轮图,数据管理我们分为以数据治理为核心,以及环绕着数据治理的各个部分,加起来一共11个知识领域,这11个知识领域就基本涵盖了数据管理的方方面面。右边这张图是环境因素六边形图,针对任何一个知识领域,我们在讨论它的时候都基于这个领域的目标和原则,从人员方面包括角色和职责、组织和文化,过程角度来讨论它的方法、活动,以及从技术角度看用到哪些工具,以及最后交付什么东西这6个因素来进行讨论。每一个知识领域我们都是按照这六个角度讲,所以这本书是整体感非常强的一本书,虽然是20多个人合著的一本书,但是没有任何拼凑的感觉。

下边每一个领域用一分钟左右时间做一下介绍。

第一个领域叫数据治理,治理就是在管理过程中如何管控的过程,用一句话概括就是管理中一些高阶管理过程。DMBOK这本书中有两个图是挺好的一个说明,说治理就是如何保障这个数据得到正确处理的过程,管理就是在既定目标下实现目标的一个过程。做一个比喻数据治理类似于立法和司法的过程,管理就是执法的过程。

我们可以看一下数据治理通常都做了什么工作。通常包括是制订数据的战略,还有制订一些标准、制度,提供一些审计操作,还有重大事项的升级处理等等。传统观念都认为数据管理其实就是IT工作,但是我们看到上述这些工作其实传统IT角色是里没有人承担这些工作的,所以数据管理本身已然成为一项业务工作。

第二个领域是数据架构,数据架构我们给它一个简单的概括就是一个组织数据资产的蓝图,这个图是数字化转型非常好的一个著名企业,就是华为公司的数据架构的模型。他们定义数据架构的第一个组件就是数据资产的目录,一个组织中到底有哪些数据,家底要熟悉,既然是资产总得有个清单,这个资产目录就是定义这个东西。第二个组件叫数据模型,模型就是每个资产的规格要说清楚。第三个是标准,产生数据的时候我们讲了各个系统之间可能不同厂商做的系统,这个标准要统一。最后一个我们称为数据分布,数据分布就是我们这么多资产到底在哪些系统里落地,数据在什么地方存在,以及一个数据可能在多个系统之间流转,流转过程中可能还有很多加工变化,我们称为数据血缘,这个数据分布就是把这些信息描述清楚。通过这四方面基本上可以把组织中数据的概貌看出来,这样就有整体感了。否则管理层问搞数据的人说数据到底有什么东西,可能就没法说清楚,架构就是做组织的资产蓝图。

第三部分是数据的建模和设计,这个很传统,做IT开发的这么多年都在做这方面的事情。举一个简单的例子就是类似于我们去宜家,我们看到用户体验区和仓库其实是同一批物品,但是摆放方式不同,建模就是根据不同需要数据要有不同的摆放方式,它也是很传统的一个过程。

第四部分是数据的存储和操作,这也是很传统的,有技术含量的一个知识领域,举一个大家熟悉的角色就是数据库管理员DBA,它就管这些事,保证业务的连续性。不管你是否要搞创新还是什么业务发展,目前存在的系统要保持持续平稳的运行。我记得刚刚过完春节疫情期间有一个云服务商叫**的数据库就被人远程删掉了,当时很多腾讯云的专家恢复了一周还没有%恢复,这样他的业务就受到影响中断了,所以数据的存储和操作的目标就是保障业务的连续性。

这里面要特别提到的就是这十年来区块链的概念很火,大家对区块链赋予了很多高大上的内涵和光环,但是这本书里用了很小一段来描述区块链,就是包含有两种块、链两种数据结构的分布式数据库,就点明了区块链的本质就是一个分布式的数据库。

第五部分就是数据安全,数据安全传统上来说信息安全概念比较多,但是信息安全讲的往往都是防止网络攻击、网站被黑这些东西。现在随着大数据发展,数据越来越多,数据安全已经成为信息安全的重点,有很多企业专门搞数据安全,从数据采集一直到数据最终使用、销毁的过程中,每一步中间都涉及到了大量安全相关的技术和方法相关的内容,主要是保证数据不被破坏,受到正当的访问。所以我们常常讲一个企业的数据安全是一种额外的一种高级竞争力,如果不安全,很多人不敢用你的东西,所以是安全一种竞争力。

第六部分我们称作数据集成和互操作,这个领域说起来很简单,以前的系统都是孤岛式、烟囱式系统,现在都讲系统要集成。集成之后数据之间、系统之间就会大量流通、流转,这时候就要对数据的流动进行一个有效的管理。所以看到传统方法从最终的批处理到现在的流式传输,要求越来越高。那如果数据流动不管理,使用的时候会产生大量混乱,类似于我们社会对人员流动也要有一些相关的管理手段。

第七部分是文件和内容管理,文件内容管理侧重点在于管理文件和档案这些东西。这个东西传统上来说也是比较独立的领域,但是随着电子化、信息化的发展,以前的纸制档案都有一些很好的管理办法,但是电子档案看不见、摸不着怎么管?所以它也提出了很多相关的要求。

举个银行的例子,信用卡在申请过程中建议业务代表要跟客户一起拍照合影,如果留下相关的影像、视频,那后边客户否认办卡、否认交易的时候很容胜诉,所以这些影像、电子资料都必须得到妥善的保管,它主要是管理文件内容和档案内容等。

第八部分叫做参考数据和主数据。这个概念主要是指企业中核心的共享数据。银行里的共享数据就是客户信息,不管是办信用卡、借记卡、房贷、卖理财都会用到客户信息,如果客户信息是不同系统分别采集,那可能采集不完整或者不一致,给客户进行交叉营销或者分析时候会产生很多问题。那对于制造业、汽车业来说工厂里的设备、汽车零件都属于主数据,因为ERP、财务等很多系统都要用,所以必须要把参考数据和主数据进行集中管理,由一个系统来生成和维护,这是它的一个主要内涵。

第九个知识领域叫数仓和商务智能,最近这个名词有点落伍的感觉,大家都搞大数据了,其实DMBOK这本书挺朴实的,这张图中间部分就是传统数仓的过程,底下就是大数据的过程,大数据的来源更广了,处理的方式可能更先进了,可视化的展示更绚丽了一点,其实整个大数据都是对数仓和商务智能的延伸,我们把它视为从数据中获取价值的过程,所以个领域也是挺核心的东西。

第十个知识领域叫元数据,元数据就是关于数据的数据,就是你要说明这个数据到底是什么东西,举个例子就是一个图书馆可能有几千万本书,如果你没有把这些书的书名、作者、出版社信息管理好,图书馆就乱套了找不到书,这些信息都是书籍的元数据,但是图书馆只管图书这一种东西,而数据方面各种各样规格的太多了,如果没有对各种数据的元数据进行集中的管理,那人工智能、机器学习都是水中花、镜中月,所以要对元数据进行集中管理,其实元数据的定义其实很广,包括我们刚才说的一些数据模型,包括各种配置信息,总之原来需要人记的东西、数据的各种描述都属于元数据的范畴,而且需要集中管理。

最后一个知识领域是数据质量,这张片子下边有一些常见的治理管理工具图,其实关于质量管理的一些著名大师都是在汽车行业产生的,数据治理管理也是采用了大量传统的产品质量管理的方法,当然数据质量定义了很多数据特有的维度、测量指标。

这张片子介绍的就是整个数据管理十一个知识领域的概述内容。关于DMBOK的11个知识领域,它还有另外两种角度的图形,左边是从业务角度也画的一个图,也是车轮图,把关于数据治理从业务角度

分享 转发
TOP
发新话题 回复该主题