数据资源化通过将原始数据转变数据资源,使数据具备一定的潜在价值,是数据资产化的必要前提。数据资源化以提升数据质量、保障数据安全为工作目标,确保数据的准确性、一致性、时效性和完整性,推动数据内外部流通。数据资源化包括数据模型管理、数据标准管理、数据质量管理、主数据管理、数据安全管理、元数据管理、数据开发管理等活动职能。
● 数据模型计划:确认数据模型管理的相关利益方;采集、定义和分析组织级数据模型需求;确定遵循数据模型标准与要求,设计企业级数据模型(包括主题域数据模型、概念数据模型、逻辑数据模型);
● 数据模型执行:参考逻辑数据模型开发物理数据模型,保留开发过程记录;根据数据模型评审准则与测试结果,由数据模型管理的参与方进行模型评审,评审无异议后发布并上线模型;
● 数据模型检查:确定数据模型检查标准,定期开展数据模型检查,以确保数据模型与组织级业务架构、数据架构、IT架构的一致性;保留数据模型检查结果,建立数据模型检查基线;
● 数据模型改进:根据数据模型检查结果,召集数据模型管理的相关利益方,明确数据模型优化方案;持续改进数据模型设计方法、模型架构、开发技术、管理流程、维护机制等。
采用企业架构指导建立企业级数据模型,并采用一体化建模的方法,是提升数据模型业务指导性和模型质量的有效方式。例如,华为成立了EAC(企业架构委员会),参考企业架构设计了企业级数据模型(包括主题域数据模型、概念数据模型、逻辑数据模型),较好的描述和展示了业务流程与业务关系,同时,在一定时间内企业级数据模型保持稳定性,有效指导了新业务的方向探索与IT建设。
此外,通过引入一体化建模的方法,从技术和机制上支持企业级数据模型与IT开发的协同,使物理数据模型与逻辑数据模型保持一致,要求物理数据模型的实体属性来自于数据标准池,并通过元数据对该开发过程进行记录与监控,提升了数据模型的一致性、规范性、可控性。
证券行业自2019年起陆续发布数据模型行业标准,指导行业内企业数据模型构建,提高企业间数据模型互通性。具体包括《证券期货业数据模型 第1部分:抽象模型设计方法》(JR/T 0176.1—2019)、《证券期货业数据模型 第3部分:证券公司逻辑模型》(JR/T 0176.3—2021)、《证券期货业数据模型 第4部分:基金公司逻辑模型》(JR/T 0176.1—2019)。
国家电网公司构建了统一数据模型(SG-CIM),从企业级视角对国家电网公司各专业原始业务数据进行统一建模,是打造企业级业务中台和数据中台的关键。SG-CIM建设启动于2009年,历经SG186、SG-ERP、SG-ERP3.0等信息化建设不同发展阶段,历经多年建设,形成了覆盖电网主营业务、企业核心资源、智能分析决策三大板块14个业务大类,包括10个一级主题域,90个二级主题域,5472个实体,80658个属性。2021年以来,国家电网持续优化完善SG-CIM,聚焦营销2.0、项目中台、人资2.0等重点建设项目,探索了项目建设与SG-CIM设计同步完善、协同一致的工作机制和设计方法。
● 数据标准管理计划:确定数据标准管理相关负责人与参与人,开展数据标准需求采集与现状调研,构建组织级数据标准分类框架;制定并发布数据标准管理规划与实施路线;
● 数据标准管理执行:在数据标准分类框架的基础上,定义数据标准;依据数据资产管理认责体系,组织相关人员进行数据标准评审并发布;依托平台工具,应用数据标准(包括数据模型设计与开发、数据质量稽核等);
● 数据标准管理检查:对数据标准的适用性、全面性进行及时检查;依托平台工具,检查并记录数据标准应用程度;
● 数据标准管理改进:通过制定数据标准维护与优化的路线图,遵循数据标准管理工作的组织结构与策略流程,各参与方共同配合进行数据标准维护与管理过程优化。
推动数据标准应用于数据开发、数据质量管理,提升数据标准管理效果。例如,交通银行一方面以新建系统或重构系统为契机,实施数据标准的“强管控”,基于数据建模工具打通IT开发需求与数据标准,要求IT人员应用统一建模工具实施开发,推动数据标准有效落地,另一方面以数据标准管理促进数据质量提升,基于数据标准编制数据质量规则,聚焦关键业务领域与关键质量问题,并对数据标准应用情况进行持续监控。
业务术语是统一数据业务含义的关键,业务术语管理是数据标准管理的基础性工作。管理方面,企业已逐步形成统一管理的意识,重点关注业务术语的建设和应用,包括建立管理制度、管理流程并发布业务术语标准,并积极推广业务术语的宣贯和应用,促进业务术语的规范化、便捷化应用。技术方面,通过数据管理平台对业务术语进行统一归集、发布、查询和应用,确保在企业全局形成对核心业务概念的统一定义和使用。以中国工商银行为例,该行通过编制企业级的业务术语标准管理办法明确业务术语的命名规范、相关人员的职责以及应用原则等,建立集团信息标准系统对全行数据标准进行统一管理,定期组织相关培训以确保相关人员对组织内业务术语的理解一致。
● 数据质量管理计划:确定数据质量管理相关负责人,明确数据质量的内部需求与外部要求;参考数据标准体系,定义数据质量规则库,构建数据质量评价指标体系;制定数据质量管理策略和管理计划;
● 数据质量管理执行:依托平台工具,管理数据质量内外部要求、规则库、评价指标体系等;确定数据质量管理的业务、项目、数据范畴,开展数据质量稽核和数据质量差异化管理;
● 数据质量管理检查/分析:记录数据质量稽核结果,分析问题数据产生原因,确定数据质量检查责任人,出具质量评估报告和整改建议;持续测量全流程数据质量,监控数据质量管理操作程序和绩效;确定与评估数据质量服务水平;
● 数据质量管理改进:建立数据质量管理知识库,完善数据质量管理流程,提升数据质量管理效率;确定数据质量服务水平,持续优化数据质量管理策略。
数据质量管理遵循源头治理、闭环管理的原则。源头治理方面,主要是指在新建业务或IT系统过程中,明确数据标准或质量规则,采用“一数一源”原则,与数据生产方和数据使用方确认,常见于对于数据时效性要求不高或核心业务增量数据等场景。闭环管理方面,主要是指形成覆盖数据质量需求、问题发现、问题检查、问题整改的良性闭环,对数据采集、流转、加工、使用全流程进行质量校验管控(如图3所示),持续根据业务部门数据质量需求优化质量管理方案、调整质量规则库,构建数据质量和管理过程的度量指标体系,不断改进数据质量管理策略。
交通银行以“管理可度量”、“问题可闭环” 以及“质量标签化”三大原则建立质量管理体系。在管理度量方面,着重“以单为锚、量化反映”,建设以质量问题单为中心的线上化流程,支持解决时效等关键信息的量化统计,实现审批流转耗时降低50%;在闭环管理方面,依托数据质量管理系统搭建企业级质量规则库,结合各类数据应用场景的质量需求,已编制质量规则20000余条,集中覆盖公司板块、财管领域、EAST5.0等多个领域,同时针对数据湖历史数据和主题模型层开展常态化监控;在质量标签化方面,推进质量问题单与数据资产目录的联动,将质检信息同步至数据资产界面,方便业务人员基于质量状态标签前置判断数据资产可用性,加快数据资产应用价值释放。
● 主数据管理执行:依托平台工具,实现核心系统与主数据存储库数据同步共享;
● 主数据管理检查:对主数据质量进行检查,保证主数据的一致性、唯一性;记录主数据检查的问题;
● 主数据管理改进:总结主数据管理问题,制定主数据管理提升方案,持续改进主数据质量及管理效率。
由于主数据具有数据价值高、稳定性强、数量少但影响范围广等特点,有“黄金数据”之称。随着参与业务活动的核心业务实体的种类逐步增多,主数据的管理范围将逐步扩大,主数据从“跨部门”拓宽至“跨组织”。例如,海尔集团主数据以“业态不同、标准相同”为总体方针,以“标准一致、流程完整”为目标,遵循“流程可控、质量闸口、定期监控、流程前置”的管理原则,依托集团MDM主数据管理系统实现了全集团层面跨组织跨业态的主数据统一管理。
随着数字化转型进程的推进,在传统的产品/物料、供应商、客户等主数据的基础上,陆续将员工/组织、内部公司、银行机构、科目、链群、园区/建筑、工厂等数纳入集团主数据管理范围,目前已有12类标准化的主数据,由此打破了对主数据的传统认识,主数据的纳管将更注重业务场景和用户体验。
● 数据安全管理执行:依托平台工具,识别敏感数据,应用数据安全分类分级标准规范;根据数据的敏感级别,部署相应的数据安全防控系统或工具(如权限管控、数据脱敏、数据防泄露、安全审计等);
● 数据安全管理检查:监控数据在采集、存储、传输、加工、使用等环节的安全、隐私及合规状况等;组织进行内外部数据安全审计;
● 数据安全管理改进:总结数据安全问题与风险,评估数据安全管理相关标准规范的适用性、有效性,持续优化数据安全管理过程。
数据安全分类分级成为数据安全管理的基础性、关键性工作。2021年发布《数据安全法》,提出“国家建立数据分类分级保护制度,对数据实行分类分级保护”,正式确立了数据分类分级的保护要求;同年发布的《个人信息保护法》,要求“只有在具有特定的目的和充分的必要性,并采取严格保护措施的情形下,个人信息处理者方可处理敏感个人信息”;网信办在《网络数据安全管理条例(征求意见稿)》中进一步明确,将数据分为一般数据、重要数据、核心数据,国家对个人信息和重要数据进行重点保护,对核心数据实行严格保护;各地区、各部门按照国家要求,对本地区、本部门以及相关行业、领域的数据进行分类分级管理。
此外,金融、工业、电信、医疗等行业纷纷出台相应的数据分类分级指南,以数据资产分类为基础,结合敏感数据分级规则,形成数据资产安全分类分级标准。金融标准化管理技术委员会联合其行业主管部门已发布多项数据分类分级与保护相关的标准,如《金融数据安全 数据安全分级指南》(JR/T 0197-2020)、《金融数据安全 数据生命周期安全规范》(JR/T 0223-2021)等,还有多项处于研制阶段金融行业标准,如《金融数据安全 数据安全评估规范(征求意见稿)》,从全量个人信息、个人信息安全影响、个人金融信息、金融业数据、数据生命周期、网络数据、重要数据以及数据安全评估的维度对金融数据分类分级与保护做出了规定。
工业和信息化部于2020年印发了《工业数据分类分级指南(试行)》,旨在指导企业全面梳理自身工业数据,提升数据分级管理能力,促进数据充分使用、全局流动和有序共享。中国通信标准化协会于2020年发布的《基础电信企业数据分级分类方法》(YD/T 3813-2020)等行业标准,进一步提出了针对电信企业的数据分类分级方法。医疗行业在2020发布了《信息安全技术 健康医疗数据安全指南》,将健康医疗数据可被分为个人属性数据、健康状况数据、医疗应用数据、医疗支付数据、卫生资源数据和公共卫生数据6类,根据数据重要程度、风险级别以及对个人健康医疗数据主题可能造成的损害和影响将数据安全划分为五级。
平安银行引入AI技术和管理平台,提升数据分类分级效率,满足国家和监管机构的相关法规和要求。由于数据安全分类分级的对象需要细化到字段级,而海量金融数据面临成本与时效的巨大挑战,此外,随着金融行业的业务领域不断扩大、数据分布越来越广,将导致数据字段识别不完整、数据打标不全面的情况。
为解决以上问题,平安银行结合自身数据治理条件和数据特点,制定一套细化到数据项(字段级)的分类分级标签,形成与之对应的覆盖全生命周期各环节的保护措施,采用自上而下(即数据库模型设计阶段,从逻辑模型进行打标,对应物理表继承安全标签)、自下而上(即扫描物理表数据,对物理表字段进行分类分级打标)结合的方法,积极研发AI模型,开发出数据安全分类分级AI打标及管理平台。
个人信息保护成为数据安全管理关注的焦点。《个人信息保护法》将自然人姓名、出生日期、身份证件号码、生物识别信息等全面纳入保护范围,为组织确定了个人信息保护范畴与要求。系统性识别业务涉及的个人信息处理活动,充分掌握个人信息收集、存储、流通等活动,并作为数据安全标准规范的建立依据。在确保个人信息安全的前提下,引入多方安全计算、联邦学习等隐私计算技术,开展数据资产流通。
● 元数据管理执行:依托元数据管理平台,采集和存储元数据;可视化数据血缘;应用元数据,包括非结构化数据建模、自动维护数据资产目录等;
● 元数据管理检查:元数据质量检查与治理;元数据治理执行过程规范性检查与技术运维;保留元数据检查结果,建立元数据检查基线;
● 元数据管理改进:根据元数据检查结果,召集相关利益方,明确元数据优化方案;制定改进计划,持续改进元数据管理的方法、架构、技术与应用等内容。
元数据贯穿数据资产管理的全流程,是支撑数据资源化和数据资产化的核心。首先,元数据从业务视角和管理视角出发,通过定义业务元数据和管理元数据,增强了业务人员和管理人员对于数据的理解与认识。
其次,技术元数据通过自动从数据仓库、大数据平台、ETL中解析存储和流转过程,追踪和记录数据血缘关系,及时发现数据模型变更的影响,有效识别变更的潜在风险。最后,元数据可作为自动化维护数据资产目录、数据服务目录的有效工具。例如,广东电网依托元数据管理平台监控元数据分布情况,获取热门异常应用表,并查看元数据表变更趋势、字段变更趋势等信息,实现对重点应用数据链路的实时在线监测、异常定位、预警分析、工单处理。
主动元数据(Active Metadata)通过利用机器学习和知识图谱等底层人工智能技术,实现对数据采集、内容解析、使用分析等元数据的“主动”管理。作为元数据概念的延伸和扩展,主动元数据是对数据的使用者、相关数据管理活动、以及数据基础设施等方方面面情况的数据,支持持续分析数据的一致性和异常情况。
● 数据开发管理执行:建设集成了数据集成、程序开发、程序测试、任务调度、任务运维等能力的一体化数据开发工具;根据数据集成规范,进行逻辑或物理的数据集成;根据数据使用方的需求,进行数据开发;
● 数据开发管理检查:监控数据处理任务的运行情况,并及时处理各类异常;
● 数据开发管理改进:定期进行数据集成、开发、运维工作复盘,并以此为基础,对相关规范进行持续迭代。
依托统一数据开发平台,从技术侧和管理侧提升数据开发管理效率。例如,中国工商银行搭建了大数据开发工作站和研发与测试管理系统,对数据开发过程进行效率管控。大数据开发工作站创造了生产工作区,与常规生产运行资源、数据资源等解耦隔离,构建端到端的数据服务流水线。
同时,在现有Hive、MPPDB等批量加工的基础上,进一步满足流式数据加工、联机数据访问服务的开发场景,将语言由SQL向Spark、Python等扩展。测试管理系统建立了数据开发需求管理指标,包括需求项平均周期、开发前置时间、开发节奏等。
此外,采用“统计过程控制(Statistical Process Control)”的理念,使用统计方法对开发过程与任务进行实时质量监控。相较于2020年第三季度,2021年第三季度数据需求的平均研发周期大幅缩短,数据需求响应效率提升60%左右。
注:本文节选自中国信通院于第五届“数据资产管理大会”上发布的《数据资产管理实践白皮书(6.0版)》。
转载自:谈数据