睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

浅谈数据加载策略及商业银行应用场景实践

时间:2022-07-16来源:徐长卿浏览数:124

数据归类、数据特性分析在加载需求过程中是前置准备环节。完整的数据加载需求应在数据归类的基础上结合业务与系统实际情况,分析数据特性,最后根据现状调研、数据归类与数据特性制定数据加载策略,从而保证数据加载效率,提升数据质量,减少系统负担。

商业银行在日常的经营管理过程中,数据分析场景应用广泛,如进行产品研发、风控模型分析、活动获客总结等都需要数据的支持,随之带来的就是数据加载需求的激增。为能在保证数据加载性能的前提下充分实现需求内容,需要综合考虑数据特性和应用场景需求,明确合适的数据加载策略。

01数据归类及数据特性

数据归类、数据特性分析在加载需求过程中是前置准备环节。完整的数据加载需求应在数据归类的基础上结合业务与系统实际情况,分析数据特性,最后根据现状调研、数据归类与数据特性制定数据加载策略,从而保证数据加载效率,提升数据质量,减少系统负担。

1.数据归类

目前根据系统的业务特点,一般分为生产交易型数据、服务支撑型数据与系统数据三类:

1)生产交易型数据生产交易型数据就是企业各IT支撑系统所产生、使用的数据,该类数据主要分布在业务支撑系统和管理支撑系统,如业务支撑系统、客户关系管理系统、ERP系统、电子渠道系统等。一般可根据业务类型将生产交易型的数据划分为客服域、资源域、营销域、产品域。

2)服务支撑型数据:服务支撑型数据是指将各个生产系统收集的数据,经沉淀加工挖掘后形成的信息数据,该类数据主要分布在提供数据服务和数据支撑的IT平台中,如数据仓库。此类数据按照数据仓库数据分层的原则可分为原型数据、明细数据、汇总数据、应用数据。

3)系统数据:系统数据是IT开发过程所产生的数据,由于此类数据一般不直接被业务需要,在数据归类过程中很容易被遗漏。然而众多系统实际情况表明,如果未能有效管理,将会严重影响系统的运行效率,一般包括程序软件、日志数据、过程数据和临时数据几类。2.数据特性

在数据加载需求分析过程中,需根据不同数据的特性制定相适应的性能、可用性、保存方式等要求。一般从以下几个方面进行考量。

1)重要在业务使用过程中按照数据的重要程度进行归类,数据分成不同的重要级别。针对高重要性的数据,如核心数据、客服数据,需要制定灾难备份和灾难恢复策略,确保数据的安全性。

2)访问频率:在系统运行过程中,依据数据的访问频率,对数据进行归类。通过不同的访问频率定义不同的加载策略。现数据加载阶段主要支持按日/按月访问。如监控系统稳定的日志数据、分析市场盈亏趋势的收支明细数据多数为按日访问;而月度上报监管类数据则使用按月访问的加载策略。

3)访问性能要求:根据业务部门需求,针对不同数据需要提供不同的访问性能支持和加载策略。通常情况下,数据访问频率较高,如针对每日需要频繁进行访问的安全日志数据,一般采用使用高性能的集群加载,确保数据的高可用性。

4)数据量:在系统运行过程中,数据以日/月为单位,按照数据量的大小,提供不同的加载策略。通常几十万级的数据,采用全量加载,而超过千万、亿级的数据,如访问频率不高,建议采用增量的方式减轻系统负担。

02数据加载策略

常见的加载策略一般有全量加载、增量加载、批量加载三类。

1)全量加载:全量加载是指全表删除后再进行全部(全量)数据加载。从技术角度来说,全量加载和增量加载相比,全量加载更易操作。一般只需要在数据加载之前将目标表清空,再将源数据表中的数据进行导入。

2)增量加载:增量加载是指目标表仅更新源数据表中变化的数据。增量加载的关键在于如何正确设计相应的方法,用于从源数据表中抽取增量的数据,以及变化“牵连”数据(虽没有变化,但受到变化数据影响的数据)。同时,将这些变化的和未变化但受到影响的数据,在完成相应的逻辑转换后更新到数据仓库中。

3)批量加载:业务人员在分析过程中需要对数据表过去数月甚至数年的数据需要进行趋势分析,对此类固定时间内的数据做一次性的加载方式称为批量加载。通常,对于几十万条记录的数据迁移而言,采取insert、update、delete等语句能够较好地将数据迁移到目标数据库中。然而,当数据加载量过大时,DML语句执行时生成的事物日志和约束条件将大大影响加载性能,故需要针对数据量大的数据采取批量加载处理。

03、数据加载的应用场景

制定数据加载策略除了满足业务需求之外,还需要充分考虑其数据特点,制定合理的加载策略。场景一:金融产品设计场景

产品设计人员在设计产品时,需要通过分析行内的快贷代码配置表、个人贷款申请表等数据,充分了解客户偏好,总结提炼产品特征,设计对客户最有吸引力的产品。此类生产交易型数据特点主要是数据重要性高、访问频率高、数据量较小,可以采用全量加载方式,保留分区,以便在保证性能的情况下获取充足的数据。

场景二获客营销场景

营销人员为进一步提升信用卡营销活动的推广效果,通过分析地面推广营销情况、信用卡激活比例等数据,总结营销活动成效与不足,为下阶段活动推广时段和地点的选择提供参考。针对该类服务支撑型数据,其数据特点主要是数据重要性不高、访问频率不高、数据量大,可以采用增量加载方式。

场景三绩效考核场

管理人员在对员工过去一年的工作内容进行绩效考核和监督时,一般根据员工营销产品数量、获客数量、办理效率等数据进行综合考量。针对该类固定时间内的批量数据,其数据特点为重要性低,访问频率固定、数据量庞大,占大量系统内存,适合使用批量加载的方式,并在管理人员做好分析评估后进行清理。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询