睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

构建某国有商业银行实时交互式数据分析平台,高效助力普惠金融业务

时间:2022-12-28来源:屌丝绅士浏览数:168


在银行数字化转型的过程中,客户分析和精细化管理至关重要。在普惠金融业务中,如何对下沉的海量客户建立数字普惠全景视图,实现经营状况及资产质量分析、客户分析、产品分析、营销分析等交互式数据分析能力,对于银行普惠金融业务的开展起到了关键支撑作用。某国有大型商业银行充分利用征信、工商、纳税、电力、司法、结算、供应链、政务、采购平台、贷款信息等行内外数据,将风险指标融入客户多维画像信息,建立普惠金融营销、准入、信用评价、授信、定价、贷后监测预警、催收等分析模型,实现关键业务指标实时报送,提供交互式数据分析。该平台对底层数据基础设施的实时性、高并发、稳定性和可用性等能力都提出了更高的要求。具体而言,需要解决以下需求:1) 海量异构数据的实时查询。面对多样复杂的客户画像数据,数据库作为支撑业务用户日常在线使用的系统,需要能够执行行内超过200个以上标签动态组合以及5张表以上任意条件筛选和组合的复杂查询,达到秒级响应时间;2) 支撑高并发业务查询场景。该银行总共有5万多位客户经理提供日常对公和对私的业务服务,会不免出现同时间下的多点数据查询需求。因此,数据库要能够在高并发场景下及时响应来满足精准营销和信贷风控的业务需要;3) 能够稳定可靠地对外提供数据服务,满足系统可用性级别要求。金融行业对数据一致性、系统的RPO和RTO指标、多数据中心等方面有严苛的要求,要保证数据不错不漏、故障无损快速切换,提供多数据中心备灾措施等。

01基于分布式全内存数据库RapidsDB构建数据分析平台

为了满足以上性能及业务需求,该银行将借助分布式内存计算技术提升数据库分析性能,作为重点考察方向。柏睿数据分布式全内存数据库RapidsDB在快速部署、集群弹性、性能线性扩展、广泛兼容、异构数据支持、海量数据计算等多方面获得行方的高度肯定,从而在行方同类数据库产品选型中脱颖而出。柏睿数据成立于 2014 年,是一家以数据库为核心的“Data+AI〞数据智能基础软件公司,国内首家因突破数据库核心技术而获得国家级专精特新“小巨人”称号的民营企业。柏睿数据作为国内掌握全内存数据库引擎关键专利的企业,基于完全自主研发的全内存分布式数据库产品体系和人工智能产品体系,打造软硬一体化智能数据处理平台,其产品在算力性能、智能化、安全性、标准化等关键技术指标上均业界领先,已为金融、政务、能源、通信、医疗等众多行业标杆客户提供原创性数字化转型技术产品服务。

图:基于分布式全内存数据库RapidsDB构建的实时交互式数据分析平台

柏睿分布式全内存数据库RapidsDB在该行的普惠金融业务场景中代替了原有的“Oracle + ElasticSearch”复杂技术栈,实现极速性能提升,而且保证了金融级别的稳定可靠和高可用性。为了解决海量用户数据实时查询的性能问题,RapidsDB采用全内存架构避开了磁盘访问I/O,达到更快的查询速度;在多表关联场景下,柏睿通过动态查询优化、索引使用优化、join连接优化实现了多表关联场景中更强的性能表现,达到复杂查询的即时响应能力。为了支撑上万名业务经理高并发的查询需求。RapidsDB采用分布式架构,通过动态扩展应对任务执行量的增长,并且配合查询优化器均衡分配节点负载。同时,RapidsDB通过数据结构无锁化实现了最大程度的并发能力。针对金融级数据可靠性和可用性的要求,首先,RapidsDB在内存存储之外还通过事务日志和定期快照不断地将数据备份到磁盘,实现数据库内存与持久化存储,如Flash、SSD、HD等,协同工作来确保数据无丢失风险。其次,在集群内部可用性方面,数据节点通过成对的配置在彼此之间共享数据副本,保持数据实时同步。主备节点均可对外提供服务,如果出现任何叶的故障,RapidsDB将自动切换副本分区。在节点出现故障的情况下,RapidsDB通过将适当的副本分区升级为主分区来转移节点故障,以便数据库保持在线。在满足集群内高可用的基础上,RapidsDB还实现了跨机房数据和系统服务的高可用,支持“同城双中心”、“两地三中心”、“三地五中心”等金融级别的灾备方案,在系统本身发生故障、应用层报错、网络错误、人为错误等情形下,数据库系统均能保障良好的高可用性。

02基于RapidsDB数据库的数据分析平台落地后的价值与效果

第一, 通过RapidsDB在大规模异构数据场景下的高性能表现,满足了该银行对多表关联复杂查询的需求。实现了1100亿行数据、40TB大数据量下的实时查询,支持前端SQL条件灵活组合、最多15个表join的多表复杂查询。

第二, RapidsDB支撑了全银行5万名客户经理的日常查询服务,具备典型情况下上百个并发查询和极端情况下4000多个并发查询的能力,能够充分应对业务多点并发的读取请求,达到平均3.6秒的响应时间。
第三, RapidsDB能够稳定可靠地运行,提供99.999%高可用的数据服务,满足金融行业对数据库的严苛要求,有效支撑了该银行普惠金融业务的快速发展。

03项目经验总结

该银行的数据分析平台成功上线以来,柏睿数据RapidsDB分布式全内存数据库展现了出色的性能和稳定性来支撑该银行普惠金融业务的转型升级。该项目的成功落地为同类型业务或者相似规模的企业提供了以下分析型数据库的使用建议:

1) 在类似普惠金融拥有海量多元化数据沉淀,并且要求高实时性查询的业务场景中,全内存数据库因为运行时不需要将数据同步到物理磁盘,从而避免了磁盘I/O限制对系统性能的影响并且减少了系统维护的工作量,所以被该类型业务场景所青睐。因此,对于数据存取效率要求较高的系统,全内存数据库可以比主要利用磁盘存取的数据库发挥更大的性能作用。
2)在类似国有银行员工数量众多、内部组织架构复杂的大型企业中,通常有大量业务人员同时进行日常查询操作来保证业务正常运转。因此,分析型数据库需要具备分布式相关技术,通过动态扩展和平衡分配任务量支持多点并发的任务请求,保证同一时间下查询的及时响应。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询