睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一，入选IDC企业数据治理实施部署指南。同时，在IDC发布的《中国数据治理市场份额》报告中，连续四年蝉联数据治理解决方案市场份额领先。

在线免费试用 DEMO体验视频介绍

睿治智能数据治理平台

IDC蝉联数据治理解决方案市场领先

浅谈人工智能技术助力审计数字化转型

时间：2023-09-03来源：月球上的人浏览数：582次

在互联网金融迅猛发展的今天，商业银行业务范畴不断扩大，内部审计作为其必不可少的风险控制工具，可以客观评估风险管理的整体水平，有效防范和控制风险的蔓延。然而，面对日益复杂的审计环境和海量的审计数据，传统审计方法已经无法满足审计工作高质量发展的要求。2018年中央审计委员会第一次会议与党的二十大报告均指出数字技术已成为经济社会发展不可缺少的重要力量，审计工作亟需使用数字技术与数字化能力提升产能和价值创造。

人工智能技术作为世界科技革命和产业变革的先导力量，日益融入经济社会发展各领域全过程，能够有效支持审计数字化转型。本文以客户隐蔽关系挖掘为例，介绍三种常用技术在商业银行审计工作中的应用，以及人工智能助力审计数字化转型时所带来的效能提升与风险提示。

PART1三种常用技术在商业银行审计工作中的应用01 关联规则

关联规则算法包括两个主要步骤，一是找到事务数据集中的频繁项集，二是对频繁项集生成关联规则，即首先通过频繁项集挖掘算法找出同时频繁出现的数据集合，然后分析出如“由于某些事件的发生而引起另外一些事件的发生”之类的规则，进而分析该规则背后更深层次的隐含问题与原因，并提供相关决策支持。

图1.关联规则算法分析步骤

常用的关联规则算法包括Apriori和FP-Growth，两种算法均能实现频繁项集挖掘，基于“如果一个项集是频繁的，则其所有子集一定也是频繁的”这一先验定理，挖掘得出频繁同时出现的数据集合。但由于分析思路不同，对数据库扫描次数不同，算法效率会受到数据量等因素影响存在差异，应用中需要根据数据量情况、基础设施算力情况选择合适的算法。

表1.Apriori算法与FP-Growth算法比较

1.背景描述

出于规避检查等原因，异常或可疑交易通常不是直接通过用户本人的银行账户，而是通过其控制的或相关关系人账户进行。本人账户与被控制账户往往在交易时空上存在交集，即在一定条件下频繁出现。通过关联规则算法找到频繁出现的交易集合，就能够找到账户间控制关系，从而发现客户间隐蔽关系。

2.所需数据

分析主要应用的是手机银行登录日志信息，主要字段包括用户登录时间、登录次数、交易成功次数、交易成功金额。

3.分析过程

一是明确事务数据集。筛选一年内满足登录时间异常、交易成功金额高等特点的手机银行日志数据，对该数据集按登录时间戳、交易时间戳、交易金额范围等进行分组，统计每组内用户客户号或其他身份信息作为一个事务向量，每个事务向量的集合为待分析的事务数据集。

二是挖掘频繁项集。考虑到手机银行数据量较大且短时间内登录用户密集，调用Python工具中的FP-Growth算法，导入事务数据集，按照数据读取——向量转换——关联规则挖掘——输出结果的顺序进行挖掘分析。算法执行中需设置支持度和置信度的参数值，分析结果以二维数据表形式展现，包含支持度数值及对应的用户客户号集合。

三是结果核实。分析得出的用户与手机银行日志及客户信息关联，得到其对应的登录明细信息与基础信息，结合交易流水等进一步确定隐蔽关系。

图2.分析过程02 聚类分析技术

聚类分析是一种非监督的学习方法，是数据分析、理解与数据可视化的有效工具。在数据挖掘过程中，聚类就是根据数据对象相似性情况，将数据对象分组成为多个不同类或簇，原则是在同一个类或簇中的对象彼此之间很相似，而与其他类或簇中的对象有一定相异。

常用的聚类算法包括K-Means、DBSCAN、BIRCH。三种算法形成聚簇的方式不同，应用中需要根据数据情况进行选择。

表2.K-Means、DBSCAN与BIRCH算法比较

图3.K-Means、DBSCAN与BIRCH算法对同一虚拟数据集聚类结果

1.背景描述

存在隐性关系的用户除了通过手机银行线上交易，还可能在线下频繁接触，在同一空间范围内面对面登录账号并进行交易，呈现地理位置上的聚集关系。通过聚类算法对用户GPS信息进行处理分析，能够得到用户在同一时空中的聚集情况，频繁存在于同一空间簇内的用户存在潜在关系。

2.所需数据

分析主要应用的是手机银行登录日志信息与用户GPS信息，主要字段包括用户登录时间、登录次数、交易成功次数、交易成功金额、登录或交易时所处城市、经纬度组合等。

3.分析过程

一是明确数据集。将用户手机银行登录日志与GPS信息关联，剔除经纬度为空的数据记录，为避免出现城市与用户经纬度不匹配记录，关联省市经纬度范围并进行修正。

二是根据用户位置进行聚类。聚类以城市为单位分别进行，考虑到城市中人口分布常用密度计量，在城市内呈现区域性集中，调用Python工具中的DBSCAN算法，导入数据集，按照数据读取——城市选择——参数设置——聚类分析——输出结果的顺序进行分析。算法执行中需设置以每个用户为中心的范围半径和范围内最小样本数两个参数值，输出聚簇序号以及簇内包含的用户客户号。

三是聚簇合并。由于初始范围半径固定，可能出现分布较稀疏的聚类被划分为多个簇，考虑通过空间关系约束进行合并。设置簇间距离阈值，计算每个聚簇中心点之间的距离并与阈值进行比较，若小于阈值则合并为同一空间簇，若超过阈值范围则认为属于不同空间簇。在进行聚簇合并时，可以考虑使用角度约束作为补充。存在于同一空间簇内的用户存在潜在关系。

图4.空间关系约束（左）与角度关系约束（右）03 知识图谱

知识图谱运用可视化技术描述知识资源，通过绘制包含对象、属性及关系的知识映射图谱来挖掘和分析对象的相互关系。通过知识图谱可以高效直观地得到目标对象之间的关联网络，实现从多维度对审计对象进行画像。

利用关联规则、聚类分析等算法输出的客户关系结果满足构建关系型图谱的底层数据要求，可获得企业客户之间隐蔽关系的可视化图谱，添加交易、流水信息还能够补充担保和资金往来关系。通过追踪图谱节点，审计人员能够快速抓取信息，为非现场审计的风险发现和信息检索提供直接帮助。

图5.点边关系示例

PART2效能提升与风险提示01 效能提升

随着人工智能技术的广泛应用，一方面，审计人员可以利用前沿技术算法、先进的分析软件，对海量的数据进行深层次分析和挖掘，快速、精准地识别业务活动背后的潜在风险，大幅缩短审计时间，显著提升审计效率。另一方面，能够建立科学的审计模型，提升审计结果的准确性。通过各种审计数据模型的合理应用，对内部审计结果进行科学预测和准确分析，快速准确地发现银行内部管理中存在的各种问题，并提出解决措施，推动审计效能不断提升。

02 风险提示

虽然人工智能算法能够有效拓展银行内部审计广度与深度，但是在大数据环境下的应用过程中需要注意以下三点。

1.强化数据安全管理

数据分析处理需要借助于互联网技术和计算机设备进行，存在病毒攻击与人员泄密风险。商业银行需不断强化数据安全管控，明确数据用途，严防数据泄露。通过问责机制等方式加强审计人员数据安全意识，督促其严格遵守数据安全要求，分级设置数据权限，做好数据保密工作。同时，制定统一的安全风险管理标准和防范等级，做好安全风险评估，最大限度减少数据安全隐患。

2.紧密结合现场与非现场审计

人工智能技术为非现场审计系统建设提供了强有力支撑，但这并不意味着现场审计的作用可以被削弱或替代。算法应用与模型构建的初始阈值设置依赖于现场审计提供的专家经验，算法结果输出的可疑清单需要审计人员现场核查并返回结果，从而进行迭代优化；现场审计则需要数字化方式明确审计对象，缩小排查范围，精准及时发现潜在风险的同时减轻负担。

将现场与非现场审计相结合，共同提升商业银行内部审计独立性与有效性，达到更客观和全面审计的目的，发挥内部审计作为风险管理第三道防线的作用。

3.培养复合型人才

目前，商业银行审计人员在有效利用前沿技术开展内部审计方面仍需提升。应首先加强对审计人员在技术领域的培训，不仅要懂得审计工作流程和方法，还要懂得数据分析模型运用，熟悉相关业务系统以及系统内部数据处理方式，善于应用审计模型进行预测分析、及时发现问题。同时不断优化和调整现有审计人员结构，引进复合型人才。对于大数据思维下的内部审计工作人员，需要做好内部审计工作转型的准备，摆脱过去传统的思维模式，提高处理数据的能力，进行有效的数据驱动审计，为内部审计的转型和发展做出贡献。

（部分内容来源网络，如有侵权请联系删除）

立即申请数据分析/数据治理产品免费试用我要试用

上一篇：《管理驾驶舱》建设5大坑点和避坑指南...

下一篇：数据血缘是什么？有什么用？...