睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

迈向数字时代的全球数据进路(上)

时间:2022-03-10来源:水紫六浏览数:82

翻译:对外经贸大学金融科技实验室

编者按:

从古代美索不达米亚到启蒙运动后的人口普查,个人数据长期以来一直用于商业、金融和公共政策,以提高生产率,增加获得资金的机会, 促进贸易、数字服务。但另一方面,个人数据的广泛使用,也引发了一系列挑战:

• 平衡隐私权衡:保护隐私的政策是一项重要目标,可以减轻对个人数据的滥用;但保护隐私可能会阻碍私人和公共部门访问数据及用于支持监管执法和打击犯罪活动。

• 促进包容性数字化:数据可以支持更高的效率,提供金融服务方面包容性;但它也可以用于价格歧视,并可能助长算法偏见,使某些人处于不利地位,并将其排除在重要服务之外。

• 促进数字经济竞争:个人数据作为一种资源可以支持生产力,增强创新和公共利益,例如用于生物医学研究;但它也可以被大型数据收集者囤积,减少竞争,这可能会抑制创新并提高金融稳定性风险。

为此,国际货币基金组织Vikram Haksar,Yan carri è re-Swallow,Andrew Giddings等人日前发表了《迈向数字时代的全球数据进路》报告,呼吁制定有关数据经济共同最低原则的国际协议,减少全球数字经济中出现的政策分歧,确保全球公平的数字竞争环境,从而在不会破坏其他重要的宏观金融和社会目标的前提下,让数字经济为所有人创造价值。鉴于该文对重大参考意义,我们特编译此文,以飨读者。

——对外经贸大学数字经济与法律创新研究中心主任 许可

方框1 共同最低限度国际原则的关键要素


· 数据保护原则:关于跨境共享个人数据时可接受保护的共同最低标准的国际协议,将减少寻求遵守的企业的不确定性。这种方法可以借鉴 经合组织隐私原则 (1980年和2013年修订),并进一步考虑了诸如同意的作用以及数据和个人的定义等问题。

· 互操作性和数据可移植性原则:鉴于将个人数据作为其业务重要组成部分的企业的全球影响力,有必要讨论关于这种互操作性和可移植性应如何跨国界工作的共同原则 (Furman和其他2019)。具体用例包括跨开放银行计划的跨境支付和跨境数据共享 (支付和市场基础设施委员会2020)。一个具体的挑战是在可以跨境使用中央银行发行的数字货币的互操作性原则上进行协调,包括用于数字识别个人的方法以及数字钱包和数据流的标准。

· 出于监管目的共享数据的原则:严格的数据框架不仅应控制数据的保护,还应在必要时向包括监管机构在内的公共机构披露数据,以实现某些公共政策目标。在许多国家框架中,对保密和保密条款的豁免已经司空见惯 (例如,税法和反洗钱以及打击资助恐怖主义) 并符合许多国际标准和最佳实践 (如金融行动特别工作组标准和经济合作与发展组织税收倡议)。随着数据制度的发展,仍然需要谨慎地平衡隐私问题与公共政策目标的披露。根据目前的努力,并尽可能地,向公共当局披露数据的原则应旨在在国家框架内达成共识,以便为执行或监管目的进行全球数据共享。

一、背景

个人数据已成为现代经济和金融体系中的关键输入。世界上许多最大的公司现在都将个人数据作为其商业模式的核心,在COVID-19大流行期间,它们的市场价值加速了 (图1)。

个人数据提供了人工智能算法,其预测能力从信贷提供到投资计划到广告定位等应用。在大流行期间,大个人数据集的使用激增,以分析和缓解大流行的传播,包括使用实时位置数据进行接触者追踪。

使用个人数据可以产生重要的经济和财务利益,但也带来挑战。经济中数据的激增提供了一个机会,可以通过效率和创新来促进增长,并通过降低信息成本来增加获得金融服务的机会。这是因为数据的经济属性不同于其他投入-包括劳动力和石油。数据是不可竞争的: 许多人可以同时使用相同的数据而不会耗尽。共享的越多,创新和知识创造的社会回报就越高,金融的信息成本降低就越大。但是,当交换个人数据时,交易会影响人们的隐私,并可能使他们处于战略劣势。如果没有意识和补偿,数据市场可能会让我们中的一些人处境更糟。此外,由于以前的个人特征,使用个人数据可以允许更有针对性的歧视。

政府在制定数据政策时必须平衡许多目标。在国际货币基金组织成员中,公众对数据经济规则的兴趣正在建立: 许多国家正在考虑或已经通过了有关如何收集,处理,使用和共享个人数据的新法律。现代化的数据政策框架需要解决关于现状的两个问题。首先,数据市场太不透明-我们大多数人每天都参与现代数字数据经济,但是我们并不完全了解如何使用,传输和处理数据。为了实现高效和公平的数据经济,需要在数据的使用和处理上有明确的规则和有效的同意。其次,构建大型数据集的公司有很强的动机去囤积它们。这可能会扼杀竞争和创新,并减少更广泛的数据访问可能带来的社会利益。此外,还有一个强有力的公共政策理由来促进数字数据基础设施的弹性,确保数据完整性并保护公共和私人实体持有的数据免遭盗窃和滥用。这里的缺陷威胁到公众信任和金融稳定,政策措施应减轻这些影响,包括对网络安全的充分投资。所有这些问题都需要与公开和共享某些类型的数据 (包括出于监管和执法目的) 的公共利益保持平衡。

应对这些挑战首先需要国内监管机构之间加强协调。数据政策强加了影响增长、隐私、竞争以及金融稳定性和完整性的权衡。传统上,管理这些目标是分配给不同的部委和监管机构的。有效的数据策略将需要一种协调的方法,使许多参与者参与管理复杂的权衡。促进监管机构之间加强协调的机制值得进一步探索; 专注于单一目标可能会对其他目标产生影响。

还需要全球合作,以遏制跨越国界的数字经济分裂。数据是一种高度移动的资源,规模经济的潜力为跨境数据流带来了巨大的潜在收益。但是,如果各国不信任全球合作伙伴如何处理数据,或者如果他们觉得自己没有从数据开发中获得足够的好处,他们可能会选择设置阻碍国际数据流动的数字障碍,破坏创新、金融稳定、完整性和效率。如果全球数字经济分裂,较小的国家可能会处于劣势,因为它们将无法访问主要经济体中竞争提供数据密集型服务所需的大型数据池。

本报告汇集了关于数据经济的许多讨论,并讨论了其宏观金融影响和政策合作的案例。它讨论了什么是数据 (附件一),并提出了一个宏观金融框架,以探讨使用数据的经济和金融影响。考虑到这些问题对国际货币基金组织任务的重要性,它随后深入研究了数据在金融服务中的作用以及金融稳定的影响。然后,该说明讨论了数据政策框架的国家方法以及国内政策协调的必要性。最后讨论了全球经济中的数据以及国际合作的案例。

本文的广泛范围旨在为IMF的数字化工作提供信息,包括数字货币,税收和数字经济中的竞争。随着中央银行考虑推出数字货币,它们将成为海量数据流的焦点,带来新的机会和风险,影响央行授权之外的政策目标。私人数字货币和数字支付解决方案的跨境采用将受到国家数据政策的重大影响 (IMF 2020)。关于数字经济税收的讨论需要仔细分析数据的价值 (De Mooij、Klemm和Perry 2021)。最后,对数字经济竞争的分析与宏观经济的相关性越来越大 (Akcigit等2021年)。在所有这些情况下,对数据激增引起的具体问题的补救措施可能会在国内和全球经济的其他地方产生意想不到的权衡。

二、数据经济学

数据很重要-但具体如何?迅速增长的经济学和金融学文献研究了数据在经济中的作用以及数据激增时可能产生的影响。数据在经济中起什么作用?

数据是商品和服务生产中的输入,尤其是在数字经济中。从数据中获取价值作为输入需要昂贵的处理和分析,以便可以与其他生产要素 (例如劳动力和算法) 结合使用。这是思考人工智能 (AI) 应用程序中使用的数据的作用的一种显着方式。在此功能中,数据分析被用作创新过程的一部分,具有新的见解和预测,从而导致新产品和服务的开发。

大数据支持人工智能解决日益复杂的问题。大数据的激增以及更复杂灵活的机器学习算法的发展,使得数据分析能够解决日益复杂的问题。人工智能正在作为一种通用技术部署在越来越多的领域,以解决非常多样化的问题 (Agrawal,Gans和Goldfarb 2018; Boukherouaa和Shabsigh,即将出版)。例如,装有传感器的汽车可能会记录驾驶员在城市街道上行驶的动作,从而在面对各种情况时建立大量的人为决策数据集。然后可以使用机器学习算法来分析该数据中的模式,以预测和模仿复杂道路环境中的人类决策,从而可以生产安全的自动驾驶汽车。

数据是一个非竞争性输入,从某种意义上说,它可以多次使用,并且可以由多个代理同时使用而不会减少。此特征赋予数据重要含义,使其与其他投入 (例如劳动力,资本和石油) 区分开来,后者的使用受到限制。一个重要的见解是,当许多数据处理器广泛使用它时,社会将从它产生的数据中获得更多收益 (Jones and Tonetti 2020)。但是它会广泛使用吗?当数据处理器收集了对其商业利益有价值的数据时,就有强烈的私人动机囤积这些数据并将其从竞争对手手中扣留。数据应该广泛可用吗?授予对个人数据的广泛访问权限可能会产生更多价值,但也可能损害隐私并增加网络安全风险。

个人数据包含有关消费者和公司的信息,并且对它的访问会转移这些信息。当访问数据减少了买卖双方之间的信息不对称时,就会导致更有效的经济交易。例如,一家可以访问有关

潜在消费者的特征 -- 比如他们的兴趣和购买习惯 -- 可以利用这些信息提供更个性化的商品或服务,例如消费者更有可能发现有用或可取的产品的广告,或者以较低的汽车保险费作为回报,以允许在驾驶时被跟踪。如果客户和卖方能够控制其数据的使用,这种类型的个性化可能会使他们的生活变得更好。

A. 数据的价值以及应该归属谁

评估个人数据的价值是困难的。与商品不同,数据是高度异构的。由于没有两个数据可以完美地相互替代,因此它们不需要保持相同的值,并且它们的值可能会随着时间而变化。此外,个人数据交易通常通过易货贸易进行: 个人将其数据的使用交换为 “免费” 数字服务。因此,即使对于那些有直接动机这样做的人来说,评估数据的价值也是具有挑战性的。例如,广告商在显示目标明确的广告会影响观看广告的人的行为的前提下,在有关在线用户的数据上花费大量资金。一些研究指出了衡量这种努力的回报的困难 (Lewis和Rao 2015),并指出回报实际上可能是负面的 (Marotta,Abhishek和Acquisti 2019)。来自股票上市,合并和收购的信息提供了对数据的商业价值的感觉,但可能无法提供其社会价值的全貌。这是因为数据经济是不透明的,隐私没有得到充分尊重。信息的缺乏,再加上数据处理器没有完全内化的隐私泄露的个人成本,可能会导致数据的价格与其真实的经济价值不同。从数字税收的角度来看,各国政府在如何赋予数据价值方面也存在分歧 (Aslam和Shah 2021)。

谁将获得数据回报?一个关键问题是数据的价值有多少来自每个单独的数据点,有多少来自其聚合和后续分析。根据数据的类型和上下文,答案可能会有所不同,但一个重要因素是数据与其他生产要素之间的可替代性程度。例如,某些类型的数据可能需要非常先进的专有分析工具才能将其转换为有用的信息。就用于训练机器学习算法的大数据集而言,一个问题是,有多少价值来自处理数据所需的高技能劳动力提供的分析。在其他情况下,可以用较少的分析来提取信息,例如使用个人数据来提供目标产品时。这些数据的价值可能会因数据主体的特征 (例如其收入,年龄和消费偏好) 而有很大差异。

譬如,当个人数据被用来提供有针对性的产品时,可以用较少的分析来提取信息。这些数据的价值可能会因数据主体的特征 (例如其收入,年龄和消费偏好) 而有很大差异。

数据经济中的价值分配将取决于竞争以及个人和数据处理者享有的市场力量。如果数据处理器享有市场力量,那么获取其客户的详细信息可能会通过实施价格歧视策略来获取可观的租金,这种做法在主要的在线零售商中也有记录 (Hannak等,2014年)。如果存储的数据集充当阻碍竞争进入的障碍,则数据也可能代表市场力量的来源。事实上,科技行业已经为拥有强大市场力量的公司展示了不断上升的市场份额,这与赢家通吃的市场结构是一致的。Akcigit等人 (2021) 在一项跨越82个国家的研究中记录了这一现象,表明科技行业标价上升的主要驱动力是现有高标价企业市场份额的上升(图2所示的 "再分配效应")。这在金融方面也很重要,传统上,银行能够囤积与个人和公司关系产生的数据,使其他贷款人难以准确地为与发放贷款相关的风险定价,从而无法与现有银行竞争(Carrière- Swallow和Haksar 2021a)。

B. 隐私与数字经济

关于隐私的决定具有重要的经济后果。通过数字网络共享数据并将其公开给全球受众的能力提高了隐私的重要性 (Acquisti,Taylor和Wagman 2016)。个人可以从他们数据的使用中获得巨大收益,

包括创新服务和更多定制产品。但是,当这些人不知道或者在使用他们的数据时没有发言权时,就会产生一种外部性: 公司决定是否收集、处理、或共享个人数据可能会伤害个人,而个人可能不会得到赔偿。这些外部性通常是负面的,例如用于向个人收取更高价格的数据,数据被用来向个人收取更高的价格,这导致了太多的个人数据被收集和处理(Acemoglu等,即将出版)。一个将引起隐私问题的新例子是,从现金转向数字支付和数字货币--包括中央银行的数字货币--其固有的可追踪性要求对给予交易的参与者的隐私作出严肃的决定(Garratt和van Oordt 2021)。

有效的隐私是让个人代理他们的数据。隐私不应被理解为阻止个人信息的共享,而应理解为让数据主体控制对其数据的访问 (Acquisti,Taylor和Wagman 2016)。当公司被赋予管理数据访问的权利时,结果可能是竞争减少,数据囤积增加,消费者隐私减少 (Jones 和 Tonetti 2020)。为了使数据市场更有效地运作,数据主体必须能够充分控制对其数据的访问,以关闭上述的外部性。尽管如此,个人限制数据共享的愿望与公共利益之间可能存在冲突,例如在大流行病的背景下,个人拒绝参与接触者的追踪计划。

重视隐私本质上是困难的。关于隐私的文献研究发现了一个明显的隐私悖论 (Nissenbaum 2009): 当涉及到他们的私人行为时,人们对隐私的重视要比在调查中被要求给予主观价值时要低得多。虽然很大一部分人告诉调查者,他们非常担心一家公司数据共享的危害是由于破坏了数据主体对保持其个人特征或行为私密的偏好而造成的。此外,获取数据的人可以战略性地使用数据,以从数据主体中提取租金,包括通过价格歧视。

Winegar和Sunstein(2019)在讨论关于消费者对隐私的声明估值的调查证据时认为,信息缺陷和行为偏差使这些估值对隐私的真正经济价值没有参考意义。分享他们的私人信息,但几乎所有人都愿意同意这样做,以换取最基本的 “免费” 在线服务。

匿名化可以在保护隐私的同时实现数据访问的一些社会好处。在一些应用中,数据分析可以提供有价值的见解,而不需要单独识别数据。考虑训练人工智能系统来驾驶自动驾驶汽车,或者根据来自世界各地的匿名数据来研究新疫苗对大流行病的影响(方框A1)。这些应用依靠大量的个人数据来开发人工智能算法,但不需要将数据链接到已识别的个人。但是在许多其他应用程序中,数据的价值通过匿名化而大大降低,这恰恰是因为它不再揭示有关特定人员的信息。

三、数据和金融部门

访问个人数据是提供金融服务的核心投入。贷款人总是面临着对客户信用度的不确定性。金融服务的提供一直依赖数据来减少这些信息差距。近几十年来,随着全球金融体系的高度数字化和相互联系,这种对数据的需求日益增加。由于金融服务提供商受到越来越严格的监管要求以识别客户,发现可疑交易并确定资金来源,因此出于监管目的收集的数据也一直在稳步增长。

A.金融服务中的数据和效率

由于逆向选择,关于借款人的不完全信息阻碍了信贷的有效分配。假设一个不知名的客户走进一家银行 -- 那个人会被提供条件良好的贷款吗?Stiglitz和Weiss (1981) 表明,当贷款人没有关于借款人信用的完整信息时,他们很可能会对信用进行配给 -- 也就是说,一些借款人不会以任何利率获得贷款,因此将被排除在金融市场之外。这是因为借款人愿意接受很高的贷款利率,这向贷款人发出了他们不太可能偿还贷款的信号: 贷款人提供的利率越高,愿意接受贷款的借款人的风险就越大。逆向选择在发展中经济体中是一个特别相关的摩擦,在这些经济体中,在非正规部门工作的潜在借款人或以前没有机会获得金融服务的人往往被无法评估其还款能力的银行拒之门外。

获取非传统数据可以通过缓解将弱势人群排除在信贷市场之外的逆向选择问题来促进包容性。正如《巴厘岛金融技术议程》 (IMF 2018b) 和Sahay等人 (2020) 所讨论的那样,提供更多关于借款人的数据可用性是承诺的关键要素,技术为提供金融服务提供了服务。在在线服务的背景下收集的信息,包括社交习惯,支付水电费以及其他经济和社会活动的痕迹,可能成为评估以前没有与金融服务提供商互动的借款人的信用度的基础。例如,弗罗斯特等人 (2019年) 和伯格等人 (2020年) 提出了证据与传统的信用评分相比,在线收集的非传统数据可以更准确地预测信誉 (图3)。

新的数据共享方法为个人提供了更大的数据代理权,并可以促进竞争和效率。金融服务中的数据共享由来已久。自1800年代末以来,信用局一直作为数据经纪人运作,贷方可以与之对等地共享有关借款人的信息,即提供有关借款人信息的银行有权接收有关潜在客户的某些类别的信息。在私人信用局尚未自发出现的地方,许多司法管辖区都设有公共信用登记册,要求共享有关借款人的违约信息。金融服务提供商之间的数据共享可以减少逆向选择和道德风险问题,从而通过减少信息不对称来增加信贷供应。Jappelli和Pagano (2002) 和Djankov,McLiesh和Schleifer (2007) 提出了经验证据,表明数据共享机构会产生更深,更广泛的信贷市场,而违约的概率更低。这种对金融服务更大竞争和效率的渴望是世界各地开放银行举措出现的背后原因 (方框A2)。

B. 金融服务中的数据弹性

需要数据弹性来确保金融稳定。金融系统依靠强大而有弹性的数字数据基础设施来执行其关键的经济功能。每天,这种基础设施促进了市场参与者和最终用户之间的金融交易,要求数据无缝地通过网络流动。相互关联和相互依存的信息和通信技术 (ICT)系统需要可靠地处理数据,以便金融系统能够执行其关键的经济功能。

此外,这些系统依赖于敏感的个人数据,需要对其进行保护。随着时间的推移,数据泄露的发生率急剧上升,一些非常大的个人数据记录被曝光,说明了这些需求。(图4)。

保护数据的私人激励措施可能无法提供系统性的数据弹性。机密性 (数据访问不授予未经授权的个人或系统),完整性 (记录和共享的内容确实是真实,准确和完整的),和可用性 (可访问和按需可用的属性) 是金融系统处理的数据的三个关键属性。金融系统依赖于公众信任,公众信任可能会受到网络事件的威胁。对公司进行网络安全投资的私人激励措施可能不会考虑数据泄露对更广泛系统中公众信任的影响,从而导致投资不足和系统性网络风险 (Kopp,Kaffenberger,和威尔逊2017; Kashyap和Wetherilt 2019)。

越来越多地使用云服务来存储和处理数据引入了新的权衡。

第三方云服务提供商正成为金融中介机构持有的数据的关键存储库,提供更高效的数据管理、分析工具和尖端网络防御。

但随之而来的大量数据聚集在少数几个云服务提供商中,造成了单点故障的潜在系统性金融稳定风险。金融稳定委员会(FSB)(2017年,2019年)指出,使用这种服务可能会降低单个公司层面的运营风险,例如,通过提高网络弹性和支持业务连续性,但也可能 "对整个金融系统带来新的风险和挑战"。

数据密集型金融服务的提供可能会提高集中度并影响金融稳定性。大型中介机构可能会产生更多的数据,并可能获得比小型竞争对手更多的优势。由此产生的金融服务更加集中的趋势,超过一定程度,9就会带来稳定风险。事实上,数据集中在少数几个全球大型平台上,可能会导致前所未有的集中程度--或 "大而不倒 "的风险。此外,金融业数据扩散的改善所带来的效率提升可能会在各借款公司之间不均衡地分享,大型在职公司比小型公司受益更多,因为小型公司作为其业务的副产品产生的数据较少(Begenau, Farboodi, 和 Veldkamp 2018)。因此,丰富的数据蒸汽线索使大型企业能够降低其融资成本,减少其融资扩张的成本,这反过来又产生了更多的数据。其含义是,基于数据的贷款将倾向于有利于生产更加集中(Farboodi和Veldkamp 2020)。此外,最近大数据驱动的信贷模型的扩展和所使用的数据在许多情况下并不跨越整个金融周期,这让人对这种新贷款在经济和金融条件恶化时的表现产生疑问(Claessens和其他人,2018年)。

为了满足监管要求,金融部门也越来越多地收集数据。金融服务提供者,包括银行和其他中介机构,负有维护金融体系完整性的重要责任; 在一国的监管框架内,这种责任的形式是采取预防措施的义务,旨在使金融部门免受犯罪活动和非法流动的影响。尽职调查程序,如客户识别以及交易和客户监测等尽职调查程序,就其性质而言,在很大程度上依赖于数据。为满足法律要求而需要处理的数据量意味着这些措施越来越需要高质量的IT系统,这对于市场参与者(例如,追踪支出模式以检测异常值和可疑交易的AI)和监管当局(例如,"超级技术",使用技术来支持金融监管)都是如此。

C. 金融服务中的数据和歧视

使用细粒度的个人数据可能会导致排除那些表现出与风险金融行为相关特征的人。考虑到一家健康保险公司可以收集客户数据,以建立一个预先存在的医疗条件或风险倾向的档案,而这些条件和风险或有害行为(如快速驾驶或大量消费富含糖分的食物)没有必然联系。这种对潜在健康状况的数据分析可能导致保险公司收取更高的保费或拒绝承保(Arrow 1963),有可能将弱势个人排除在保险市场之外。可以想象,在许多情况下,不受限制地提供非常细化的数据会破坏保险的风险分担功能。为了减轻这种结果,法规应规定可用于决策的数据类型--例如,在某些情况下,限制基于已有条件的健康保险的拒绝。

不适当地使用个人数据来训练AI模型可能会加剧对获得金融服务的决策的偏见。不适当地使用个人数据来训练人工智能模型可能会使获得金融服务的决策出现偏差。越来越多为贷款、投资和财富管理决策提供动力的人工智能算法是根据 "专家个人 "的数据训练的。如果不对用于训练这些算法的数据进行适当的管理,训练数据集中固有的偏见可能会被注入算法。考虑到一种借贷模式,它有效地减少了基于地点或种族的个人准入。在Fuster等人(2020年)对美国住房市场的研究中,生动地证明了在贷款中使用人工智能可能会恶化信贷分配中的种族偏见的风险。此外,人工智能算法的使用--产生准确的预测,但往往缺乏结构性解释--可能被视为一个歧视性的黑匣子,贷款官员将无法向他们的客户或监管机构解释。

(未完待续)


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询