睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据要素市场形成论——一种数据要素治理的机制框架

时间:2022-10-07来源:我是天空的云浏览数:92

本文系国家社会科学基金重大项目“大数据时代个人数据保护与数据权利体系研究”(项目编号:18ZDA145)阶段性成果之一。原载于《上海经济研究》2022年第9期。为方便作者阅读,此稿删除了原文的注释。

内容摘要:数据作为生产要素可以用来支撑新的知识生产方式——数据智能。数据智能是以数据为生产原材料,基于其计算价值进行挖掘分析进而形成决策,以支撑科学研究、商业运营和社会治理的价值生产模式。在此意义上的数据要素已经不是一般的数据化的知识,而是泛指在智能网络系统中生成的供机器学习等数据智能分析工具使用的可机读原始事实数据。为了培育形成数据要素市场,数据需要完成从资源到生产要素的跨越,即数据的要素化和市场化过程。数据的要素化是使数据资源满足原始性、机读性及质量标准要求的过程,从而使数据资源具备可用性,以支撑数据智能的价值生产与实现方式。数据要素的市场化旨在实现数据要素的可重用性,使数据要素成为可社会化利用的“产品”,让数据要素以标准化的产品形态得以在数据要素市场中自由流通。从中国的政策实践出发,培育数据要素市场的根本路径并不是搭建交易场所式的单一技术支持,而是整体构建与数据要素及其流通特点相适应的基础性市场形成机制。探索构建从数据产品的生产激励,到产品描述、产品发现与价值实现的数据要素治理框架,实现基础服务与基础制度的供给,促进数据要素价值的创造、流通与实现,以提高国家数据经济的发展水平。

一、数据:数字经济时代的新型生产要素

生产要素(Factors of Production)是为维系国民经济运行及市场主体生产经营过程中所必须具备的基本社会资源,其最主要的特征在于为经济发展系统提供基础与动力来源。在一般意义上,生产要素包括创造商品或服务所需的任何资源。在传统经济理论上,一般认为土地、劳动力和资本是三大生产要素。随着理论发展,生产要素的外延不断扩展,逐渐出现了生产要素“四元论”“五元论”甚至“六元论”的衍生观点。


2020年3月中共中央、国务院发布《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称“意见”),在世界上首次将数据视为新的生产要素,并形成了土地、劳动力、资本、技术和数据五大生产要素框架。在这五大生产要素中,数据要素是传统生产要素理论的重大突破,准确反映了当下经济社会发展所呈现出的特征与趋势——从工业生产经济向数字(数据)经济的跨越。茱莉亚·科恩就此跨越进行了准确的描述,即无形资源的财产化与工业生产基本要素的非物质化和数据化。数据资源开始成为数字经济时代的基础性生产要素。2022年6月22日中央深化改革委员会又审议通过了《关于构建数据基础制度更好发挥数据要素作用的意见》,更是明确提出促进数据高效流通使用、赋能实体经济,统筹推进数据产权、流通交易、收益分配、安全治理,加快构建数据基础制度体系的要求。数据要素及数据要素市场的相关研究已成为数字经济时代多学科共同关注的重要课题。


一般意义上的数据被理解为数字化的信息和知识。其价值本质体现为消除不对称性与不确定性,使资源配置和利用更加有效,从而提高经济效率或创造经济价值,这一点是信息经济发展至现阶段已经达成的基本共识。这样的观点反映出了人类社会从古至今利用信息,创造知识,不断改造客观世界和提升社会运行效率的一般规律。但这一描述并没有准确反映出当下随信息技术发展的趋势,即人类通过大数据、AI等技术对事实数据的利用能力的跨越式发展与提升。因此,本文虽不否认传统上对数据(指数字化信息和知识)的认知与理解,但在此基础上,对于数据要素的理解还应当随着新兴技术的冲击与社会商业实践的探索而继续深化。本文认为作为数字经济时代的生产要素,数据不是传统意义上信息,更不单纯是数字化的知识成果,而是泛指在智能网络系统中生成的供机器学习等智能分析工具使用的可机读原始数据。在这种意义上,这些数据资源更像是社会活动产出的“副产品”。但正是这些“副产品”数据构成了有巨大潜在利用价值的资源,可以用作经济或者知识生产的投入。此外,数据广泛地分布在智能网络构架系统中,其可复制性极大程度上降低了流通分享的边际成本,使得数据非竞争性的高效利用成为可能。正是这种生产要素意义上的获取与消费逻辑催化了一系列复杂的数据经济和市场关系的出现。因此,数据在何种意义上被作为生产要素,又是如何在市场中得以商品化流通的?对这一基础命题的理解将对数据要素市场的培育起到极为重要的作用。


基于上述认识,本文认为作为生产要素意义上的数据应当是伴随数字经济时代知识生产方式的模式转变而提出的,主要指支撑数据智能的可机读原始事实数据。这样的数据即可用于数据智能。从数据资源向数据要素的跨越过程就是数据的要素化过程。但是,社会个体所拥有的数据要素并不一定能够实现数据要素的社会化配置和利用,进而形成数据要素市场。数据要素要实现市场化配置和利用还必须满足数据要素可重用性的市场化要求。数据要素的可重用性(Reusability)本质上使数据要素成为标准化的、可为任何市场主体重复使用的“产品”,即数据产品化。如果一个社会存在使数据要素化(可用)和产品化(可重用)的制度机制,那么数据要素市场就会自发形成并不断演进成熟。因此,本文通过数据可用性和可重用性概念来描述数据要素化和市场化的数据治理过程,以此构建数据要素市场的形成理论。

二、数据要素化:支撑数据智能的数据资源

比尔·施马佐的数据经济定律认为,“重要的不是数据本身,从有关客户、产品和运营的数据中所收集的趋势、模式和关系才是有价值的”。简而言之,数据的价值不在于其本身,而在于计算分析所产生的洞见。所谓的数据要素化,就是利用数字技术对沉淀的原始数据进行预处理,将其激活为可被计算机识别的0、1二进制符号,承载着海量信息嵌入生产活动,并转化为数据生产力的系列过程。对于市场主体而言,能够转为生产要素的数据一定是可用于实现企业战略中定义的目标,实现数据货币化的数据。这样的数据是可以用于数据智能的数据,即具备可用性的数据。笔者将数据的可用性概括为原始性、机读性和满足一定质量要求三个条件,满足这三个条件的就是支撑数据智能的可用数据,也就是数据要素。


(一)数据要素化条件之一:原始性

随着技术的发展,计算机不仅成为人类处理信息的工具,而且逐渐地具有自主处理数据的能力,出现了替代人工的数据智能技术。数据智能的大规模使用需要关于同一分析对象或同一问题的、来源于不同数据源的海量数据。这种数据必须是针对特定对象的记录或描述的原始数据。它具备以下几个重要特点。其一,原始数据总是来源于特定对象(人、物、事件)的客观记录,数字化记录完成了数据与描述对象分离,使其成为可供处理的数据;其二,原始数据可以被清洗、分类、汇集等预处理成为数据集,但该数据集中的数据必须一直保持原始状态,以便其可以为了不同的分析目的而不断地被选择性地提取、组织和汇集成数据集,从而进行分析、使用;其三,一旦数据经过数据智能利用成为具有特定含义或知识的信息,那么原始数据的生命就此结束。数据的原始性是其表面与客观世界的关联性的重要体现。


数据的原始性要求体现在其价值获取方式上。原始数据才可以不断地与其他数据结合、匹配,从而产生新的计算价值。而一旦数据转化为信息或知识,其生命就结束了。只有原始数据才具有流通生命,才有被数据智能所分析的价值。正因此,大数据被看作是生产见解或知识的原始数据处理系统,并把它视为由将数据引入系统、数据存储计算、分析数据和得到可视化结果四种连续的数据处理的活动组成。大数据分析的知识生产方式与人类认知世界、创造知识的方式是一致的,均是先对客观世界观察记录,然后分析数据,最终生产出知识。只是大数据不仅是由机器生产的,其分析过程也是由机器(数据智能分析工具)进行的,从而形成区别于传统人工的数据智能生产方式。因此,这种生产方式对于作为原材料的数据要素也就有了新的原始性要求。数据的原始性要求也体现在对于数据智能结果的影响上。之所以数据智能可以实现更加客观、科学的未来预测,就是在于数据智能可以突破单一维度的因果关系模型,在多维度、多种类的相关变量之间,推导出最为接近的估计值。数据在这种意义上,可以被视作填充数据智能,用以被计算的原料。虽然数据本身并不具备直接表达因果关系的能力,但数据事实上所映射的关于状态、数量的信息却直接影响到数据智能的分析结果。为了使数据能够进入数据智能,并且使数据智能的分析结果尽可能地精确,数据要素必须是明确的、可理解的单一概念且能够映射到特定的实体。这样的数据就是保持了自身还原性、客观性与关联性的原始数据,是不应当被随意实质处理和篡改的。数据智能需要用特定数据描述特定实体意义,就像人类用语言描述物质实体一样,只有这样才能对客观世界规律进行科学的分析和判断,从而做出预测。


(二)数据要素化条件之二:机读性

机读性是伴随计算机应用而产生的。如同人通过各种语言,按照一定的语法规律来表达某种含义,反映客观规律一样,计算机也需要特定的数据格式。因而,机读数据就是具备计算机等智能设备可以自动读取和处理的特定格式的数据。机器可读格式则是指结构化的文档格式(包括个别事实陈述及其内部结构),以便软件应用程序可以轻松识别和提取特定数据。只有在数据具备机读性的前提下,才可以进行数据点(Data Points)的识别和提取,进而可以组合并存储在特定位置以供进一步处理。


数据的机读性条件体现在其格式语言的结构化上。人类所创造的各种文明均系以人可识读和理解的形式来表达和传播的,当人类使用各种符号来记录某种事实,表达某种思想时,均构成了人可识读的数据,即信息或者知识。人借助大脑来理解数据之含义或意义,只要有人可识读的文字、图表或图形等具象表达,就不需要专门的设备或装置,人类就可以直接理解、分析和应用相应的数据。从这个角度来说,人类可识读的数据被认为是非标准化、非结构化的语义学意义上的信息,而机器可读数据必须是结构化数据。为了让机器读取数据,数据必须遵循机器可以理解的格式语言呈现,如CSV、JSON、XML等。遵循这些格式语言使数据以结构化方式呈现,使机器可读和可处理。机读数据一定是数字化的,但数字化的数据并不一定是可机读的。例如文本的数字化扫描件不是机器可读的(但人类可读),因为它是非结构化的数据。


这意味着当人类进入数据智能阶段,当有效的知识产生方式转变为机读数据支撑的数据智能时,具有价值的数据是那些能够支撑算法、机器学习等智能分析手段应用的原始数据。如果将数据的价值定位于知识生产或支撑决策或行动,那么成为生产要素的数据必须具备可机读性。因为只有可机读数据才能支撑机器学习,支撑新的知识生产方式。具有可机读性的数据可以大致分为两类:一类是来源于人可识别的数据,包括人类文明长河中积累的所有事实信息和知识,经过结构化处理之后,转化为机读数据。


一类是由计算机、应用程序或服务,或由传感器处理从设备、软件或机器(无论是虚拟的还是真实的)接收到的信息而产生的数据,它们并不需要人的直接干预。万物互联的网络环境下,这些数据经初步处理后即成为可机读的数据,主要以机器处理的数据文件格式存在,成为支撑数据智能的主要“原材料”。


在这两类数据中,机器生产的机读数据一直是支撑数据智能的主体,也是本文始终突出的研究重点。一方面这是因为机器生产的数据不仅数量巨大,样本齐全,而且均可以关联到特定对象,成为对客观世界最真实的全样本记录。这是人类利用自己进行观察和测量所无法比拟的。网络、传感器和智能设备则可以全天候、全样本、真实地记录客观世界。从客观世界中采集的看似杂乱无章的数据可以通过汇集处理,洞察出关于客观对象的内在规律,从而提炼或形成新的认知或知识。另一方面,机读数据的机读性使它不仅可以借助计算机高效处理信息,而且可以自主学习和自动聚合,成为机器学习与人工智能技术的基础。机读性的数据可以通过自动聚合器(Automatic Syndication Feeds)轻松分享数据。用户只要有一个合适的软件应用程序来接受聚合,就可以获取或接收到所要数据,并进行计算分析。机读数据的独特性在于可重复利用,而且可以在不断地结合、汇集和演算分析中产生新的价值,而且这个过程并不会终止,可以不断演进下去。这就使得机器像人类一样的自主学习成为可能,这是高级人工智能的本质也是实现数据特殊应用价值的基本途径。


(三)数据要素化条件之三:数据质量

原始的可机读数据能够用于数据智能,但是具体使用效果如何,则是由这些数据是否具备一定质量要求来决定的。虽然许多机构事实上控制了丰富的数据,但这些数据在带来多样性价值的同时,也带来了数据类型和数据结构的差异性与复杂性,甚至存在准确性差、真实性存疑等质量问题。这就导致了这些数据往往是无法被有效分析以产生有用的信息来支持目标设定、决策、监控或其他处理实践的。因此,随着数据量的巨大增长,数据质量的良莠不齐,甚至可以说更多的数据往往意味着更多棘手的问题。影响数据质量的根本原因源于大数据本身的多源异构性。从不同的异构来源生成大量非结构化数据本身就需要治理才可以使用。这大大地降低了数据智能的应用效率。因此,只有满足一定质量的数据才是真正要素化的数据。


正如优质的食材才可以烹调出美味佳肴一样,作为数据智能的原料,精确地判断或预测,都是建立在正确、完整、真实的数据原料基础之上的,因此数据也必须满足一定的质量要求。计算机科学家维奈·拉奥指出,当数据满足以下条件时,它就变得有价值了:

①及时提供;

②简洁、很好组织在一起及相关性;

③它具有基于经验的意义和背景;

④它是多个数据源的集合。

因此,只有满足这些关于数据质量的要求时,数据就可以减少解决问题和帮助做出正确决策所需的时间、精力和资源,它就是一种有价值的资源,就是可以高效利用的数据生产要素。


数据质量的判断需要具体的评价指标。有研究认为,机读数据集应具备以下六个特征,包括:

①计算机可以自动处理的数据格式以及结构化数据;

②没有实体独家控制且必须按照国际标准加密;

③数据可处理,但是不丢失语义(Semantic Meaning);

④数据格式和类型具有一致性;

⑤遵循规则和命名协定的可变命名;

⑥是通过计算机代码可以查询和处理的数据 。

这应当是对数据质量较为全面的总结。

为了评判数据质量,应当建立衡量数据质量的维度框架,如准确性、相关性、完整性、一致性、及时性和格式统一性等。不过,数据质量是一个相对性的问题,并不存在单一的适用各种情形的数据质量标准,而是需要根据行业或企业需求,发展出不同要求的数据质量标准体系。因此,原始性与可机读性只是数据成为生产要素的前提条件,而数据是否满足一定的质量要求,达到可以使用的程度,则是数据成为生产要素的实质条件。


三、数据市场化:数据要素的流通条件

数据要素化使数据具有可用性,可以支撑一个组织实施数据智能为依托的数据驱动战略,但还不具有完整的财产属性。数据只有具有了像一般商品一样的可交易性,具有通过市场交易变现的能力(产生交换价值),才能真正地成为商品、财产或者资产。这也时常被称为数据直接货币化(Direct Data Monetization)。数据要素的可流通性意味着数据要素成为可为任何市场主体重复使用的“产品”,因此,本文将数据要素的可重用性看作是数据要素产品化的标志,同时也是数据要素市场化流通的基础性技术标准。数据要素一旦成为可重用的产品,数据要素市场自然可以凭借市场主体的自主性自发形成并不断成熟。因此,数据资源在完成要素化之后,所面临的就是如何实现市场化的难题。

(一)直面失败:反思数据市场化流通的基础条件

在培育数据要素市场的实践中,数据市场(Data Marketplace)这一形态在2010年前后在世界范围内逐渐兴起,中国在2014年至2019年底也有多家数据交易机构挂牌成立。但是,现实的结果却是不仅国内的数据交易业务昙花一现,国外的许多数据交易机构可以正常经营的也寥寥无几,盛极一时的数据交易公司纷纷关门转业。自《意见》发布之后,全国各地开启了新一轮的数据交易市场建设,2021—2022年先后有15家机构成立,各地方政府也积极探索设立各类数据交易所。除了由地方政府推动组建的数据交易所外,许多由商业机构设立的数据流通场所也不断涌现。但是,数据交易机构失败的前车之鉴始终警示着研究者。在笔者看来,要想从失败中吸取教训,需要从以下几个方面重新思考数据要素市场化流通的基本问题。

1.数据交易机构未解决数据的合法性问题,导致交易失范。公开的数据要素市场建设需要解决数据的合法性问题,而合法性的前提是具有可流通的数据要素产品。除了数据来源的合法性问题(本文限于篇幅不予讨论),现行数据交易机构失败的最主要原因是并没有满足真正需求的数据要素产品,而只有失范的“数据买卖”。在数据交易热潮中崛起的许多数据交易机构,大多利用数据法律理论和监管实践的空白,不择手段地获取数据资源,寻求“数据变现”。其结果是一方面交易数据不具备本文所讲的原始性、机读性与质量要求,使数据交易沦为信息和知识范畴下的信息产品交易,另一方面则因为法律上的不确定性和涉个人信息处理活动的合法性质疑,整个数据交易市场都处于似是而非的不确定性之中,甚至有的从业者还面临着触犯刑事法律的风险。

2.数据要素市场是促成数据要素商业化利用的一整套制度安排,而不是单一的技术和场所支持。数据要素流通既可以无偿,也可有偿,既可以在特定主体之间或固定群体之内,也可以在不特定人之间通过公开的市场交易方式(公开要约、询价等)实现。数据要素流通既可以完全转移数据本身,也可以通过数据许可获得使用权限,如读取、计算、访问等方式。可以说,各种数据要素流通形式已经广泛存在于当下的数字经济活动中,但是似乎无法明显感受到所谓数据市场的存在。出现这样的错位的主要原因就是错误的理解、定位了“数据市场”这个概念。

传统上认为,一个正常运作的市场需要:

①能够被估价的标的物,以便能够进行交易;

②一套使用通用技术和方法调动计算能力的框架,并且适用广泛;

③一个被普遍理解的制度架构,在这个制度中可以进行安全、顺畅的交易。

由于公开和竞争数据交易往往需要第三方商业撮合、安全保障等,因而第三方运营的数据交易机构(一般称为数据分享/流通/交易平台)便成了所谓“数据市场”的标签。显然,这里“数据市场”被特指在特定交易机构或场所,通过集中、公开、竞价的方式进行的所谓“场内交易”,并不包括数据交换、共享等其他多样化、多场景、多路径的数据要素流通利用形式。这样狭义的市场解读便造成了对于“数据交易所”等交易机构偏激的追求,其实际效果则难以令人满意。

3.数据交易机构忽略了数据要素的特殊性。典型的市场交易适合于交易标的物可界定、产权清晰或可判断、价值可评价,有成熟的价值发现和实现的市场机制,存在降低交易成本和保障交易安全的制度保障体系。对于传统工业制品,通过产品标准化、公开竞争的市场、发达的法律制度等来确保商品市场有效运行。但是,数据要素本身是非常特殊的,难以标准化成为制约市场交易的最大难点。

从影响数据要素交易的角度,数据要素至少可以概括出以下三个特点以区别于传统市场商品:

①数据要素的难以界定性;

②数据要素价值的不固定性与不可计量性;

③数据要素的价值迁移性。

因此,数据要素这些特征决定了数据要素不太适合常规的市场交易范式,市场交易范式,即依赖于繁重的流程标准化、易于比较、买家和供应商之间的公平互动以及明确的价值转移。

4.数据交易场所对于供需关系匹配的失效。数据要素市场中流通的数据应当是满足接受者(使用者)需求的数据要素产品。这些数据要素产品“必须将数据锚定在符合每个主体利益的关键使用情形中”。数据要素的市场化旨在通过市场化方式实现数据产品社会化配置和利用。由于前述数据要素不同于一般消费品的特性,本文发现在早期数据市场的构建中存在巨大的悖论。即使数据市场尝试着生成、存储、提供了越来越多的数据,但实际访问和重用这些数据以积极促进数据智能的动力与能力仍然受到阻碍。从使用者的角度来说,数据要素的可用性与需求的满足度便是一个不可忽略的问题。数据交易市场是需求驱动的市场,而不是供给决定市场。因为虽然数据供给者需要尽可能从潜在客户的需求出发设计、处理和构建数据产品,但是数据供给者不可能知道其数据有多少用途,往往也不能准确地判断其数据计算分析产生的结果与价值。


(二)可重用性:市场化数据要素的技术标准

“为了使数据在未来仍然有用(或对第三方有用),不仅需要数据可读,还需要以透明和一致的方式记录数据,以便所有用户了解数据代表的内容。”本文用数据要素的可重用性描述数据要素市场化流通利用的条件。数据要素可重用意味着数据要素不仅可以为原来生产者使用(在原生环境中可用),而且可以提供给其他人使用,在新的商业场景和生态环境中亦可以使用。数据要素满足可重用性有助于识别和消除数据要素市场化流通的障碍,有助于数据经济的进一步发展,可以更好地利用数据要素创造的价值。

只有当市场主体可以不断重用来自不同来源的大量数据要素时,才能充分利用大数据的好处,增加发现新趋势、模式和关系的可能性,产生具有经济和社会价值的见解和知识。因此,在挖掘数据要素的计算价值时,数据的可重用成为数据要素市场化的基本技术标准,实现数据要素流通的基本途径。巴特·卡斯特斯和海伦娜·乌尔西克概括了三种类型的数据重用:数据循环(Data Recycling)、数据目的重用(Data Repurposing)和数据场景重用(Data Recontextualization),并且断言第二和第三种数据重用的类型将在欧洲数据经济中具有最大的附加值。它将来自不同来源(如不同社会部门和行业)的数据要素组合在一起,形成新的更大的数据集,数据要素的附加值可能会大幅增加。

数据要素的可重用性在很大程度上取决于存储、处理和传输数据的系统彼此兼容、连接的程度,因此数据要素可重用性也表达为数据互操作性(Interoperability)。数据互操作性对于内部而言是创建、存储、查找、共享和重用数据,而对于机构组织之间或整个社会而言,它是实现数据分享或流通的基础设施。互操作性既适用于系统,也适用于数据要素,最终使系统能够交换数据并随后以最终用户可以理解的方式呈现该数据。IEEE将互操作性定义为:“两个或多个系统或组件交换信息和使用已交换信息的能力。”实现该能力主要是句法(Syntactic)和语义(Semantic)两个方面具有互操作性。 在此基础上,互操作性逐渐被拓展到数据法律、组织与技术层面,其目的就是让数据要素市场中的要素流通高效、有效、及时和高质量,并帮助减少繁文缛节,降低相关流通成本,从而实现一个系统与另一个系统的部分或全部独立工作的能力。因此,互操作性使数据要素成为任何市场主体使用的产品,使数据要素具有市场化的可流通性。

因此,数据可重用问题实质演变为数据要素的标准化问题,也就是将数据要素转换为通用格式以使用户能够对其进行处理和分析。大数据最大的特征是异构多源,因而要使来源于不同系统、不同主体的数据能够方便地相互连接起来,就需要建立清晰和一致定义的数据要素和属性(描述),并采取或转换为统一格式。这样,无论数据流通到哪里,无论想获得什么见解或想解决什么问题,都能够正确理解所获得数据,与更多数据实现匹配和聚合。应当说,技术和产业界一直在为数据可重用而努力。为实现更大范围的有价值的数据要素流通,早在2011年FORCELL就提出建议遵循可查找、可访问、可互操作、可重用的“FAIR原则”。经过马克·威尔金森等在2016年的进一步细化,“FAIR原则”得以在世界范围内产生影响。与其他倡议不同,“FAIR原则”除了支持个人对数据的重用性外,更强调增强机器自动查找和使用数据的能力,即机器可操作性(Machine-actionability),也就是计算系统在无需或最少人工干预的情况下查找、访问、互操作和重用数据的能力。这几乎成为数据要素流通尤其是科研数据流通的世界性标准。


(三)市场化的数据产品形态

可重用的数据具有可流通性,可以通过市场交易来实现数据的经济收益。为了指引和规范数据流通,本文需要对可交易的数据产品做出界定。有研究者总结出五种数据货币化形式:

①数据或见解许可使用;

②数据交换(指用数据交换数据或其他);

③用数据增强现有产品或服务;

④数字化现有产品或服务;

⑤反向数据货币化(指向自己用户推荐其他产品或服务)。

受此启发,一旦将数字经济视为智能数据支撑的经济活动,并将知识(数据分析产生的洞见、预测、解决方案等)亦视为数据产品,那么就可以全面勾勒出数据产品的样态全貌。在实践中,任何与数据相关的资产,从原始数据到模型、代码、API密钥和指令,都可以组合形成数据产品。为符合数据行业的实践,本文在广义上使用数据产品概念,笔者尝试区分的可交易流通的数据产品包括以下三类:

1.知识生产要素类的数据产品。知识生产要素数据产品,是指经过处理可以不断重用的原始数据。所谓的原始仅在于该数据仍然保持与特定实体关联性,可以不断地用于该实体规律的发现。要素数据以数据集为典型。数据集泛指有组织的数据集合。ISO所定义的数据集更加符合产品性数据要求:数据集以一种或多种格式可供访问或下载的可识别数据集合(Identifiable Collection of Data)。数据集可大可小,可以小到包含在更大数据集中的单个要素或要素属性。从可重用的角度,无论怎样的小,它必须具有可关联性,也就是可以识别某个对象的数据。高价值数据集具有三个重要的特征:可重用性、对数据持有者的价值性以及对重用者的价值性。数据集是一组相关的、离散的相关数据项的集合,这些数据项可以单独访问,也可以组合访问,或者作为一个整体进行管理。数据库本身可以被视为一个数据集,数据库中与特定类型信息相关的数据体也可以被视为一个数据集,例如特定公司部门的销售数据。要素数据产品可以以数据仓库甚或数据湖方式呈现。因此,实践中也许存在数据仓库或数据湖的买卖或许可使用交易。

2.知识生产工具类数据产品。工具类数据产品属于数据分析方法或技术工具,而不是数据要素本身。典型的数据算法模型被认为是数据产品。数据产品由数据训练而成,通过具有自适应性和广泛适用的经济模型,这些模型从数据中获取价值并生成新数据作为回报。这样,从数据中学习、自适应和广泛适用的系统或智能分析工具亦可以视为数据产品。这类数据产品将会越来越多,因为并不是所有的组织都具有数据智能分析能力。当持有者拥有数据但不清楚可以用它解决哪些业务目标时,可以使用一些工具类数据产品以解决数据分析应用于业务的特定问题。基于语义网络的知识图谱也可以认为是工具型数据产品,因为真正的知识图谱是从不同信息源“获取和集成信息到本体中,并应用推理器推导出新知识”。知识图谱将成为支撑机器学习、人工智能有效运行的重要数据产品。

3.知识服务类数据产品。数据是生产知识的要素,一旦机器能从大量历史数据(训练数据)中学习规律,形成模型,就可以依照输入数据状态产出合理预测或洞见——知识。知识成为大数据分析的结果或产出,这些知识可以应用于各行各业,支撑科学研究、运营决策。随着大数据分析应用需求的增长,社会中逐渐出现了数据供给者形态的企业,一方面为汇集和聚合数据,形成可重用的数据资源,提供给需要数据的主体(扮演数据经纪商角色),另一方面研发各种算法模型,布设机器学习,形成新的智能或知识服务。贾斯丁·洛基茨所总结的三种大数据商业模式中,“信息即服务”(IaaS)和“答案即服务”(AaaS)即是指这种知识类数据产品交易。在数字化转型过程中,并非所有的企业都具有足够的数据,即使有数据也并不一定有挖掘分析的能力,因而“信息即服务”“答案即服务”就有了广泛的市场需求。


四、数据要素市场的基础制度供给:要素市场

形成机制

不同于传统生产要素较为直观、成熟的市场化机制,数据要素由于存在非竞争性等技术经济特性,以及法律规定的不明确,叠加数据要素交易场景的复杂性导致探索数据要素市场化一般机制成为难题。在完成了数据要素化和市场化的跨越后,就对市场流通化的数据产品有了清晰的界定和描述且存在这样的有效供给,那么数据要素市场建设的基本任务就成了搭建供需匹配的渠道,建立确保数据交易安全的制度机制,从而降低数据要素市场环境的不确定性。如前所述,数据要素市场建设的关键并不是交易场所本身,而是与数据要素特点相适应的数据要素市场的基础性制度机制。依据牛津大学拉尔夫·施罗德教授的大数据业务模式分析模型来分析数据要素市场框架,笔者认为,数据使用者、数据供给者和数据设施提供者可以勾勒出数据经济的基本画面:数据使用者可以是社会中任何主体,能使数据要素最终转化为社会生产力表现,而数据供给者既从数据使用者处收集数据,又为其提供数据产品,而这两类主体都离不开以技术见长的设施提供者的服务。三类角色大致勾勒出数据经济的分工体系。据此,数据要素市场形成机制在此意义上可以概括为数据基础设施服务,发展数据产品供给,促进数据的使用。本文就促进数据产品供给和使用的数据要素市场形成机制提出以下几点看法。

(一)数据产品化的促进与激励机制

在万物互联的泛在网络时代,大量数据因系统的运行和各社会活动而形成,但是这些数据本身并没有多少价值。数据要素市场化就是激励社会各主体将不可用、不好用的数据变成可用和可重用的数据。数据一旦具备社会可重用性,就使数据成为可交易的“产品”,产生交换价值。因而数据要素市场形成最基础的制度需求是从源头上激励数据产品化或数据产品的生产。为此,法律需要承认数据初始生产及其整个产品化过程的参与对数据的控制和使用权利,构建数据可以不断被社会利用的秩序。这是基于“额头流汗”原则,保护数据价值创造者得出的结论。而问题在于,数据往往反映或映射着客观存在,当人类利用数据认知客观规律时,也涉及揭示出数据描述对象或关联主体的行为规律甚至“秘密”(如隐私、商业动向)。如果这些利益相关者的利益得不到保护,那么他们就不会信任他人对数据的使用;如果利益相关者有权拒绝他人获取关于他们的数据,因而拒绝被分析和认知,就会形成社会认知障碍,影响正常的社会活动的开展。在数据要素化利用过程中,最为基础的制度是如何处理数据使用(认知分析)者和“被使用”(被分析)者之间的关系。正如数据英国开放数据研究院的杰尼·坦尼森指出,数据是一种新型无形基础设施(Intangible Infrastucture),支撑着社会和经济的各个领域。与其他基础设施一样,数据基础设施也需要相应的市场机制以满足社会和经济需求。这包括设计法律和制度以规范谁可以控制数据基础设施及其应施加的限制。因此,制度规范要承认和保护数据各利益相关者的权益,以建立数据流通利用或分享利用的秩序。在这样利用秩序中,不能采取传统的排他支配权(所有权)范式,给予某个类型的主体排他决定数据使用的权利,而是平衡保护各利益相关者前提的数据治理范式。

在数据治理范式下,制度规范需要在数据开放与控制、数据使用与限制、数据来源者利益与数据使用者利益之间取得平衡,构建激励数据产品化和产品化数据不断流通利用(重用)的制度。首先,需要确立数据的开放利用制度,将数据定位为社会可用资源,只是要建立获取数据的规则,允许社会主体以合法方式取得和使用数据;其次,确认和保护数据利益相关者的利益,规范和限制数据使用者的使用行为,使数据上承载的利益在整个使用过程均能得到维护;最后,以确保和保护数据使用者权益为核心以不断促进数据资源化或产品化流通利用,促进社会生产力不断提升。个人数据保护制度实际上就是按照这样的逻辑展开的。由于数据用于分析个人可能揭示个人隐私或作出不正确的分析结论,因此需要法律保护个人权益(包括尊严、隐私等主体利益)不因数据处理而受侵害,但是,个人信息权益保护制度并没有将个人数据转化为由个人决定的“私有财产”,而建立正当使用个人信息的规则,保持个人数据的社会可用性。同样地,当数据来源于组织或关系组织利益的同时,仍然需要关注组织在该数据使用上是否存在不正当的利益,只有存在正当的需要保护的利益时,才限制数据使用者的权益。

(二)数据产品描述、识别与发现机制

即使数据完成产品化或具备可重用性,其仍然属于价值不固定的非标准产品,如何发现或找到自己需要的数据产品是数据流通交易所面临的独特难题。因而如何让数据生产者匹配数据需求,让有需求的主体找到可用的数据是数据要素市场建设的另一项任务。从数据产品提供者的角度来讲,首先需要描述自己的数据,以向他人展示自己有什么。这不仅是个别地向他人介绍、描述,而且是以标准化内容、格式、规则来描述数据产品。标准化的数据要素产品描述是数据进入市场,供市场选择,自由竞争的基本条件。当一个组织要引入外部数据要素时,就会面临判断该数据产品是否能满足自己分析需要的问题,就可能面临数据格式不同、命名规则不一致、系统不兼容等问题。数据要素进入市场也要进行产品打包,添加名称、描述、使用条款甚至价格,形成可以发布、搜索、使用、定制、管理和衡量数据要素使用的单元。因此,数据要素市场建设首先要解决数据交易基本单元的界定问题。

制定标准化的数据产品描述规范,其中一个关键问题就是对产品主题与属性的描述。由于数据的属性多样、动态且繁杂,因此需要一个合理的框架对其进行组织。对于这一问题,阮冈纳赞的“分面分类理论”提供了一个有效的思路。阮冈纳赞认为,可以将所有的基本概念归纳为五个基本类型:本体(Personality)、材料(Material)、动力(Energy)、空间(Space)、时间(Time)。其中,本体表示事物对象或事物种类;材料表示与主题对象有关的材料;动力表示对事物对象的操作和处理;空间与时间则表示资源对象发生的空间位置和时间概念。对于数据产品而言,本体可对应数据产品主题;材料可对应数据产品质量及结构性属性;动力可对应对数据产品的处理、目的与用途;空间可对应数据产品的适用场景;时间可对应数据产品的供给时间。通过借鉴阮冈纳赞的“分面分类理论”,可以大致对各种数据产品的基本属性进行分类、梳理和组织。当然,除此以外,对于数据产品的描述还可以涉及对价格、交易信息、评价信息等动态信息的组织机制进行设计。最终,形成一套完整的数据产品描述机制。

从需求方的角度,首先需要识别、判断他人的数据是否适合或满足自己的需求。这实际上是数据产品需求者自身的需求识别和揭示,然后在数据要素市场中发现满足自身需求的数据产品。对数据的需求取决于需求者要解决什么问题,而解决该问题需要哪些信息、知识或方法,进而需要哪些类型或来源的数据可以产出这样的信息、知识或方法。从总体上,数据产品的需求者往往为了满足自身的生产力或生产效率的提升而产生对相关数据产品的需求。但是,这种需求必须要从解决具体问题的角度出发,针对本组织业务、市场、领域及场景,创造性地发现支撑机器学习、人工智能的数据需求,以产出解决特定问题,支撑业务决策的知识。例如,个性化、差异化需求成为数字经济的基本需求,而只有那些能够精准地发现最适合自己产品或服务的客户的数据维度才是自己的需求。数字化转型的需要就成为数据产品需求者发现自身数据需求的最佳途径。

在识别自己需求之后,接下来就是发现满足自己需求的产品在哪里。产品发现机制的构建不仅包括对类目导航、搜索策略和推荐算法的改进,还要依靠产品信息组织的完善。因此,原本适用于企业资产管理的数据要素目录逐渐地被借鉴到数据要素市场当中,由专业的交易撮合组织形成可信的数据源,制作成数据要素目录,供社会查询、评估、交易。这类组织对于解决数据产品发现问题至关重要,因为只有这些组织平台在后台充分实现数据产品的发掘、产品信息的组织,才可以在前台支撑目录导购、搜索、匹配推荐等流程化的产品发现机制。这一组织过程往往是通过构建数据产品目录予以实现的。数据产品目录通过数据集的发现、描述和组织来维护数据资产的清单。通过赋能数据分析师、数据科学家、数据管理员和其他数据使用者,以便找到并为特定业务分析目的而理解相关的数据集。因此,数据产品目录会告知需求者关于某个主题的可用数据集和元数据,并帮助需求者快速查找该数据产品。数据产品的发现机制本质上是对数据要素市场信息供需不对称问题的应对途径,而数据产品目录的功能类似于公共服务基础设施的图书馆书目检索系统,需要数据市场主体进行登录或注册,形成可查阅的系统,从而实现数据产品供需双方的市场化互动。

(三)数据产品的价值实现机制

由于数据产品属于非标准化产品,社会对数据需求的多样性远超数据供给者的想象,所谓的数据产品化也只是在技术上满足需求者的要求,而不是制造出满足特定需求的数据。甚至数据的使用价值是由需求方发现的,而不是数据供应方定义或给予的。数据交易是需求驱动的市场,而不是供给决定市场。数据产品交易区别于传统物品交易,可以不断转手的资产交易,数据流通交易的本质是让他人使用数据。数据要素的特征决定了数据要素不太适合通过界定数据,赋予持有者以所有权,以转让数据产权的形式来交易数据的市场范式。市场交易范式依赖于繁重的标准化流程、易于比较、买家和供应商之间的公平互动以及明确的价值转移。因此,数据要素实现市场化就必须将数据资源转换为随时可用的数据产品,允许任何使用者能够比当前的方法更快、更广泛地扩展创造的价值。数据供需匹配需要媒介,这便是数据流通或交易分享平台,但这样的平台一定不是仅仅构建资产交易的撮合、交割和清算机制,关键是平台能够为数据提供者和数据接受者创造价值并实现价值交付或分配。数据要素市场最终的价值体现在帮助最终用户找到和获取可用好用的数据产品,这样数据科学家就无需在中间的治理流程上花费时间并专注于从中获取洞察力。数据交易平台像任何其他在线市场,可以为供需双方提供数据产品展示、浏览比较、竞价撮合和履行辅助等的市场环境,使数据提供者营销、管理和销售其数据,使数据购买者在一个集中的市场浏览、比较和购买多个来源的数据。平台提供治理结构和一套标准及协议,通过自治管理方式创造和维系了任何市场不可或缺的因素——信任。在数据市场中,信任要重要得多,解决起来也更具挑战性。因此,培育和发展数据交易平台,应当成为数据要素市场建设的重要内容。数据交易平台在这个意义上就不应当与其他商品或服务一样系单一技术支持,而是应当起到进一步通过平台化转型开拓市场、供匹配需要和实现价值的社会功能。

前文将数据产品概括为三类,数据交易平台应当围绕这些产品价值实现搭建安全、可信的“数据流通道”,以实现可重用数据服务域。对于知识生产要素类数据产品需要数据实际控制移转,而其他两类都可以“服务”形式实现其价值。在移转数据的情形下,需要各种安全的交付安排。随着分布式存储和计算技术的发展,在一定范围内可以实现不移转数据就可对特定数据进行计算使用。这在一定程度上消解了前述因数据产品移转而带来的原发性交易风险。产品化的数据集的拥有者可以为数据需求者提供接口或环境,允许使用者布设算法,直接获得计算和分析结果,实现“原始数据不出域、数据可用不可见”。随着计算技术的进步和数据源头产品化思维治理数据的开展,在良好数据架构环境中生产的数据,可以不经过汇集或集中即可实现计算分析利用。因此,数据要素市场必须适应数据要素永远存在、无处不在和分布式的现实,为数据产品的使用搭建通道,为数据要素的计算提供条件或环境。针对特定数据集或数据库的一次性许可使用也不是数据要素流通交易常态,更普遍且重要的是持续提供数据产品服务域,以允许访问或使用数据产品的交易模式(有时被称为数据产品订阅模式或数据服务模式),从而实现数据产品的持续更新或阶段性更新。

除了构建数据价值发现和实现的机制外,数据交易平台还应当为数据交易提供风险合规机制,这是解决数据产品合法性与可交易性的关键路径。当前中国数据业务仍存在供求适配度偏低、安全风险凸显等问题,严重制约着数据资源配置水平。这是因为数据要素本身是一种风险性的资源,不仅有数字化数据本身的安全控制问题,而且数据存在多重利益相关者、社会公共利益和国家安全利益,是否能够提供数据产品流通的安全和合规服务,成为数据要素市场建设的重要内容。关于个人的数据,其不仅承载个人利益,而且同时承载着使用者、社会、组织、国家等多方主体的利益。关于机器的数据亦可能涉及设计者、制造者、应用者的财产利益,甚至还涉及应用者或设备主人的人格(隐私)利益。数据上存在的多重利益也就意味着数据产品上的多重风险,而数据产品流通可能会扩大风险,因而数据要素流通需要有相应的风险控制机制,使数据产品风险不因为流通使用而无限扩大。因而数据要素市场需要的基础性机制就是为数据产品提供者和数据产品使用者构建一个安全、合规的数据产品流通利用的生态系统,使数据产品持有者可以安全地实现数据要素的社会价值,而使数据要素使用者能够获取所需要的数据产品。比如,数据产品交易应遵守关于数据安全管理的法律法规,尊重社会公德,不得损害国家利益、社会公共利益和他人合法权益。数据产品交易涉及个人信息的,应采取个人信息安全保护技术和管理措施,避免个人信息的非法收集、非法获取、非法出售、滥用、泄露等安全风险,所涉及的个人信息内容和处理行为不得与相关法律法规产生冲突,坚持去标识化流通原则。简言之,数据产品风险合规机制最为重要的是要使数据产品流通过程可控,责任可追溯,合规性可监督,将数据产品流通产生的风险分配给产生源头和能够预防风险的责任主体。

综上,作为一个一般性的抽象概念问题,市场更趋向于一种经过设计的制度结构。从这一角度来说,强调以市场为基础的方法来构建丰富的价值发现、转化与社会参与是数据要素培育的关键。从新自由主义理论的角度来看,市场构建的最良性和最有效的形式就是自主、融合和关于效率和价值的市场化反馈。数据产品价值实现的特殊性决定了实现数据要素市场化配置基础制度不同于传统市场。因此,制度设计者需要供给一套适用于数据产品的市场基础制度规则,以激励数据产品化和流通交易,从而实现市场经济层面的数据治理,最大化地促进数据要素价值的市场性生产与实现。

五、结语

数据是一种独立的现代生产要素。它已成为数据智能这种新型知识生产方式主要的原材料,是数字经济和社会价值创造的重要来源。换句话说,数据要素有效地驱动了经济发展,这种经济类型便被称为“数据经济”。数据揭示了数据经济形态下全新的发展机会。数据将成为支撑数据经济新浪潮,生产率增长、创新和价值盈余的关键竞争因素。

当所有这些理想图景和美好设想都看起来充满希望之时,研究者需要保持理性和批判精神,对数据应用的现状和“数据市场”的失败进行必要的反思。并非所有的数据都是生产要素,或者都应当被视为生产要素。因而能够成为生产要素应当专指支撑数据智能、机器学习等智能分析工具的可机读原始数据。将数据进行要素化处理使之成为数据要素,将数据要素进行预处理并使之成为可以不断重用的数据要素产品,才具有无限的计算价值,可以不断产生洞见和预测,支撑精准决策和智慧行动。只有满足要素化和市场化的数据才能真正支撑数据要素市场的构建,实现数据经济的加速创新和增长,并提高生产率和竞争力。(见图1)

图1 数据要素市场形成的理论框架

同样,由于数据要素的特殊性,这样的数据要素并不完全适应传统市场范式。最为重要的是,数据要素的价值在于流通利用,因而数据要素市场化的关键是建立让社会使用数据的方式或机制;同时,数据来源具有多样性、流动性、非排他性,因而即使产品化的数据也不适合基于产权清晰界定和移转为基础的市场范式。因此,本文尝试构建一种新的数据要素观,并以此为基础培育适用数据生产要素特征的要素市场。本文新的数据要素观反映了人类从利用(人记录和识读)信息到利用泛在网络产生的大数据的变革,以原始可机读数据的流通利用来支撑人类社会新认知革命,最终加速信息和知识生产。显然,新要素观不是传统数据要素观的替代或否定,而是补充和支撑。在本文看来,数据要素市场不是建设数据交易机构(交易所或中心),而是要解决数据可重用性,即使数据要素产品化,同时在此基础上形成数据要素可为社会主体安全利用的机制。数据要素市场是在需求拉动下自然形成的,这是本文结论,也是贯穿本文的指导思想。

数据是一种复杂社会存在,其形态和功能呈现多样性。数据作为新型生产要素,将会打破既有法律体系对信息和知识的认知和保护理念,因此如何认知要素化的数据仍然需要从法学、经济学、数据科学等多维度进行深入探讨和研究。就此而言,本文只是一个起点,通过讨论和发展培育数据要素市场过程中的各种集体智慧,从而使数据真正成为经济增长、创造就业和社会进步的基本要素,驱动数据经济健康发展。

作者简介:

高富平:互联网法治研究院(杭州)常务副院长、华东政法大学教授、数据法律研究中心主任;

冉高苒:华东政法大学博士研究生。


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询