睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

美国政府开放数据的元数据标准对我国的启示

时间:2019-08-27来源:大连海事大学交通运输管理学院浏览数:931

从 2012 年至今,我国已相继上线近 20 个地方政 府开放数据的门户网站,国家层面的统一数据门户 网站 www.data.gov.cn 也在规划建设中。但目前各 地使用了不同的元数据方案,元数据对数据集的描 述不够全面、没有采用机器可读的格式及元数据的取 值不规范等不足限制了目录聚合与元数据采集的自动 实现。因此,在参考和借鉴美国的先进经验时,应重点 关注如下四个方面的启示。

1、 构建以元数据为核心的公共信息资源开放目 录体系 《政务信息系统整合共享实施方案》指出,在 建设 www.data.gov.cn 时,要“基于政务信息资源目录 体系,构建公共信息资源开放目录,按照公共数据开放 有关要求,推动政府部门和公共企事业单位的原始性、 可机器读取、可供社会化再利用的数据集向社会开放, 开展中国数据创新系列活动,鼓励和引导社会化开发 利用” 。 元数据、分类法和编码规则是政务信息资源目录 体系的核心要素,在开放数据背景下应不断完善和发 展,以适应新的需求和挑战,如开放标准、开放许可和 授权、溯源和质量保障、五星模型和关联开放数据等。 我国地方政府开放数据实践中存在的诸如平台建设缺 乏规范、没有统一的元数据标准、数据集分类不一致等 问题,不仅拉开了我国开放数据同世界先进水平的差 距,也为建设国家层面统一的开放平台带来困难。因 此,应在“国际化和本土化相结合、通用化和专门化相 结合”的原则下,建设以元数据为核心的公共信息资 源开放目录体系,开展相关理论研究和实践探索。 

2 、建立各级数据目录间的协调机制 我国应重 视国家层面( 即 www.data.gov.cn) 与各部委、各省市开 放数据目录门户和平台间的协调,建立目录自动聚合 机制。各级政府的数据目录形成一定的层次结构,上 一级的目录应能够聚合下级的目录,以实现数据一次 发布,却能出现在各目录中。同时,也要关注综合性的 数据目录与专业性数据目录( 如地理、统计和交通等) 之间的协调。 美国的经验表明,建立在统一标准之上的“元数 据采集机制”是实现目录自动聚合的基础和关键,值 得研究和借鉴。

3、 全生命周期的规范化管理 美国 M-13-13 确 立了“在信息生命周期的各个阶段都要实施有效管 理”的原则,要求联邦机构重构信息收集和创建过 程,在生命周期的起点就为以后的开放做好准备,包括 确定目标受众,采用机器可读的开放格式、数据标准和 元数据规范等。实践上,元数据方案 POD v1.1 不仅应 用到发布环节,也应用在各机构内部的数据管理中,如 数据清单的描述上,以此来更好地支持下游的信息处 理和传播。 我国在从信息公开到数据开放的转换和升级过程 中,将促进政府信息资源的全生命周期规范化管理。 而从始至终采用一致的元数据标准,将有助于提升数 据共享效率和降低开放成本。

4 、元数据质量的评估和监测 元数据的价值依 赖于它的质量,质量的高低取决于实际的元数据记录 与元数据标准的符合程度。美国开发了“仪表板” ( Project Open Data Dashboard) 评估和监测各联邦机构 对 M-13-13 指令的执行情况,包括 data.json 文件中 的元数据质量。主要的质量指标( quality metrics) 有:是否是有效的 JSON 文档、符合模式定义的元数据 的占比、失效的链接( accessURL 4xx) 的占比、错误的 链接( accessURL 5xx) 的占比及 data.json 文件的最新 修改日期等。 我国在加快开放政府数据工作的同时,应增强质 量意识,重视数据和元数据质量标准、评价方法和保障 体系的建设。 

结 语 
美国的 Data.Gov 上已有超过19.4 万个数据集,这 得益于它的完善的目录聚合功能,而元数据标准起到 了重要作用。本文主要从目录聚合的视角,介绍了具 有普适性的 POD v1.1 标准和 Data.Gov 上的目录聚合 溯源元数据。随着我国各级政府开放数据的深入发 展,特别是国家数据开放网站( www.data.gov.cn) 的建 设,开发元数据标准、元数据采集规范和目录聚合机 制,将是一个十分必要且紧迫的课题。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询