睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

高质量数据集建设指南

时间:2025-06-05来源:睁眼看见你浏览数:11

高质量数据集建设应按照生命周期有序展开,包括数据需求、数据规划、数据采集、数据预处理、数据标注、模型验证等6个阶段。其中,各阶段主要按以上顺序逐步开展,同时,各阶段会对其他阶段进行反馈,或者会在其他阶段反馈下进行迭代。

数据需求

数据需求阶段主要涉及确定人工智能应用所需要数据,即根据特定人工智能应用,明确数据集在数据内容、规范等方面的需求。数据需求如下:

数据规范方面,需要对数据规格的创建要求加以规定,包括数据格式、统计特性和可分性等;

构建数据集所需的数据质量模型,即实例化一个具有相关数据质量特征(包括但不限于完整性、准确性、一致性)的数据质量模型;

检查数据集建设中数据的可获得性,即验证和确认用于特定人工智能应用的数据是否可获取得到。


数据规划

数据规划阶段旨在确保所用数据满足数据需求阶段的要求,同时为使用这些数据完成人工智能应用的目标提供支持。数据规划要求如下:

设计数据架构,即界定所需数据的全部属性和范围,以及如何使用这些数据;

制定质量计划,即制定涵盖数据采集、数据预处理、数据标注等阶段的数据质量计划,以满足数据规范等方面要求;

预计工作量,即预估获得和准备数据以支持特定人工智能应用所需的工作量,可能包括任何必要的数据重组、数据传输或数据收集的时间,以及为特定人工智能应用构建数据质量模型的时间。


数据采集

数据采集阶段主要是收集用于特定人工智能应用的数据,即从数据规划阶段所确定的数据源收集的实时和历史数据。数据采集要求如下:

确定数据采集方式,即根据所需数据是否已存在并可直接再利用、是否可转化现有数据来满足要求、是否可通过购买或许可获得数据、是否可以生成数据、是否需要采集新数据等情况,确定是以获取和组合现有数据集、生成数据(包括但不限于仿真模拟数据、合成数据)、收集数据(包括但不限于传感器采集、手动输入)等之中何种方式采集数据;

测试并在必要时改进数据收集方法,即测试数据收集方法,在必要时调整相关配置和参数设置、操作条件、传感器规格和安装位置等,以满足相关数据收集规范要求;

进行数据质量度量并在必要时提升数据质量,可能会减少数据使用者的工作量,并针对通过应用不同转换所收集的数据降低引入下游不一致的风险。


数据预处理

数据预处理如下:

数据转换,以最小的内容损失,将数据从一种表示或空间转换为另一种表示或空间;

数据验证,根据验证正确性、有意义、安全性、隐私性等数据质量特征,确保数据是正确的;

数据清洗,检测错误数据或缺失数据,并通过替换、修改、输入或删除等方式修正数据;

数据聚合,将两个或多个数据集以汇总的形式合并为一个数据集;

数据抽样,从数据集中选择数据,抽样可以替换或非替换方式进行;

特征创建,创建比原始特征更能有效捕捉数据中主要信息的新特征;

特征选择,使用可用特征的子集来降低数据的维数;

丰富化,连接各类数据源,并为数据增加额外的上下文语境。


数据标注

数据标注阶段主要是针对有监督机器学习的,其训练、验证和测试数据需要对一个或多个目标变量赋值。数据标注要求如下:

所获取的数据中不包含目标变量,那么数据标注就是为这些目标变量赋值的过程;

数据标注质量是影响数据质量的一个重要方面,相关组织应该明确数据标注规范,并对数据标注过程进行监测和质量管理。


模型验证

在模型验证阶段,所准备好的数据被用于特定人工智能模型训练。在该阶段,要对所训练的人工智能模型进行表现效果评估,以确定数据集是否满足要求。若数据集未能使所训练人工智能模型的表现达到预期,可以采取以下步骤。

对于人工智能模型,确定数据集相比于算法,是否为致使模型表现效果未达到预期的根本原因;

在数据创建者与数据持有者之间,对模型验证阶段所发现的数据质量问题进行沟通,可以将对人工智能模型表现产生不利影响的数据质量问题传达给数据创建者和数据持有者。数据创建者与数据持有者可使用这些信息来改进上游数据的质量,以使下游数据使用者受益;

重复数据规划、数据采集、数据预处理、数据标注等阶段以提升数据质量;

重新训练人工智能模型,对于模型的表现效果进行验证。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询

在线咨询

点击进入在线咨询