- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2026-06-16来源:数据学堂浏览数:2次
在中国国际大数据产业博览会“高质量数据集主题交流活动”上,《高质量数据集建设指引》正式发布。中国信通院院长余晓晖围绕高质量数据集建设背景、应用需求、建设成效、建设方法与实践、建设运营体系、建设推进思路等话题进行了解读。
核心观点

党的十八大以来,以习近平同志为核心的党中央高度重视我国新一代人工智能发展。随着“人工智能+”行动的深入推进,高质量数据集已成为训练高效人工智能模型的关键支撑。
回顾过去十年,我国与全球共同推进数据链建设,逐步打通生产、商业等多环节,有效促进了制造智能、产业智能与商业智能的发展。当前,以大模型技术为代表的新浪潮正推动数据与场景更深层次融合,持续驱动模型的优化与迭代。在这一进程中,高质量数据集肩负关键使命——它不仅是突破“数据墙”的核心支撑,更在提升智能水平、深化对物理世界理解与智能涌现方面发挥着不可替代的作用。

那么,何为高质量数据集?在国家数据局的指导下,我们对这一概念进行了梳理。高质量数据集是经过采集、加工等数据处理,可直接用于开发和训练人工智能模型,能有效提升模型性能的数据的集合。数据集的高质量体现在规模“大”、安全“牢”、观点“正”、效果“好”、应用“广”等方面,可以用规范性、完整性、合规性、多样性等十多个通用指标来量化评价。

高质量数据集的应用需求呈现出层次化与专业化特征。从建立世界基本认知,到解析复杂场景关系,再到规划执行具体行动,每一层都承载着不同的学习目标和能力要求。

数据质量的定义需与人工智能发展的不同阶段相契合,这背后需要大量细致的匹配工作。例如,国家数据局最新发布的一百多个高质量数据集典型案例,正是基于不同行业和领域的实际需求,既要涵盖规范性、准确性、完整性等通用质量要求,也需融入行业特有的质量指标,体现出显著差异化和定制化的特点。

在党中央、国务院的统筹部署下,我国高质量数据集建设取得显著成效。目前全国已建成超过3.5万个高质量数据集,每日Token消耗量实现高速增长,总体呈现出“统筹规划、分层推进、多元协作”的鲜明特点。刚发布的高质量数据集典型案例也是非常有代表性的,反映中国在这个领域所做的一些重要的进展,这些数据可以用于人工智能大模型的开发,有非常重要的意义。

虽然高质量数据集建设已取得初步成就,但在实践中仍面临数据供给、技术工具、标准规范、安全合规、商业模式等多方面挑战。
为解决这些问题,《高质量数据集建设指引》旨在凝聚行业共识、破解发展瓶颈,为推进高质量数据集建设提供方向性指引与行动参考。

《高质量数据集建设指引》提出“1+1”参考路径,即1套建设方法论和1套建设运营体系。该路径系统梳理了典型模式、核心环节、关键技术与质量评价等内容,为企业提供清晰可行的实践指南。

建设方法论聚焦多个核心环节和关键技术,并构建起可衡量、可优化的数据集质量体系,助力企业高效推进高质量数据集建设。

建设运营体系也非常重要。我们不光是能够规范地进行数据收集,在形成数据集后,从运营管理、工程建设,怎么形成完整、可持续的应用体系,也是需要进一步探索和解决的问题。

高质量数据集建设是一项需要各界协同的系统性工程,更是我国面临的重要战略机遇。我们期待与政府、企业、科研机构等各方凝聚共识、形成合力,共同从制度设计、技术攻关与生态培育等多方面推进工作!
力争以体系化思维优化高质量数据集建设布局,以设施化手段促进高质量数据集流通利用,以生态化环境保障高质量数据集可持续发展,构建覆盖全流程、贯通各环节的高质量数据集建设格局。
在线咨询
点击进入在线咨询
扫描下方二维码,添加客服
扫码添加好友,获取专业咨询服务