- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2025-05-13来源:CIO之家浏览数:5次
数据是 AI的原油,AI系统的成功在很大程度上取决于数据的质量,这一点被广泛认同。一个 AI系统 80%的工作量集中在前期的预训练数据准备和后期的数据飞轮迭代上。在以数据为中心的 AI框架中,数据开发通常分为三个阶段:训练数据的开发、推理数据的开发和数据维护。训练数据的开发包括数据的收集、标注和预处理等步骤。推理数据的开发涉及训练样本评估与提示工程等。数据的维护则关注于当后续不断有新数据产生时,对于数据的理解与质量管控,以及数据的存储和检索等任务。以上是以数据为中心的人工智能的整体思路。数据清洗,也称为数据预处理,是数据分析和机器学习中的一个关键步骤。它指的是对原始数据进行检查、转换和修复,以确保数据的质量、准确性和一致性。数据清洗的主要目标是消除和校正数据中的错误、噪声、缺失值、重复值、不一致性和其他不完善之处,使数据适合进一步的分析、建模和挖掘。其中最关键的部分,是与模型任务相关度高、具备多样性和高质量的数据。直接收集的海量数据并不能直接用于大模型,需要经过清洗、标注等工序后,才能生成可供大模型使用的数据集。以GPT-3为例,其原始数据量为45TB,而经过清洗之后的高质量数据为570GB,以此为参考,经过清洗后的原始数据,约仅有1%成为语料库中的数据。数据清洗是数据处理过程中的关键环节,旨在检测和纠正数据中的错误和不一致性,提高数据质量。然而,传统的数据清洗方法主要依赖规则和手动操作,效率低下且难以应对不断变化的数据清洗需求。同时,随着数据法规的不断完善,如欧洲的GDPR和中国的个人信息保护法等,数据合规性也成为了企业和组织必须重视的问题。如何在确保数据质量的同时,遵守相关法律法规,是数据清洗与合规领域面临的一大挑战。大模型之所以具有带来重大革新契机的潜力,主要源于其四大显著优势。大模型通过海量的数据训练,积累了丰富的知识储备,这使得它能够理解和认知各类形式的数据,并具备一定的数据模式理解能力。这种能力使得大模型在处理复杂和多样化的数据时表现出色。大模型能够基于领域语料进行预训练,快速掌握领域知识。通过少量的数据指令微调,大模型能够迅速适应不同的领域数据治理任务。这种预训练加微调的方式,已经成为大模型落地应用的常见策略,为数据治理提供了极大的便利。大模型能够应对模态丰富的数据。在如今多模态大数据盛行的时代,大模型展现出了卓越的性能。它能够处理包括文本、图像、音频等在内的多种模态数据,为数据治理提供了更广泛的可能性。大模型的 Agent(自治智能体)功能使得自动化数据操控和数据治理规划成为可能。Agent本身具备规划和策划的能力,结合大模型的海量数据和模式理解能力,可以实现复杂场景的决策和规划任务。尽管目前这一功能需要依赖真正的大规模大模型,但未来随着技术的不断进步,我们希望大模型能够适配或者胜任更多复杂场景的决策和规划任务。
下一篇:暂时没有了