睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

自助数据准备,让数据分析变得简单

时间:2022-05-19来源:二二的女生浏览数:144

数据分析也是一个比较专业的领域,通常在 IT 团队中,因为只有专业人员才能处理和运行复杂计算,以及选择正确的数据可视化和输出的复杂的分析结果。数据准备也是一项专业的任务,在整合、清理和优化数据集方面具有自身的复杂性。


全文共 2986 个字,建议阅读需 5 分钟

在数据科学和数据分析领域,通常说数据准备和处理占所涉及的工作占 80%。为什么在分析数据之前需要付出如此多的努力来准备数据呢?

业务系统中的数据很少以正确的格式存储以供分析。例如:超市的销售系统通过检查购物车中的物品并尽可能高效地更新到库存系统,就能帮助企业及时作出季度库存报告和供应链预测。但事实上,往往是销售系统和库存系统的数据标准不一致,无法及时互通。

同样重要的是,数据质量问题的存在无法满足数据分析需要。一些数据记录有缺失、不正确或不一致的值,它们需要修复,而且这个过程可能很复杂。企业也不希望数据分析拖慢业务系统,因此企业需要将数据移动到新位置以进行分析和报告——经常对其进行整合、组合和管理数据质量。

由于所有这些原因,数据准备是分析应用程序中一个重要的,实际上也是不可避免的步骤。事实上,我经常说数据准备是一个重要意义的数据分析,因为你需要知道你将如何使用数据才能知道如何准备它。大多数情况下,真正了解这些用例的不是 IT,而是业务用户或数据科学家。现在,他们可以使用一些工具来进行自助数据准备。

01 什么是自助数据准备?

即使在最近,数据分析也是一个比较专业的领域,通常在 IT 团队中,因为只有专业人员才能处理和运行复杂计算,以及选择正确的数据可视化和输出的复杂的分析结果。数据准备也是一项专业的任务,在整合、清理和优化数据集方面具有自身的复杂性。

近年来,分析的实践取得了长足的进步,现在业务用户拥有出色的、相对简单的数据分析、数据可视化和数据报告工具。他们可以是业务专家,但大部分技术负担现在由更智能的 BI 应用程序处理。

随着业务用户熟悉自助式 BI 和分析,他们也希望直接使用数据。您可以根据需要构建自己的可视化、报告和仪表板,那么如果您总是需要向 IT 或数据管理团队咨询更多,并且IT团队需要按您想要的方式组织和格式化的数据,这将成为你生产力的障碍。

数据科学家处于类似的情况,但有一些不同。他们还需要将数据从操作系统中提取出来,放到合适的位置进行机器学习、预测建模和其他高级分析。他们也需要整理数据记录,但他们可能会发现一些不一致的地方很有用——比如欺诈分析。他们还需要数据处于正确的形状以供算法处理,这可能意味着将所有数据收集到一个非常大的表中。他们通常想自己做所有这些事情。

自助数据准备使数据科学家和业务用户能够做到这一点,使他们能够通过简单易用的桌面或云应用程序进行数据来源、整形和清理工作。

02 自助数据准备的工作原理

在许多方面,自助数据准备过程与传统 IT 驱动的数据准备过程相同,以下是六个稍微简化的步骤:

收集数据。当 IT 进行数据准备工作时,它可能会从整个企业收集数据,通常使用专业的连接器和数据库技术的“专业知识”。业务用户最有可能使用其自助数据准备平台中内置的简化连接器连接到熟悉的应用系统。

分析数据。为了有效地使用您收集的数据,您需要预览它并查看它的完整性和准确性。自助服务工具通常包括数据分析功能,该功能还提供有关值范围、异常值、错误和其他数据属性问题的统计信息。

连接数据。当您需要分析来自不同数据集的数据,或者来自一个数据集中不同表的数据时,您必须首先将数据连接起来。执行连接的逻辑和代码仍然是数据库程序员技术考试中最喜欢的问题。但是自助服务工具可以帮助您,通常使连接变得像拖放程序一样简单。

清理数据。您的数据很少立即足以进行分析。您可能需要为缺失值添加默认值或使不同格式符合相同的模式,例如标准国家代码。数据准备工具越来越多地提供出色的数据质量功能。其他可能包括与专业数据质量服务集成的更简单的功能。

转换数据。我之前提到过,数据需要以正确的形式进行分析。例如,数据科学家使用的非常扁平的结构与金融分析师使用的非常分层的结构之间存在显着差异。这种整形是数据转换的一个重要元素,它还涉及将数据转换为最后一步的正确格式。

存储数据。完成所有这些工作后,数据需要保存到某个地方以备将来使用。常见目标包括:数据仓库和数据湖,您也可以在其中将其提供给其他用户。您还可以将数据存储在特定于首选的 BI 和数据可视化工具的系统中,或者您可以将其保存在本地以供自己使用。

良好的自助数据准备工具包括支持所有这些步骤的功能,即使其中一些数据准备过程的流程略有不同。

03 自助数据准备的好处

自助数据准备的优势可分为以下三类:

它通过为业务用户和数据科学家提供简化的工具来独立完成传统上复杂的工作,从而使他们更加敏捷和高效。这使他们免于 IT 团队收集需求、构建和测试原型、获取反馈等耗时的流程。

使分析用户能够完成自己的数据准备工作还可以释放 IT 和数据管理资源,以完成更高效的任务。

自助服务方法使数据准备工作能够更广泛地分布在整个企业及其 IT 基础设施中,避免瓶颈并增强弹性。

当营销团队需要对商业环境的重大变化做出反应时,这些好处在行动中的一个很好的例子就是。我们都在 COVID-19 大流行中看到了这一点。病毒爆发后,许多零售商希望将来自实体位置的客户数据与在线活动和有关 COVID-19 病例的本地数据联系起来。他们想问一些简单的问题却很难回答,比如他们仍然可以期待什么样的客流量,以及有多少业务可能会转移到线上。

大多数情况下,这些数据集并不存在,因为这种情况非常特殊且非常新。IT 团队——当时正在努力应对自己的新挑战——可能需要数周时间来准备数据,即使他们可以优先考虑这项工作。但是通过自助数据准备,营销团队可以轻松地获取内部和外部数据集,连接它们,并根据需要清理和转换它们。事实证明,这种加速分析对于应对“大流行病”至关重要。

这些特定优势令人信服,但许多企业发现自助数据准备的最终优势最为重要,即使它最难量化。用户效率的提高使他们更有能力、更有可能探索新的场景并测试分析业务运营的创新方法。自助式数据准备的最大的好处是企业与其业务数据的联系更紧密,信息也更丰富。

04 自助数据准备与ETL数据管道

当然,自助数据准备工具并不是唯一的游戏。仍然有为 IT 设计的成熟应用程序——主要是提取、转换和加载 (ETL) 工具,其他数据准备技术可供数据科学家使用。

第一个也是最重要的区别是简单性和可用性。自助服务工具专为非专业人士打造。他们可能需要一些培训——当然也会奖励一些学习和实践——但它们是专门为让用户快速入门而设计的。

ETL 是一种重量级数据集成技术,旨在在数据库之间移动大量数据,同时在数据移动期间对其进行整合和清理。ETL 工具可以配置为利用数据库的最高级功能,它们包括用于错误处理和创建复杂逻辑的高级功能。尽管这些工具更易于使用,但 ETL 工作通常是一项专门的工作,尤其是在大型企业中。

虽然数据科学家在某些应用程序中使用自助数据准备工具,但许多人的大部分工作都是使用脚本语言完成的,例如Python和R。大多数情况下,他们不仅开发一个脚本,还开发一系列相关脚本程序,它们之间存在复杂的依赖关系。协调脚本创建了一个数据科学管道,该管道将一组操作应用于数据集。虽然由于有了新工具,构建这样的管道也变得更加容易,但它仍然是数据科学工作的专门选择。

对于更简单的数据科学场景,以及经常需要分析数据并创建可视化和报告的业务用户,自助数据准备是一项越来越重要的能力。他们非常清楚,数据对于手头的任务来说很少是完美的——而且他们是最适合使其适合预期目的的人。

<END>

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询