睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

数据囤积日益增长的威胁

时间:2019-02-28来源:亿信华辰浏览数:736


在数据丰富的环境中生活和工作的缺点之一是希望将所有最后的位和字节松开以备将来使用。得益于Amazon S3和Hadoop等廉价存储系统,技术上可以存储您收集的每一条数据。但是走太远的路可能会导致危险的情况,即数据囤积。

虽然数据囤积可能不像物理囤积现实世界的物品一样具有威胁,但是有类似的心理学在起作用。在过去的25年中,存储每一期“纽约时报”的物理囤积者可能会因为错误的想法而这样做,他们将来需要在某个时候参考该论文。同样地,数字囤积者可能会抓住谷歌的每一个关键词报告,因为它错误地认为它会促进营销工作。

数据囤积的事件正在上升,这应该不足为奇。毕竟,由于大数据热潮,我们拥有丰富且价格合理的存储,其中大部分存储在云端。根据EMC数据传播者Bill Schmarzo的说法,对于相同数量的资金,您可以在基于Hadoop的数据湖中存储50倍于传统数据仓库的数据。这是一个很大的优势。

一些大数据解决方案提供商告诉客户不要丢弃数据,这加剧了数据囤积问题。当你将这种心态与可以从数据耗尽中轻松挖掘竞争优势的心态以及囤积本身产生的动力结合起来时,你可以看到数据囤积有可能成为一个严重的问题。

从一个极端到另一个极端

在过去的20年中,我们在数据存储领域的两个极端之间反弹。在过去(即1995年),当存储成本高得多时,公司只会存储对其运营至关重要的数据。通常,数据源自操作数据存储,并且数据将被大量转换以严格符合预设模式。然后可以提取洞察并从这些严格控制的数据仓库运行报告。

但是,对于数据仓库而言,大数据湖泊已经颠覆了脚本。公司现在不存储具有经过验证的商业价值的数据,而是存储任何有可能在未来提供价值的数据。其中大部分是原始数据,或“数据耗尽”,之前被丢弃,因为它没有提供直接的商业价值。

我们已经从一个极端走向另一个极端,一家名为Xplenty的数据集成初创公司的首席执行官兼联合创始人Yaniv Mor说,他看到这种类型的数据囤积多年来变得更糟。

“现在公司倾向于简单地存储数据只是为了安全起见,以防万一有人想在未来使用这些数据,”Mor说。“相对来说,存储现在很便宜,所以他们只会将所有内容都放在Amazon S3或Google Cloud存储上。但是当分析师来并需要从中提取一些信息时,它就成了一个巨大的挑战。这是我们一直看到的东西。“

Mor表示,Apache Hadoop和云存储是数据囤积的推动因素。虽然这些平台在存储成本方面具有优势,但它们也暴露了缺乏从数据中提取有用信息的专业技能。

“这是一个很大的挑战,”莫尔说。“梳理这些数据并获得洞察力并不容易。你必须有数据科学家和非常专业的分析师,他们拥有筛选这些数据的技能。“

数据ROT的增长

大公司和其他组织,如政府机构,都是屈从于数据囤积的人。据乔迪霍克,美国国防部和美国情报工商业的执行董事船级社,联邦机构发现很容易只是添加,而不是面临着数据囤积迎面而来的困难更多的存储空间。

“有很多神话,”侯克在4月接受联邦新闻电台采访时说道。“他们认为存储是便宜的,所有数据都有价值,所有数据都具有相同的价值,并且他们会将这些数据转移到云端。所以这是免费存储空间,为什么我不能保留它呢?“

事实上,并非所有数据都是信息,Houck说。事实上,根据Veritas的2016年数据基因组学指数,目前普通组织存储的数据中有40%到60%是冗余的,过时的或微不足道的(ROT)。

更重要的是,Veritas发现超过40%的组织数据是陈旧的(即三年内没有被触及)。组织正在花费巨额资金来存储数百万个没有人正在使用的个人文件。“他们每桶花费500万美元来存储ROT,”Houck说。

关注营销

虽然数据囤积是一个平等的机会犯罪者,但Xplenty的Mor所说的业务中有一部分可能特别容易发出警报:营销。

“营销人员只是晚上收集,但他们不一定知道如何处理它,”莫尔说。“营销人员需要了解并非所有数据都是平等的。他们不一定必须收集营销服务提供给他们的每个位和字节。营销人员是创建数据沼泽的一个很好的例子。“

跟踪事物(即“治理”)也成为囤积者的一个大问题。就像那些囤积物理物品的人可能无法在装满天花板的房子里找到特定物品一样,数据囤积者也会发现自己在数据的重压下挣扎。当严格的模式控制崩溃并且“随时随地”的心态接管数据湖时,它很快就会变成一个模糊的数据沼泽。

数据囤积没有明确的定义,并且该综合症可能在不同的机构中存在不同程度。它还应该从法律规定的档案中消除歧义。例如,银行可能在法律上要求保留数据多年,而一些医疗保健组织必须保持数十年的医疗数据。

内部数据是20年前大多数数据仓库计划的来源,但今天的大数据囤积者倾向于使用随时可用的外部数据。特别是社交媒体数据通常存储在数据湖中,并且可以将其与其他数据混合以产生有意义的信号。但社交媒体数据通常非常“嘈杂”,并且包含可疑的商业价值。

数据囤积解决方案

解决数据囤积问题的第一步是承认存在问题。在那之后,可以采取几种策略。

Veritas的Houck提倡自上而下的数据治理解决方案,首先要获得对数据及其价值的可见性。在创建更好的模型来对数据进行分类之后,由数据专业人员或首席数据官来决定是否拥有所有权并实施更好的数据治理策略。

“如果我们今天实施信息治理策略并开始使用ROT和陈旧数据,我们相信有更好的方法可以支持我们的任务并降低成本,然后继续提出创建分配项目的解决方案,以便我们能够她在接受联邦新闻电台采访时表示,移动那些对我们的系统毫无价值的数据。“这是一种文化变革。这是一项技术变革。我们无法通过手动查看每个数据来实现,但有能力自动爬行,记录您拥有的数据,然后采取行动。“

Xplenty的Mor认为,迫切需要教育人们关于数据囤积问题。“你必须教育人们他们需要对他们可用的数据做些什么,特别是在评估数据架构方面,特别是在云上,”他说。“人们不知道如何在云上构建数据架构。”

最终,数据囤积问题必须从下至上解决,这意味着让个人改变他们查看数据的方式。“这不是关于你在一天结束时收集了多少数据 - 这是你将从数据中获得什么价值的问题,”他说。“每个分析师,每个数据专业人士,每天都应该问问自己这个问题。”


(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询