随着云时代的来临,大数据吸引了越来越多的关注。什么是大数据?在这个生产水平高速发展的今天,互联网每刻都会产生庞大的数据,我们将这类有意义的数据统称为大数据。大数据需要特殊的技术,以有效地处理某时间段内的大量数据。适用于大数据的技术,包括数据挖掘电网、大规模并行处理数据库、分布式数据库、分布式文件系统、可扩展的存储系统、互联网和云计算平台。虽然大数据的优势非常显著,但也面临着一些挑战。
一、什么是数据治理?
数据治理,是指组织对数据的安全性、完整性和可用性的整体管理。
数据的安全性,则是指数据治理和分享的过程是安全可控的,这个过程不会侵犯用户隐私,不会给组织本身留下安全隐患。
数据的完整性,是指企业收集的数据本身是完整的,能够覆盖各类数据应用的需要,不会因为缺少了对某些数据的采集,而带来了数据资产的流失;
数据的可用性,是指数据本身是可用的、可信的和质量有保证的,不会因为本身的数据质量给后续的数据应用带来问题;
二、数据治理的重要性
数据治理是所有数据应用的基础和根基,同时也是一个组织进行数据资产沉淀的基础。数据是公司的资产,组织必须从中获取业务价值,最大程度地降低风险并寻求方法进一步开发和利用数据,而这一切就是数据治理需要完成的工作。数据治理可以帮助企业更早、更及时、更高效的发现数据问题,确保企业数据的质量,可用性,可集成性,安全性和易用性。数据治理成果的好坏,影响着数据应用过程中的价值体现,直接决定了一个组织的数据资产能否得到有效的沉淀,以及在数据应用过程中能否充分地发挥数据价值。
三、数据治理面临的问题
1、多业务系统多数据源的整合
随着企业业务规模的扩大,不同业务系统所产生的数据也越多。同时企业需要的业务应用数据越多,需要接入的数据源也就越多。从不同业务系统与数据源所获得数据资源格式、标准等会有所差异。将这些大量格式标准不一的数据治理成统一格式与标准规范的难度可想而知。
2、数据采集技术
公司的业务线上化,需要通过数据对用户进行分析与运营,如何精准采集可用的用户数据以及其他相关数据,都将是数据采集在技术层面上面临的挑战。
3、持续推进数据治理
数据治理应当以支撑组织战略和长远发展为目标,持续追踪数据问题并不断改进,不断吸收新的数据来源,所以数据治理工作应当自建数据治理团队,建立长效的数据改进机制。
4、不同组织部门的沟通协调
数据治理是一个组织的全局性项目,需要各个部门站在组织战略目标和组织长远发展的视角来看待数据治理、需要 IT 部门与业务部门的倾力合作和支持。因此,数据治理项目需要得到组织高层的支持,成立以组织高层牵头的虚拟项目小组。