首页 行业百科 如何进行数据清洗整合?

如何进行数据清洗整合?

|亿信华辰大数据知识库2022-04-29

如何进行数据清洗整合?

当与各种数据打交道的时候,通常会发现,数据本身真的不是那么友好。在分析业务状况时,储存业务数据的表,与储存想要分析的角度表,很可能不会直接关联,而是需要通过多层关联来达到,这为分析增加了很大的复杂度

当与各种数据打交道的时候,通常会发现,数据本身真的不是那么友好。在分析业务状况时,储存业务数据的表,与储存想要分析的角度表,很可能不会直接关联,而是需要通过多层关联来达到,这为分析增加了很大的复杂度,同时因为业务数据库会接受大量用户的输入,如果业务系统没有做好足够的数据校验,就会产生一些错误数据,比如不合法的身份证号,或者不应存在的Null值,空字符串等。所以,数据清洗整合是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。
一、什么是数据清洗
数据清洗是指对“脏”数据进行对应方式的处理,脏在这里意味着数据的质量不够好,会掩盖数据的价值,更会对其后的数据分析带来不同程度的影响。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。其目的就是从以上大量的、结构复杂、杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据和数据结构。清洗后、保存下来真正有价值、有条理的数据,为后面做数据分析减少分析障碍。
二、如何进行数据清洗
1、缺失值清洗
1)确定缺失值范围:对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略;
2)去除不需要的字段;
3)填充缺失内容:以同一指标的计算结果(均值、中位数、众数等)填充缺失值;
以不同指标的计算结果填充缺失值;以业务知识或经验推测填充缺失值;
4)重新取数:如果某些指标非常重要又缺失率高,那就需要和取数人员或业务人员了解,是否有其他渠道可以取到相关数据。
2、格式内容清洗
如果数据是由系统日志而来,那么通常在格式和内容方面,会与元数据的描述一致。而如果数据是由人工收集或用户填写而来,则有很大可能性在格式和内容上存在一些问题:内容中有不该存在的字符;内容与该字段应有内容不符;时间、日期、数值、全半角等显示格式不一致。
3、逻辑错误清洗
这部分的工作是去掉一些使用简单逻辑推理就可以直接发现问题的数据,防止分析结果走偏。
1)去重:去除重复数据;
2)去除不合理值:对于不合理的值,要么删掉,要么按缺失值处理;
3)修正矛盾内容:有些字段是可以互相验证的,需要根据字段的数据来源,来判定哪个字段提供的信息更为可靠,去除或重构不可靠的字段。
4、非需求数据清洗
简而言之,就是把不要的字段删了。但是在实际操作中,如果数据量没有大到不删字段就没办法处理的程度,那么能不删的字段尽量不删。
5、关联性验证

如果你的数据有多个来源,那么有必要进行关联性验证。例如,你有汽车的线下购买信息,也有电话客服问卷信息,两者通过姓名和手机号关联,那么要看一下,同一个人线下登记的车辆信息和线上问卷问出来的车辆信息是不是同一辆,如果不是(别笑,业务流程设计不好是有可能出现这种问题的!),那么需要调整或去除数据。

三、好用的数据清洗工具推荐
睿治数据治理平台融合数据集成、数据交换、实时计算存储、元数据管理、数据标准管理、数据质量管理、主数据管理、数据资产管理、数据安全管理、数据生命周期管理十大产品模块,打通数据治理各个环节,十大产品模块可独立或任意组合使用,快速满足政府、企业各类不同的数据治理场景。
其中,数据集成管理可实现跨部门数据的传输、加载、清洗、转换和整合,支持自定义调度和图形化监控,实现统一调度、统一监控,满足运维可视化需求,提高运维管理工作效率。
认为本内容有帮助
0
您可能需要的数据产品
亿信华辰助力政企数字化转型
customer

在线咨询