可免费试用30天
已有30000+人申请
全程“零”编码,高效实现主数据模型、主数据维护、主数据分发、主数据质量的全过程管理,为企业主数据管理落地提供有效支撑,实现各业务系统间的主数据共享,保障企业主数据的唯一性、准确性、一致性。
覆盖数据建模、采集、处理、集成、共享、交换、安全脱敏于一体,一站式解决数据开发所有的问题。
统一指标定义,实现“一变多变、一数多现”的数据管理效果,为企业提供强有力的数字化保障和驱动效应。
零代码+AI,有“问”必答的数字助理,利用AI大模型和数字人技术,通过语音&文字输入问题,自动识别业务指令,深度理解用户意图的问题,洞察数据,人机交互,重新定义BI新体验。
2023-01-12
尽管数据质量控制可以在很大程度上起到控制和预防不良数据发生的作用,但事实上,再严格的质量控制也无法做到 100%的数据问题防治,甚至过于严格的数据质量控制还会引起其他数据问题。因此,企业需要不时进行主动的数据清理和补救措施,以纠正现有的数据问题。
1、清理重复数据
对经数据质量检核检查出的重复数据进行人工或自动处理,处理的方法有删除或合并。例如:对于两条完全相同的重复记录,删除其中一条;如果重复的记录不完全相同,则将两条记录合并为一条,或者只保留相对完整、准确的那条。
2、清理派生数据
派生数据是由其他数据派生出来的数据,例如:“利润率”就是在“利润”的基础上计算得出的,它就是派生数据。而一般情况下,存储派生出的数据是多余的,不仅会增加存储和维护成本,而且会增大数据出错的风险。如果由于某种原因,利润率的计算方式发生了变化,那么必须重新计算该值,这就会增加发生错误的机会。因此,需要对派生数据进行清理,可以存储其相关算法和公式,而不是结果。
3、缺失值处理
处理缺失值的策略是对缺失值进行插补修复,有两种方式:人工插补和自动插补。对于“小数据”的数据缺失值,一般采用人工插补的方式,例如主数据的完整性治理。而对于大数据的数据缺失值问题,一般采用自动插补的方式进行修复。自动插补主要有三种方式:
● 利用上下文插值修复;
● 采用平均值、最大值或最小值修复;
● 采用默认值修复。
当然,最为有效的方法是采用相近或相似数值进行插补,例如利用机器学习算法找到相似值进行插补修复。
4、异常值处理
异常值处理的核心是找到异常值。异常值的检测方法有很多,大多要用到以下机器学习技术:
● 基于统计的异常检测;
● 基于距离的异常检测;
● 基于密度的异常检测;
● 基于聚类的异常检测。
现在申请试用亿信华辰数据软件,马上可获得:
领导驾驶舱、大屏分析等BI模板
多行业数字化转型解决方案
海量工具及行业应用学习视频