可免费试用30天
已有30000+人申请
2023-03-24
中国东方航空股份有限公司(以下简称东航)是中国民航业内第一家上市公司,也是民航业首批签约加入上海数据交易所的数商。东航于2003年开发了第一个报表系统,2017年启动数据治理工作,得益于东航对信息化发展和数字化转型的高度重视,2021年东航管用结合型的数据治理模式成功入选国资企业标杆模式。
1.项目背景
近几年,东方航空已经建设了各种数据集市、数据仓库,但随着业务系统和数据量的增多,数据一致性问题和业务指标口径不一致问题日益凸显,影响了东航对海量数据的有效利用。
机场作为保障单位,对数据质量的要求非常高。首先是数据的完整性,要确保每个航班的每一个节点都能发送相应的数据。其次是数据的及时性,航班的保障时间向来争分夺秒,必须在航班保障节点发生时能够实时将数据发送出去。第三是数据的准确性,由于节点较多,可能因为人工采集和填报的过程中出现问题,导致数据保障节点前后发生错误。
2.建设内容
为加强数据管理,提升数据质量,亿信华辰帮助东航建立了数据质量智能管理系统,以元数据为基础,以基础数据标准和质量数据标准为参考依据,通过机器学习和相似度算法相结合,实现智能且精准的落标效果,并自动转换出完整的数据质量规则库,遵循PDCA模型原则,检查并整改数据质量问题,逐步提高数据质量,东航数据支撑能力和行业竞争力显著提升。
技术架构图
项目亮点:
智能质量规则库:机器学习和相似度算法相结合,建立能够表示标注数据集的语言模型,找到匹配度最高的元数据与数据标准关系并推荐落标,提升基础数据标准落标效率和标准覆盖率。自动将有落标关系的数据质量标准,转换为对应的技术质量规则,从而执行后续的质检操作。
数据质量管控:通过业务数据质量规范形成的技术质检规则,定期检查业务数据的正确性,导出质量报告或质量问题跟踪矩阵,监控错误数据整改过程,将质量评估、质量检核、质量整改等工作环节进行流程整合,形成完整的数据质量管控闭环。
4.项目价值
(1)智能算法升级落标效率
机器学习和相似度算法结合,将现有元数据和数据标准已落标的数据进行模型训练,并且结合所有数据标准的中英文名相似库,实现更加精准和智能的落标效果。
(2)完整的数据质量管控流程
通过数据质量标准所形成的规则和自定义的复杂质量检查规则,结合质量评分和质量方案预警机制,从而实现对数据的质量长期有效的实时监控,并且可结合流程进行线上、线下管理,完成问题数据整改和跟踪。