首页 亿信华辰大数据问答 如何创建主数据代码
我要提问
写回答

如何创建主数据代码

主数据管理 共 1 个回答
  • 强颜欢笑
    强颜欢笑

    2022-12-22

    无论您是购买工具还是决定使用自己的工具,创建主数据都有两个基本步骤:清理和标准化数据,匹配来自所有源的数据以合并重复数据。在开始清理和规范化数据之前,必须了解主数据的数据模型。作为建模过程的一部分,定义了每个属性的内容,并定义了从每个源系统到主数据模型的映射。此信息用于定义清理源数据所需的转换。
    清理数据并将其转换为主数据模型与用于填充数据仓库的提取、转换和加载(ETL)过程非常相似。如果您已经定义了ETL工具和转换,那么根据主数据的需要修改这些工具可能会更容易。以下是一些典型的数据清理函数:
    (1)规范化数据格式。让所有的电话号码看起来都一样,将地址(等等)转换成一种通用格式。
    (2)替换丢失的值。插入默认值,从地址中查找邮政编码,查找街道号码。
    (3)标准化计量单位。将所有测量值转换为公制,将价格转换为通用货币,将零件号更改为行业标准。
    (4)映射属性。分析联系人姓名字段中的名字和姓氏,将名字和姓氏移到姓名字段。
    大多数工具都会尽可能地清理数据,并将其余的放入错误表中进行手工处理。根据匹配工具的工作方式,清理后的数据将放入主表或一系列临时表中。在清理每个源时,应检查输出以确保清理过程正常工作。
    匹配主数据记录以消除重复是创建主数据中最困难也是最重要的一步。错误的匹配实际上会丢失数据(例如,两个Acme公司合并为一个),而丢失的匹配会降低维护公共列表的价值。MDM工具的匹配精度是最重要的采购标准之一。有些数据的匹配很容易做,如果您的所有客户都有社会保险号码,或者您的所有产品都使用通用的编号方案,则数据库联接将找到大多数匹配项。然而,这在现实世界中几乎不可能发生,所以匹配算法通常非常复杂和繁琐。客户可以在姓名、婚前姓名、昵称、地址、电话号码、信用卡号码等方面进行匹配,而产品则在名称、描述、零件号、规格和价格方面进行匹配。属性匹配越多,匹配越紧密,MDM系统在匹配中的可信度就越高。每次匹配都会计算置信因子,如果超过阈值,则记录匹配。阈值通常根据错误匹配的结果进行调整。例如,您可以指定,如果置信度高于95%,则记录将自动合并,如果置信度介于80%和95%之间,则数据管理员应在合并之前批准匹配。
    大多数合并工具都会将一组输入合并到主列表中,因此最好的过程是使用质量最好的数据开始列表,然后一次合并一个其他源。如果你有很多数据和很多问题,这个过程可能需要很长时间。您可能希望从合并后中获得最大收益的数据开始;使用该数据运行一个试验项目,以确保您的流程正常工作,并看到您期望的业务收益;然后在时间和资源允许的情况下,开始添加其他源。这种方法意味着你的项目将花费更长的时间,可能花费更多,但风险更低。这种方法还允许您从一些组织开始,并在项目证明成功时添加更多内容,而不是试图从一开始就让每个人都参与进来。
    将源数据合并到主列表时要考虑的另一个因素是隐私。当客户成为customer master的一部分时,其信息可能对任何可以访问customer master的应用程序可见。如果客户数据是在将其使用限制为特定应用程序的隐私策略下获取的,则可能无法将其合并到客户主数据中。您可能想在MDM计划团队中添加一名律师。
    此时,如果您的目标是生成主数据列表,那么就完成了。打印出来或烧录成CD,然后继续。如果希望在添加和更改数据时保持主数据的最新状态,则必须开发基础结构和流程来管理主数据。

您可能需要的数据产品
亿信华辰助力政企数字化转型

现在申请试用亿信华辰数据软件,马上可获得:

50+

领导驾驶舱、大屏分析等BI模板

100+

多行业数字化转型解决方案

1500+

海量工具及行业应用学习视频

立即申请试用
customer

在线咨询