- 产品
- 产品解决方案
- 行业解决方案
- 案例
- 数据资产入表
- 赋能中心
- 伙伴
- 关于
时间:2022-06-01来源:飞刀剑浏览数:97次
企业级数据平台难以满足生产系统数据应用需求,生产系统就没有动力将自身数据和应用迁入数据平台,进而数据平台的数据质量和可用性越来越差。同时,还导致生产系统和各个大数据平台的数据重复采集、重复存储,且相互之间数据访问技术和管理壁垒严重,建设和维护成本大幅提高。
与传统的数据架构要求整合、面向主题、固定分层等特点不同,数据湖为企业全员独立参与数据运营和应用创新提供了极大的灵活性,并可优先确保数据的低时延、高质量和高可用,给运营商数据架构优化提供了很好的参考思路。
01 运营商数据管理的现状及挑战
从数据的系统归属上看,运营商数据可分为MSS(管理支撑系统)的面向人、财、物管理类数据,BSS(业务支撑系统)的面向客户和产品的营销及客户服务数据,OSS(运营支撑系统)的面向产品和网络的功能及运营服务数据,三者之间既相对松耦合,又有着紧密的协作关系,BSS和OSS的衔接点主要在产品及开通、排障服务,MSS和BSS、OSS的衔接点主要在参与人和资源。从数据分类来看,运营商的数据可分为作为企业核心的功能类实体数据、表示企业所有运营过程的活动类数据、体现内外部客户感知并围绕两大主线所产生的感知类指标数据以及与管理相关的人、财、物及流程数据。电信运营商数据范围示例如图1所示。
企业级数据平台难以满足生产系统数据应用需求,生产系统就没有动力将自身数据和应用迁入数据平台,进而数据平台的数据质量和可用性越来越差。同时,还导致生产系统和各个大数据平台的数据重复采集、重复存储,且相互之间数据访问技术和管理壁垒严重,建设和维护成本大幅提高。
02 数据湖方案的价值及可行性分析数据湖推崇存储原生数据,对不同结构的数据统一存储,使不同数据有一致的存储方式,在使用时方便连接,真正解决数据集成问题。数据湖的本质是一种数据管理的思路,利用低成本技术来捕捉、提炼和探索大规模、长期的原始数据存储的方法与技术。数据湖可存储任何种类的数据,高质量、高效率地存储数据,更快速、更廉价地处理数据,将建模应用问题丢给最终开发者[9]。数据湖的方案应用可以带来如下几个显著的好处规模大、成本低全企业海量数据统一存储,采用开源技术,基于低成本硬件资源,建立和维护成本相比数据仓库低一个数量级。数据“原汁原味”数据湖以原始形式保存数据,并在整个数据生命周期捕获对数据和上下文语义的更改,尤其便于进行合规性和内部审计。如果数据经历了转换、聚合和更新,将很难在需求出现时将数据拼凑在一起,而且几乎没有希望确定清晰出处。数据方便易用结构化、非结构化、半结构化的数据都是原样加载和存储,以后再进行转换,开发和保存成本低,产生和使用之间时延小。客户、供应商和数据运营者不需要数据拥有者提供太多帮助即可整合数据,消除了数据共享的内部政治或技术障碍。应用按需建模数据湖提供数据给灵活的、面向任务的结构化应用,详细的业务需求和艰苦的数据建模都不是数据湖的先决条件。数据湖给予最终用户最大的灵活度来处理数据,对于同一份原始数据,不同的用户可能有不同的理解。目前,大部分运营商采用传统的以数据为中心的处理架构(存储计算一体化,如主流MPP、Hive和分布式计算厂商产品),好处是计算效率高、技术成熟,缺点也很明显,如灵活性不足,使得数据应用适用于少数人,这也制约了原生数据提供者向平台提供的积极性,进而导致数据的质量、数据的全面性都得不到很好的保障。引入数据湖概念的一个显著特点就是存储和计算松耦合,可采用以计算为中心的处理模式(存储与计算分离,如Spark技术及AWS、阿里云等云服务提供商产品),使得运营商可以更加专注于数据的存储和管理,存储和计算不用相互制约,从而优先确保数据的高质量、低时延、高可用,并为数据应用的快速构建提供了极大的灵活性。数据湖按照成熟度可划分为4个阶段:第一个阶段,应用程序独立建设,部分应用将数据提供给数据仓库,基于数据仓库构建分析应用;第二个阶段,数据湖和数据仓库并存,应用程序向数据湖提供副本数据,基于数据湖开发分析型应用,数据仓库和应用也可从数据湖提取数据;第三个阶段,新系统以数据湖为中心构建,应用通过数据湖交互彼此数据,数据湖成为数据架构的核心,数据仓库基于数据湖提供特定的应用需求,数据治理变得重要;第四个阶段,所有新的应用均基于数据湖构建,数据湖成为弹性的分布式平台,数据的治理和安全需持续加强,支撑企业的数据运营和分析能力。电信运营商目前普遍处于第二个阶段向第三个阶段演进的过程中,在构建数据技术方案方面具备较好的基础条件。
03 电信运营商数据湖架构调整现有分析型数据平台建设思路,将其数据与应用解耦,引入数据湖概念,强调原生数据入湖,并与全网生产系统模型和主数据标准化协同推进,兼顾层次化的传统数据架构和扁平化的数据湖架构的优点,SchemaonRead和SchemaonWrite并存,统一支撑企业实时、准实时和离线数据应用快速创新,是电信运营商实现以数据为中心IT架构转型的有效途径。数据湖作为运营商数据存储和访问的唯一出口,成为所有IT系统共享的基础设施,统一存储全企业IT和网络数据,通过开放架构支撑智慧运营,并可作为IT系统集约化演进的纽带。数据统一存储统一存储MSS、BSS、OSS及网元平台的实时、历史、在线、离线数据,全网的原生数据只存储一份在逻辑统一的分布式数据湖内,原生数据与生产系统数据模型标准和主数据一致,新IT系统/网元平台的生产数据直接使用数据湖存储。数据统一管理所有入湖数据的目录、元数据、数据应用及数据质量、数据标准、数据安全必须统一管理。数据模型标准和主数据动态维护,数据质量集中治理,原生系统的数据问题溯源处理,生产系统建设者全程参与数据管理,责任权利保持一致。数据统一标准生产系统管理部门负责31省市系统模型和主数据的标准化;数据湖统一管理生产系统的数据模型及主数据;暂未进行标准化的生产系统数据模型,由对应系统的管理部门负责数据模型的转换和运营,协调推进生产系统数据标准进程。数据近源采集提供数据统一采集、实时订阅分发框架,支撑实时/准实时数据、离线数据的采集。各网元/平台数据采集能力以组件方式纳入数据湖,分专业采集、预处理加工,海量实时数可靠近网络近源部署前置采集模块。非网络类数据(如BSS、MSS、OSS流程等),初期以副本采集方式汇聚入湖,远期直接以服务交互方式入湖。数据与应用分离数据应用环境与数据存储环境分离,按应用计算的网络带宽需要就近部署。提供统一的服务化访问、小批量数据订阅、数据分析计算云平台环境。基于云平台环境,应用开发者可自行整合数据、构建应用,数据存储、数据整合、平台组件、数据应用间相互解耦,建设的进程不会相互制约。同时,建立全生命周期数据目录,统一标识各项数据,完善数据治理机制,管理数据湖数据的生产加工流程,对各项数据生成和使用过程进行跟踪记录,支撑数据的应用和溯源,是数据湖方案顺利实施的关键要素。并且还需要加强数据标准的全生命周期流程以及数据标准的元数据及数据质量问题收集、自动稽核、问题溯源、影响分析及跟踪处理等数据管理能力。可以采用爬虫的方式生成数据目录,在不影响数据所有者或用户的情况下自动生成,
决定数据湖能否顺利实施的因素有很多,包括数据湖涵盖哪些数据及如何分区存储、数据湖如何分布式部署、纷繁复杂的现有IT系统数据如何入湖、数据和应用能否分离、数据湖与现有各类数据平台的演进关系等。当然,更重要的是数据管理思维的转变,这是一切的基础。
04 电信运营商数据湖实施的要点
针对运营商数据湖的实施,提出如下4个方面的关键要点及建议。要点1:数据湖分区数据湖逻辑上可划分为生产数据区、原生数据区、整合数据区、汇总数据区4个大的存储区域。数据湖的应用可基于PaaS平台按需使用各个区的数据,4个区的数据目录、元数据、数据加工处理流程及数据应用需要统一管理、维护和治理。生产数据区M/B/O系统生产数据的存储区域,涵盖实时交易型数据、实时/准实时网络采集数据等,可以是关系型和非关系型混搭的存储结构,各生产系统需要进行架构优化,数据与应用分层解耦,将数据存入生产数据区。原生数据区将各系统的生产数据直接写入数据湖原生数据区,以非关系型数据格式存储生产系统数据,方便各数据应用使用,生产数据和原生数据模型标准、主数据一致。原生数据区涵盖企业的任何内容,无限接近企业各系统、部门的敏感信息。供数据湖科学家和技术人员访问使用。整合数据区存储按照数据分析需求建模加工后的公用数据。模型从生产/原生数据模型派生而来,被业务和IT部门熟知,可供企业各种应用程序使用。原生数据区中依然有很多数据或属性没有被真正理解,并未完全包含在这个数据区的模型中。汇总数据区存储按需求分析汇总的结果数据,一般可存储在关系型数据存储内,便于数据服务的快速加载呈现。数据湖生产数据区和原生数据区作为最重要的数据分区,是数据湖内数据整合和汇总的源头数据,数据质量必须得到保障。另外,数据湖虽不鼓励应用特定模型,但也可划分特定数据区给私有应用使用,提供快速构建数据应用的途径,这些应用获取数据湖数据且具有数据处理能力,数据湖构建初期,可将已有业务应用数据导入数据湖特定数据区中。电信运营商数据湖数据分区示例如图4所示。
下一篇:智能制造工厂规划方案...