睿治

智能数据治理平台

睿治作为国内功能最全的数据治理产品之一,入选IDC企业数据治理实施部署指南。同时,在IDC发布的《中国数据治理市场份额,2022》报告中,蝉联数据治理解决方案市场份额第一。

大变局:国产数据库的机遇与挑战

时间:2022-03-31来源:你忘了带我走浏览数:133

就在本月,乌克兰副总理兼数字化转型部长Mykhailo Fedorov在推特上晒出了两封信,希望其终止与俄罗斯的商业关系。Oracle随后发推文称:“为了Oracle在全球各地的150000名员工的利益,为了支持乌克兰民选政府和乌克兰人民,Oracle公司已经暂停了在俄罗斯联邦的所有业务。”

俄罗斯的遭遇给了中国很大警示,在当前国际贸易摩擦加剧、国际局势多变的情况下,数据库软件作为最重要的IT基础设施之一,中国必须实现国产化和自主可控,由此也引发了近年来国产数据库的创业投资浪潮。

作者丨王圆珍

核心结论汇总

(1)数据库行业云化趋势显著,所有数据库都可直接上云,云原生架构最具优势。Gartner预计,到2021年,云数据库在整个数据库市场中的占比将首次达到50%;而到2023年,75%的数据库要跑在云平台之上。

(2)国产数据库存在广泛替代空间。目前,国产数据库主要应用还是在党政军领域。国产数据库长期被Oracle、MySQL这类产品挤压,随着中美贸易战的升级、国家鼓励软件国产化,国产软件将会越来越被重视,这将是一大转变契机。

(3)我国公有云、私有云、混合云将长期共存,云数据库作为基础性产品,需要支持跨云、多云、混合云。初创厂商具备云中立优势,可以避免客户被过度绑定,提供多云支持,拉动客户增长;很多公司并未采用单一的云厂商,他们的大多数业务都运行在混合环境和多云环境中。

(4)湖仓一体成为发展热点。「湖仓一体」是一种新型开放式架构,将数据湖极低成本存储大量数据和数据仓库高性能进行大量数据处理的优势充分结合,通过一套架构、一个集群、一份数据,真正消除数据孤岛。

(5)大数据与数据库一体化趋势明显。用户可直接用SQL处理海量数据对厂商有以下需求:1.内核引擎强劲,一定性价比对外输出海量数据分析处理能力;2.生态工具要完善。

(6)场景端时效性要求倒逼数据库厂商提升产品性能,产品性能持续领先是决胜要素之一。产品硬核实力及成熟度是决定营收规模及增长的主要因素。

(7)分布式数据库快速发展。分布式数据库物理上更贴近业务部门,可以降低通信成本;同时增加数据的适当冗余,因为一个地方出了故障不会引起整个系统崩溃。

(8)智能化运维助力数据库智能调优。启发式机器学习技术给予海量运行数据形成智能运维模型,自动化处理各项任务,例如自动管理计算与存储资源、自动防范恶意访问与攻击、主动实现数据库智能调优。

(9)开源策略成为部分厂商吸引用户、盘活生态和促进技术发展的重要手段。通过将底层技术开源,可以吸引更多人开发、测试、维护,不仅可以降低厂商售后和服务的成本,还可以进一步提高软件质量,同时有利于构建生态。

(10)One size cannot fit all。虽然混合事务分析HTAP在中等规模客户的应用已成为热点研究方向。但HTAP价值在于更加简单通用,对于中等数据量规模用户可满足需求,对于超大型企业数据分析性能可能不如OLAP。

(11)更多利用硬件发展红利是必然趋势。计算需要GPU加速,存储方面持久存储(NVM)代替硬盘存储,需要重新设计架构利用特性;存算分离执行路径变长,数据库需采用高性能网络等。

(12)其他:OLAP和NoSQL将是主要的创业和投资方向。在国产数据库的OLTP领域,华为、阿里、腾讯等厂商有技术优势和资金优势,同时也有生态和渠道的优势,创业公司进入OLTP领域门槛非常高,而在 OLAP领域,建立新一代数据仓库以及NoSQL数据库方面,未来会涌现更多的创业公司,这块可能是很多投资机构接下来要重点关注的方向。

市场环境

1. 数据库的定义及边界

数据库管理系统是各类信息系统不可或缺的基础性平台,主要任务是对数据的归集、分类、组织、处理、存储、分析、应用的全生命周期提供共性技术支撑。

数据库大致可以由内核组件集外部组件集共同组成,其中外部组件集以数据库配套的独立支撑软件为主,例如数据库驱动。内核组件集则一般可以分为管理、网络、计算存储四大模块。

(1)存储组件:负责数据持久化存储的组件,对数据库的日志、索引、堆数据等内容进行管理;

(2)计算组件:又可以称为协调组件、服务组件,负责响应数据库访问请求,并将SQL语言解析成为数据库对应的内部任务。计算组件在分布式、集群等架构下也承接大部分的计算任务,例如排序、联接等;

(3)管理组件:公共组件部分,用于对数据库全生命状态的管理,例如心跳管理、集群管理等,以及各类中心化任务承接,如死锁仲裁、存储映射管理、元数据管理、事务号管理等;

(4)网络组件:管理整个数据库管理系统的网络通讯的组件。数据库的网络通讯有内部和外部之分。内部一般指在集群环境或者分布式环境下的各节点之间的高速数据交换。外部一般指的是各个数据库通过对外访问协议与存在于客户端的驱动进行互联的网络交换;

(5)驱动组件:支撑数据库能正常提供服务的配套独立组件,数据库管理系统基于其通用特性,往往可以对不同语言开发的软件提供数据服务。但是由于数据库本身只对外提供网络通讯协议,对协议的封装则由客户端侧的不同驱动组件完成。通常有支持JAVA 语言的JDBC 接口、支持C 语言的ODBC 接口和C-API 接口等。


2. 行业常见名词释义

(1)关系型数据库:采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。关系模型可以简单理解为二维表格模型,而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织。

(2)非关系型数据库:对于NoSQL并没有一个明确的范围和定义,一个共同的特点都是去掉关系数据库的关系型特性。

(3)数据湖:是一个集中式的存储,允许以任意规模存储结构化和非结构化数据。可以存储原始数据,而不需要先转化为结构化数据,基于数据湖之上可以运行多种类型的分析。

(4)数据仓库:是处理过后的结构化或者半结构化数据,更加靠近数据的消费端。

(5)湖仓一体:使用一套技术去实现数据湖和数据仓库的能力,类似多模的概念。

3. 行业历史及阶段

数据库发展经历萌芽-商业化起步-发展成熟阶段。

(1)萌芽阶段:1960年,GE发布IDS数据库系统(Integrated DataBase System),制定网状模型语言标准,1969年,IMS数据库系统(Information Mangement System)发布,使用层次模型。解决了数据集中和共享问题,用户在对两种数据库进行存取时,需要指出存储方法和路径,易用性较差,没有应用起来。

(2)商业化起步:1970年-1980年,关系模型提出,关系型数据库System R被开发出来,与之相适配的结构化查询语言SQL。70年代末,关系型数据库在Oracle和DB2中得到发展和商业化,SQL不关注获取数据的具体过程,把用户从数据操作细节中解脱出来,只描述想要的数据即可,成为关系型数据库得以成功的关键。

(3)发展成熟(1980-1990):主要表现为 1、数据库生态逐步完善,与程序设计语言、软件工程、信息系统设计等技术互相影响;2、开源数据库发展,当前2大开源数据库系统——MySQL和PostgreSQL诞生。3、OLAP开始发展。早期数据库处理在线交易业务,被称为OLTP(On-Line Transaction Processing);业务数据积累,OLAP出现(On-Line Analytical Processing);4、数仓概念(Data Warehouse)提出。单机难以应对爆发数据增长,分布式技术走上舞台。

(4)云数据库时代(1990-):云计算的发展带动各类基础软件开始云化转型,云原生数据库天然具备云上的弹性、灵活性、高可用等特点,实现了存储和计算完全解耦,作为服务整体交付,节约了用户管理基础架构所需的成本、时间和资源,能够提供丰富的产品体系,经济高效的部署方式、按需付费的支付模式。

数据库的云化经历了2个阶段:一是云托管,将原有数据库系统部署在云平台,将数据库服务化,按需购买,用户自行负责整个数据库系统的可用性、安全性和性能,有自己的IT运维团队,有自己的数据库管理团队,能力要求高,人力成本投入大;二是云原生,利用云化的资源池特点完全重构数据库的层次结构,使计算、存储、网络等资源彻底解耦,更充分灵活利用资源池的弹性。后一阶段对数据库的改造更为彻底。

云原生数据库的特点:

a. 存算分离,计算层解析SQL,并转为物理执行计划,存储层负责数据缓存与事务处理;资源解耦与池化,目前进展是CPU和内存绑在一起,和SSD持久化存储分开。下一步随着非易失性存储和RDMA技术的成熟,会将CPU和内存隔离,内存再进行池化,三层池化有利于客户按需取用;

b. 执行引擎的完全弹性,云原生架构,下层是分布式共享存储,上层是分布式共享计算,中间用于计算存储解耦,提供弹性能力;

c. 高可用与数据一致性,可用性是指集群的部分节点发生故障时,系统可以在正常响应时间内对外提供服务;一致性是指更新操作完成后,各个节点可以同时看到数据的最新版本,分布式系统存在网络分区,需要在一致性和可用性之间做出权衡;

d. 多租户与资源隔离,传统做法是一租户一数据库系统,或者多租户共享同一个数据库系统,运维管理复杂,避免某个租户“吃掉”系统资源,云原生场景下,数据库可以为不同的租户绑定相应的计算和存储节点实现资源隔离;

e. 智能化运维,比如自定义备份策略、自动在线升级修复BUG,监控自定义报警灯。

以AP为例,OLAP从最早的数据库一体机,逐渐演变到MPP数据库和Hadoop数据库,再到云原生架构的数据库,数据库一体机价格非常昂贵。最新一代为云原生,具备检具扩展、存算分离、弹性扩容等特点。

4.市场需求及价值

(1)数据库分类-按应用方向

按应用方向不同,关系型数据库又可分为交易型数据库(OLTP)和分析型数据库(OLAP):交易型数据库主要面对与企业业务数据相关性强的事务场景,例如银行转账,电子商务等,涉及高并发数据的“增、删、改、查”;分析型数据库对来自交易型数据库和其他数据源的历史数据进行大批查询,应用在海量、复杂数据环境下为企业决策提供数据分析。

(2)数据库分类-按数据组织形式

按照数据组织形式,数据库可以分为关系型和非关系型(NoSQL)数据库。

关系型数据库的核心是数据表(行、列数据)、表内结构和表间关系。非关系型是一种新型的数据结构化存储方法的集合,适用于各种非结构化、半结构化数据,能够很好地满足海量数据的高并发读写需求。典型的NoSQL数据库包括键值数据库,列存储数据库、文档型数据库、图数据库,其中,根据DB-engines排名,以图数据库受欢迎度最高。

部分非关系型模型示意图:

图数据库(GDB-Graph Database),是一个使用图结构进行语义查询的数据库,它使用节点、边和属性来表示和存储数据。 目前主流的图数据库选择的图模型是属性图。属性图由点、边、标签和属性组成。

关于图数据库的实例:

图数据库直观表示关系,对于高度互联数据非常有用(数据量越大,越复杂的关联,优势明显)。

应用场景来看,图数据库还是针对用大量数据并且需要多维处理或者多层渗透的环节,因此金融、电商、社交等领域中使用比较多,且场景的针对性较强。

社交领域:Facebook, Twitter,Linkedin用它来管理社交关系,实现好友推荐;

零售领域:eBay,沃尔玛使用它实现商品实时推荐,给买家更好的购物体验;

金融领域:摩根大通,花旗和瑞银等银行在用图数据库做风控处理;

汽车制造领域:沃尔沃,戴姆勒和丰田等顶级汽车制造商依靠图数据库推动创新制造解决方案;

电信领域:Verizon, Orange和AT&T 等电信公司依靠图数据库来管理网络,控制访问并支持客户360;

酒店领域:万豪和雅高酒店等顶级酒店公司依使用图数据库来管理复杂且快速变化的库存。

图数据库一大想象空间来源于与AI的结合。图数据库的数据存储模型其实特别适合机器学习计算,因此,不少人会直接选择直接在图数据库上跑机器学习算法。近年来,随着深度学习的兴起,有了在图数据库上做图神经网络(GNN)的案例。

5. 市场规模及增速

(1)全球市场规模及增速

Gartner报告显示,2020年全球数据库市场规模为648亿美元,占基础软件支出最大构成。未来,数据库市场的规模还将继续增长,预计到2024年,全球数据库市场规模将达到1000亿美元。

云数据库是未来趋势:云原生数据库正在成为一种重要的数据库新形态,根据Gartner数据,2020年云数据库已占据整体数据库市场份额的40%,且贡献了增长市场的9成以上份额,据Gartner预测,到2023年75%的数据库会被直接部署或者向云上迁移,营收数据将占据数据库整体市场的半数以上。

Gartner对数据库细分市场的规模统计,2020年关系型数据库全球市场规模为531亿美元,占比83.3%。

根据Gartner,2020年非关系型数据库市场增速34.5%,关系型数据库市场增速15.2%。全球非关系型数据库(NoSQL)在 2020~2022年市场增速30%左右,远高于数据库市场整体增速。

(2)中国市场规模及增速

数据规模爆炸性增长,数据应用快速深化,叠加网信产业的快速发展和新基建的深度布局,我国数据库产业进入重大发展机遇期。据中国信通院测算,2020年中国数据库市场规模约241亿元。预计到2025年,中国数据库市场规模将达688亿元,年复合增长率为23.4%。

我国数据库市场规模在全球占比约5.2%,而同期我国IT支出在全球占比约12%。

2020年我国数据库市场规模在国内IT支出占比约0.9%,而全球这一比例则达1.9%。两组数据都表明,我国数据库市场增长潜力巨大。

伴随云计算底层设施成熟,云端数据库市场份额迅速扩大。中国信通院报告显示,2020年我国公有云数据库市场规模为107.68亿元,占我国数据库规模45%,未来5年复合增长率36.1%,预计到2025年公有云数据库市场规模将超过500亿元。

中国关系型数据库规模为31亿美元,占比76%。由此可见,关系型数据库在国内外无疑都是数据库中的绝对主流。

6. 市场增长的驱动因素

互联网大规模商用,加速数据的产生、流通和融合,海量数据规模和复杂数据结构驱动数据库市场稳定增长。IDC和Ovum 预计2024 年全球数据总量和流量将分别保持4 年CAGR 28.1%和27.6%的强劲速度,更大的数据量级对数据库的扩容、性能、功能提出了新的需求。

此外,人工智能、机器学习、语义分析、图像识别等技术则需要大量的非结构化数据来开展工作,NoSql存在发展机遇。根据IDC 数据,非结构化数据占整体数据量比重高达80%以上,这意味着绝大部分非结构化数据的价值还未被充分发掘。

企业上云趋势明显,数据库成为连接IaaS到应用的关键环节。数据显示,在过去十年,企业上云的意愿从3%上升到了84%;2020年我国已经应用云计算的企业占比达到72.1%,较2019年上升了6%。伴随着企业上云进程的不断深入,企业上云从资源上云逐步进入到应用上云,数据库作为PaaS层产品,成为关键环节。

政策利好本土厂商,「信创」风口,国产数据库的新机遇。2020-2022 三年时间,信创产业进入好用阶段,将在党政军和八大核心行业(金融、电信、能源、电力、医疗、教育、交通、公共事业)铺开。云数据库厂商、本土数据库厂商份额持续增长,国际数据库品牌份额下降。

信创指硬件和软件的一系列信息化创新技术,可理解为数字基建,是新基建最底层的一环,主要包括核心芯片、基础硬件、操作系统、中间件和数据服务器等领域。信创产业是数据安全、网络安全的基础,也是「新基建」的重要内容,将成为拉动经济发展的重要抓手之一。

从信息基础设施国产化程度来看,目前国内重要信息系统、关键基础设施中使用的核心信息技术产品和关键服务大多依赖国外。例如中美贸易战,Oracle停止美国敌对国家的数据库服务后,导致数据库功能缺失,促使数据库加快国产替代。

产业链与行业格局

1. 产业链及行业图谱

数据库与芯片、操作系统并列为全球技术三大件,也是企业IT系统必不可少的核心技术。在数据库软件产业链中,上游多是以服务器厂商、芯片厂商组成的网络和硬件厂商;中游由数据库、操作系统和中间件等基础软件厂商组成;下游主要是各行业的应用开发商。

数据库管理系统在企业数据流管理体系中处于核心位置。业务行为相关的数据首先在不同的操作型数据库中进行事务处理OLTP,然后通过ETL工具(提取、转换、加载)汇聚整合成面向主题的、全局的一致数据集合,存储在业务数据临时存储系统ODS中。ODS的数据再次通过ETL工具转换集成为结构化数据进入企业统一的数据仓库。数仓数据针对某个特定主题分类,进入到从属型数据集市。根据企业需要,基于操作型数据库、数据仓库和数据集市也能够构建企业数据湖,存储着包括原始数据、转换数据在内的各种结构化、半结构化、非结构化数据,实现数据的集中式管理。经过汇总后的数据通过OLAP 操作分析处理,并通过BI 工具以体系化、可视化的方式直接呈现在决策者面前,为业务提供数据支撑。

2. 行业集中度

从全球范围来看,微软、Oracle、亚马逊为前三大厂商,占据全球市场接近70%市场份额。2020年微软同比增长超17%,规模首次超过Oracle,主要来自于云数据库的增长。

国内:海外巨头占据市场主要份额,云化和国产替代趋势下海外厂商份额不断下降。2020年国外厂商仍占据我国数据库市场80%以上份额,并已形成较为完善的数据库生态,国产替代安全自主可控下的国产数据库在未来将有很大的市场空间。

国市场分应用来看,OLTP仍是国外厂商占据最大市场份额,OLAP和非关系型数据库中国厂商具备一定商业基础分行业来看,金融、电信、政府、制造、交通五大行业占据数据库服务市场份额超80%。各行业的数据库服务市场份额比例分别为金融22.3%、电信18.9%、政府16.4%、制造13.3%、交通9.6%(中国信通院统计)。

公有云数据库部分,云厂商份额超70%2020年,阿里云、腾讯云、华为云等公有云数据库约占国内市场份额75.5%。以电商、游戏、短视频等为主营业务的互联网公司是线上数据库的服务对象。


3. 竞争分析

整体竞争格局


目前我国本土数据库企业类型主要分为四大类,分别是传统厂商、跨界厂商、云厂商以及初创厂商。国内市场主要参与者为海外巨头(Oracle、Microsoft、AWS 等),国内公有云厂商(阿里云、腾讯云);跨界厂商主要是设备商(华为、中兴通讯);以及新兴数据库厂商。其中,初创厂商主要是最新一代的面向云原生架构的数据库,架构优势更为明显。


4. 行业的决胜要素

数据库公司的发展遵循内核-外壳-生态的主要路径:内核组件和底层能力为基础,外部组件为支撑,生态为商业化及产品迭代重要路径。

内核层面:底层能力+性能表现为基础。

底层代码积累与产品迭代需要与具体业务场景深度融合。国内厂商诞生之初就面对Oracle 的激烈竞争,难以拥有接触客户核心业务场景的机会,目前国家要求金融行业全替换,也是针对办公系统的数据库全替换,在业务系统层面更多的是在小业务系统上做实验,现在去谈核心业务系统的数据库国产化还为时尚早。阿里、腾讯的数据库产品之所以能够成为国内代表,依靠的是与自身电商、支付、社交等核心业务场景的不断打磨,而其他数据库公司之前难以拥有这样的机会。因此,厂商要先争取拿到小业务系统的备份系统机会。

大厂拼综合实力,创业公司拼技术,创业公司胜出的要素是产品过硬。数据库云化是关于部署形态、架构形态的问题,但是对底层技术能力的掌握和提升仍然重要。数据库包括数据库内核、分布式组件和接口驱动,SQL引擎、事务引擎和存储引擎,是否支持多副本、分布式事务、高性能、扩展能力、故障恢复、优化器、多活容灾、语法兼容等核心技术。

数据库性能优势也是要素之一。AP场景天然有很多复杂的用户查询,具体到SQL语句上就是大量的多表连接、复杂的表达式计算、多层嵌套的子查询、聚合函数等等,这些对引擎的查询优化能力要求门槛极高。数据分析型基准测试(TPC-H)是公认的衡量数据库数据分析能力的权威标准之一,因此TPC-H测试结果也被作为数据库性能的衡量标准之一。

外壳层面,大数据与数据库一体化趋势明显,需要完善外部组件部分:自研或兼容主流生态组件,完善产品力为进一步发展支撑。

大数据生态中的组件罗列:

生态重要性凸显

国产数据库公司发展的战略重点在生态扩展。做数据库一定要有一个生态,自从X86替换小型机,DB2的市场份额逐渐下降;软硬件分离的趋势,导致Intel、微软的操作系统得以普遍应用,在此生态下才有Oracle、MySQL发展壮大的机会。不同客户核心架构系统不同,存在不同程度的定制化开发诉求。数据库作为基础软件,需要完成芯片、服务器、操作系统、中间件的适配工作,集成商、二次开发商、IT 咨询公司都是数据库厂商生态伙伴体系中的重要参与者,自建生态难度较大,兼容生态为主要选择。生态伙伴赋能企业在快速实现业务扩张的同时最大程度减少成本增长,使得企业能将有限的人员和资金投入到核心技术和核心产品。合作伙伴生态是Oracle早期占领中国市场的核心要素之一,早期Oracle中国区90%以上收入来自2000多个合作伙伴。

(部分内容来源网络,如有侵权请联系删除)
立即申请数据分析/数据治理产品免费试用 我要试用
customer

在线咨询