大数据时代数据库的进化

大数据
后台-插件-广告管理-内容页头部广告(手机)

大数据时代信创拉动大数据平台和分布式数据库需求。

作者 | 鲁立

现任浙商资管基金经理助理,国防科技大学硕士研究生,曾担任全球存储信息技术公司研发负责人,曾任职于海通证券、信达证券,擅长国产化,智能制造、大数据等新兴科技领域研究和个股挖掘。

大数据时代数据库需求变化:

大数据时代数据处理的类型在不断的发生变化,其中一个变化便是由结构化数据向非结构化数据转变,从而带来了非关系型非结构化数据库的兴起。 上个世纪数据库主要任务是处理以结构化为主的数据类型,有着标准的数据格式与长度规范,比如以Excel等表格结构的关系型数据存储和管理方式。21世纪以来,可见的互联网技术、云计算和音视频技术的快速发展,产生了大量的办公文档、XML、HTML、图片和音频、视频信息等非结构化数据,相应的处理需求也在快速增加,关系型数据库在非结构化数据的处理分析和读写性能的瓶颈逐渐凸显。

非关系型数据库针对不同场景需求,采用不同的数据存储模型,更好的满足了多种类型数据的处理需求。两种数据库在数据完整性、扩展性、读写可用性、产品成熟性和架构灵活性等方面各有侧重,其适用的场景也有所不同,具体来看:

1. 关系型数据库:关系型数据库是建立在二维表的集合。每个表有唯一的名字,表的每一行代表了一组值之间的联系,表的每一列是对实体属性的描述,要求存储 值的类型相同。一方面,关系型数据库在数据读取、写入等基础操作性能稳定, 另一方面,其可以存储和处理的数据类型较为单一。

2. 非关系型(NoSQL)数据库:非关系型数据库没有严格的数据规范,可根据需要灵活存储方式。目前主流的非关系型存储模型包括键值对存储、宽列式存储、 文档型存储和图形存储等。由于非关系型数据库不要求数据的强一致性,其可覆盖的应用场景更加广泛。  

表:数据库从关系型向非关系型演进

 

资料来源,浙商资管整理

从大数据软件行业结构来看,大数据基础软件一般包括大数据基础平台、数据库、数据中间件和数据科学平台等,这些平台能提供信息系统的基础能力,对多种场景、多种来源、多种类型数据进行有效的采集、存储、管理并提供相关开发平台和工具,统一管理业务中所需要的数据。而大数据管理平台就包括大数据基础平台和分布式/并行关系型数据库,其中大数据管理平台包含关系型分析引擎、宽表数据库、文档数据库、图数据库、时序数据库、消息队列、分布式文件系统等相关功能单元软件,另外数据库包括分布式关系型数据库和大规模并行处理并行处理(MPP)数据库。 

图:关系型数据库和非关系型(NoSQL)数据库的对比

 

资料来源:艾瑞咨询,浙商资管整理

云原生数据库行业发展繁荣,创新产品种类繁多:

  • Snowflake属于云原生数据库,云上数仓平台,利用符合ANSI标准的SQL引擎使核心架构能够再公有云上运行,可提供分布式大规模并行处理 群集节点(同时本部存储),具有处理高效、可拓展、性价比高、安全性高等特性,提供与数据云交互的Web(GUI) 图形用户界面、基于Python的CLI命令行客户端、广泛的连接器和驱动程序以及第三方插件、自动加密等数据安 全保护实施等。
  • Cloudera:属于云原生数据库,混合数据平台,旨在提供云上更快、更简单的数据管理和数据分析,并具有优化的性能、可扩展性和安全性。 产品利用混合数据平台跨越多云和内部部署,在整个数据生命周期(数据分发、数据工程、数据仓库、交易数据、流数据、数据科学和机器学习)中提供云原生数据分析,并提供可跨基础架构移植的一致体验,并能提供 便捷的数据迁移。
  • MongoDB:属于分布式数据库,基于分布式文件存储的 NoSQL 数据库,为 WEB 应用提供可扩展的高性能数据存储解决方案;使用 BSON等文档类型的对象存储,字段值可以包含其他文档,数组及文档数组,并支持相应的查询语言;可实现类似关系型数据库单表查询的大部分功能,且支持对数据建立索引;适用于数据量大、读写操作频繁、数 据价值较低、对事务要求不高的场景。
  • 阿里巴巴PolarDB:云数据库,阿里巴巴自主研发的下一代关系型分布式云原生数据库,目前兼容三种数据库引擎:MySQL、PostgreSQL、 高度兼容Oracle语法。计算能力最高可扩展至1000核以上,存储容量最高可达 100T。 PolarDB融合了商业数据库稳定、可靠、高性能的特征,同时具有开源数据库简单、可扩展、高速迭代的优势,适合各个行业公司的创新业务使用,满足用户上云成本、OLTP 性能、业务连续性、在线业务扩展、数据安全等业务需求。
  • 华为云FusionInsight:属于分布式大数据平台产品,支持批处理、微批处理、实时处理等业务需求,主 要包括MRS服务、 GaussDB数据仓库、GES 图引擎、DGC数据湖治理组件等,其中数据残酷GaussDB可提供湖仓一体、单集群480节点,装机20PB超大规模的分布式部署。 数据湖治理组件DGC提供一站式元数据管理、数据标签管理、数据质量管理、数据安全管理等,支持批量数据迁移、实时数据集成和数据库实时同步,支持20+异构数据源。

表:2020-2021年国内云原生大数据技术产品

 

资料来源:广发证券

总体来看,互联网、公共部门、金融三大领域对大数据处理和分析的需求较高。从分行业需求来看,互联网应用中产生的多源、海量数据的处理需求占比较大。此外,在公共部门、金融等领域数字化转型升级过程中,围绕数据存储、计算和运维的需求快速增长,用户对数据平台等软件产品采购预算增加的趋势逐渐明确。另一方面,公共部门、金融等行业基于对数据安全考虑,对于IT基础设施公有云部署的接受度较低。 所以从中短期来看,公共部门、金融、工业、医疗等国内企业客户对数据库和数据平台产品的部署方式仍以私有云或本地化的方式为主。

信创大数据需求推动分布式数据库发展

国产替代直接拉动国产数据库需求。国产自主可控信创最初可以追溯到上世纪863计划和2000年后的核高基项目,近年随着2020年政府电子公文的推进,数据库作为国产替代的核心产品出现在了大众的视野中。整个政府电子公文项目在2022年上半年收官,预计下一步进入政府下沉部门和八大行业国产化替代的阶段。国产数据库产品华为高斯、达梦、金仓、星环等产品已经从起步的“能用”阶段发展到逐步“好用”的阶段。目前党政、金融、电信、石油、电力、交通等行业出台的相关政策,将全面带动其他行业国产替代。根据Gartner数据,2021年全球数据库市场规模约800亿美元,2021年中国数据库市场规模为291.7亿元,占全球比重为5.2%。

图:国产数据库发展和替代时间图

 

资料来源:虚谷公司&华泰证券研究所,浙商资管整理

数据要素重视度提升是大数据平台的机会

在国家促进要素市场化配置系列政策指导下,各地方政府及有关单位积极探索推进数据要素价值体系建立、数据要素市场规则构建以及数据要素市场化配置改革等工作,数据要素具有各类别数据要素的采集、存储、加工、流通、分析的相关特性。围绕产业发展、技术应用、流通实践等层面总结了我国数据要素市场发展态势,据国家工信安全中心测算数据,2021年我国数据要素市场规模达到815亿元,从环节上来看,数据分析、数据交易、数据加工和数据存储占有其中最大的产值规模,而数据分析、数据加工和数据存储都与大数据平台、数据库和存储设备紧密相关,例如通过机器学习、深度学习的数据智能分析工具和数据采集、数据整合、数据治理的数据应用中间件以及数据存储查询的大数据基础平台和分布式并行关系行数据库。

图:国内大数据行业市场分布

 

资料来源:浙商资管整理

国内市场足够支撑国产大数据和数据库发展

国内国产替代市场是一个系统的生态,包括软硬件IT产品,其中PC整机、服务器、操作系统、数据库以及应用软件等是主要的替代目标,以国内政府部委和区县公务员以及央企国企事业单位等工作人员的数量作为参考,未来国产替代至少是一个千亿级以上的市场。而数据库的部署和服务器市场规模相关,根据服务器不同行业占比,重点行业信创数据库静态市场规模为43亿元,假设数据库同步服务器每年10%左右增速,预计2025年信创数据库市场规模在50-60亿元。另外国内已经有相当大的市场支撑大数据平台基础设施的良性发展,如果考虑大数据预处理、管理、分析、挖掘等软件产品的市场空间,用户对于大数据软件采购预算增加的趋势明确,预计19-24年大数据软件市场规模CAGR为27.5%,高于大数据整体市场规模增速,到24年产业规模将达到492亿元

图:中国大数据及大数据软件市场规模

 

资料来源:浙商资管整理

各行业对于数据库需求旺盛

金融行业数仓和风险管理要求高

金融行业对于数据库系统的安全性、稳定性要求极高,随着类似互联网的业务渗透,自身对于分布式企业数仓、数据湖、数据集市、非结构化数据管理的平台的需求提升,分布式数据库也开始了代替传统集中式数据库比如Oracle的进程。同时对采用了全新的技术栈的分布式数据库业务系统有需求的还包括客户营销管理系统,其中客户关系管理系统和客户行为分析系统较为突出,另外贷前贷中风险控制、反欺诈检测以及交易监管系统、反洗钱系统都有大数据系统的需求。分布式数据库的开发模式不同于集中式数据库,在实现一些集中式数据库下的高级场景时需要实现一个逐步匹配的过程,预计国产分布式数据库在国内关键部门应用会占有主导地位。

政府行业有政务大数据和数据流通的需求

政府行业长期致力于改善政府服务,其中一网通办、政务大数据中心、疫情防控、精准救治等都是大数据平台能够广泛应用的场景,从大数据采集的方面来看,政府主导城市运营,一网通管、治安、消防和应急管理等都有大数据的爆发式增长,而作为智慧城市的主导者,政府数据覆盖了市场监管、税务、审计、海关、住建、交通、环保、电力能源等众多领域的数据。 所以政府部门理所当然成为了数据供应方、数据交易机构和数据需求三方的监管者,而国产化的大数据平台和大数据数据库是推动中国数据要素市场化流通模式的重要保障。

电信行业有精准营销和数据交流的需求

电信行业属于较早使用大数据平台的行业,主要原因是电信领域主业的支撑很多是基于大数据平爱的应用,比如上网日志查询、历史账单查询、IP溯源、电信诈骗分析和预警等。 同时电信运营商在 业务的差异化发展中 ,对于B/M域经营分析、流量分析与预测、网络优化和互联网数据分析等本身就是运营商自身的核心竞争力。所以电信对于大数据平台的采用较早,也较为依赖,随着政府和各行业大数据的一体化发展,电信运营商也面临这数据安全合规以及流通的问题,同时随着信创国产化需求,原本基于开源软件建立的一些大数据平台面临着国产大数据平台的替代和升级,也为国产大数据平台和分布式数据库产品带来了机会。

表:其他行业需要大数据平台和数据库的领域

 

资料来源:浙商资管整理

免责声明

本文所采用的数据均来自合法、合规渠道,分析逻辑基于作者的职业理解,通过合理判断得出结论,研究过程及结论不受任何第三方的授意或影响。在任何情况下,文中的信息或所表达的意见并不构成买卖个股或基金的建议依据,特此声明。

欢迎关注同名公众号:大类资产日记

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。