分久必合？数据库进入“超”融合时代

爱分析ifenxi

+ 关注

2022-11-01 17:47

571次阅读

分久必合？数据库进入“超”融合时代

回顾历史，数据库的发展经历了从单一到多元的变化。

上世纪60年代，网状和层状数据库揭开了数据库系统发展的帷幕；1970年，来自IBM实验室的Edgar F. Codd发表了《大型共享数据库数据的关系模型》论文，提出基于集合论和谓词逻辑的关系模型，为关系型数据库技术奠定了理论基础。之后关系型数据库快速发展，并为整个数据库生态培育了坚实肥沃的发展土壤。

1993年，Codd进一步提出联机分析处理（OLAP）的概念，分析型数据库的概念也由此正式诞生，关系型数据库逐渐分化成为事务型、分析型两大类。

进入21世纪，互联网蓬勃发展，数据量爆炸式增长、数据类型也极大丰富。关系型数据库逐步遇到发展瓶颈，如容量有限、在高并发下读写性能低、不适合海量半结构和非结构化数据，等等。因此，一线互联网公司开始破旧立新。谷歌在2003至2004年公布了关于GFS、MapReduce和BigTable的三篇技术论文，极具里程碑意义。其中GFS和MapReduce奠定了分布式数据系统的基础，Hadoop由此应运而生，并快速发展成熟。以Hadoop为基石的大数据生态圈，主导了二十一世纪第一个十年的技术潮流。

而谷歌BigTable与亚马逊的DynamoDB的推出，开启了大数据技术的另一个重要分支NoSQL，并出现了针对不同数据类型的NoSQL数据库，如键值数据库、文档数据库、图数据库、时序数据库等。这些专用数据库很好地解决了针对特定数据类型和应用场景的数据存储和处理问题，迎来了快速发展。

至此，数据库行业进入百家争鸣的时代。

数字化转型时代，数据库开启融合新篇章

技术不断发展迭代的背后，更本质的是不断演变的需求。数据规模、数据类型、业务场景、总体拥有成本等因素的改变，都驱动着数据库技术和形态的进化。当前，人类社会已经从以人为核心的互联网时代，迈进了万物智联的数字化转型时代，而作为承载数据的基石 —— 数据库系统也酝酿着新一轮的变化。

数字化转型时代，数据在各行各业间的分布发生了显著变化。传统行业积极拥抱数字化转型，创造和拥有更大规模的数据，并将数据作为关键的生产要素之一，驱动业务的经营分析和决策。他们逐渐成为数据库行业的“关键用户”。

一方面，与互联网企业相比，传统行业用户的技术能力和对数据基础设施的投入都相对有限，特别是在技术引入的初期，因此，要求数据库具备更低的技术门槛、更便捷的使用体验和更低的建设成本。

另一方面，传统行业的业务复杂度更高，生产流程长、环节多，拥有庞大的实体资产，供应链上下游的协作依赖更深。因此，传统企业面临的数据应用场景也非常多元，如BI报表、实时决策、基于机器学习的预测性分析等；同时，数据体量和多样性也在快速增长，尤其是随着物联网应用的落地，像时序、GIS、图像、视频、文本等新兴数据类型大规模涌现。

为了满足上述多元化的数据处理与分析需求，企业通常需要分别建立一系列独立的系统。以一个典型制造企业的系统建设为例，MES、ERP等业务系统都会对应一套独立的关系型数据库；面向IoT数据处理则会建设一套专用的时序数据库；如果有图数据分析等更多数据场景，还会叠加更多的专用数据库；而为了实现数据挖掘，又会建设一套大数据系统……如此叠床架屋，一层套一层。复杂的数据平台架构给企业带来高企的成本和一系列麻烦：面对多种技术和产品，选型工作繁重；开发和运维多套系统，复杂度攀升，人员和IT基础设施成本激增；数据多处分布，导致数据孤岛和数据质量问题，整体运行效率低，稳定性差等等。

如何解决这些新时代的挑战？将多种数据库的能力进行融合，让数据库变得更加“全能”且“易用”，从而降低数据库技术栈复杂度和技术门槛，是最直接的解决方案。数据库和大数据厂商纷纷尝试多种技术融合的路径，在近十年数据库的创新融合趋势中，最典型的融合体现包括：NewSQL、HTAP、湖仓一体。

NewSQL：OLTP+大数据的融合。NewSQL将传统关系型数据库与分布式架构融合成，支持SQL、ACID以及弹性伸缩。最早的NewSQL数据库Cloud Spanner由Google于2012年内部发布，以MemSQL、ScaleDB为代表。
HTAP：混合事务分析数据库，OLTP+OLAP的融合。HTAP的概念由Gartner于2014年提出，通过行列存储、大规模并行处理技术、资源隔离等核心技术实现同时满足事务类、分析类的业务需求，以Azure SQL、TiDB为代表。
湖仓一体：OLAP+大数据的融合。湖仓一体由Databricks于2020年提出，充分融合数据湖和数据仓库的优势，构建可以存储结构化数据、半结构数据和非结构化数据的数据湖能力的同时，又继承了数据仓库的数据处理和管理功能，实现数据和计算在湖和仓之间自由流动。

可以看出，无论从需求侧还是从技术侧来看，数据库都进入了融合发展的新时代。需求侧在经历了“量”的跨越式增长后，迎来“质”的变化，对数据库的形态、体验和成本都提出了新需求；而技术侧也紧贴需求，不断推陈出新，尝试新的突破。整个行业在螺旋式上升，那么数据库融合发展的下一个阶段，将走向何方？

我们看到，市场中已经出现一种更为彻底的数据库融合形态——超融合数据库，不仅支持多类型数据（关系型、时序、GIS、文档型、图型、键值型等）的统一建模和存储，也支持对多类型数据进行统一的查询和分析操作。除了能以同样的方式将各类数据写入，也能通过同样的方式读取分析这些数据，在使用体验上也实现了融合一致。同时，作为企业级产品，超融合数据库还需要满足各场景下的性能要求。

可以认为，超融合数据库，是指在统一平台下、在全量全域数据范畴内，实现：多模数据融通+ 基于SQL等通用语言的全场景查询分析+高性能与易用性。

多模数据融通：超融合数据库首先会支持多种数据类型，包括：关系型数据、时序数据、GIS数据、JSON数据、图数据、文本数据等主要数据类型，并且在一套数据库内对多模数据的统一管理、查询与跨模态互通，实现数据在库内的归集、融通与整合分析。
基于SQL的全场景查询分析：SQL语言作为最为经典的数据查询语言，其易用性和普及度有目共睹。历史上也有过放弃SQL的技术路线，但最终又都纷纷回归。历史证明，SQL是数据分析与查询的全球共识语言，也是保障平民化与普适性的基石。基于SQL，超融合数据库应该尽可能多的支持各类场景下的查询分析能力，如针对时序数据的窗口查询及聚合查询等，多表间的Join查询等，甚至需要支持AI机器模型的训练。
高性能与易用性：性能保障是一切功能特性的先决条件。超融合数据库需要提供足够的性能和可靠性保障，以应对超大规模容量、超高压力写入、各类数据接入场景、实时近实时分析查询的带来的业务挑战。同时，能够提供统一的监控、告警、自动化运维及可视化UI，大幅度减轻日常部署运维的作业强度。

代表厂商YMatrix的超融合数据库实践

用一个强大的“超融合数据库”一站式解决多种问题，是一种理想状态。一个普遍的质疑是：一款数据库如何既做到对多种数据类型和应用场景的融合，又做到媲美专用数据库的优秀性能？只有在真实业务场景下的落地实践，才能证明其可行性。

在超融合数据库的实践方面，YMatrix无疑是目前市场上最具代表性的一家厂商。为了探讨超融合数据库的发展趋势和实践进展，近期，爱分析对YMatrix进行了调研，并对YMatrix创始人&CEO姚延栋先生进行了访谈。

YMatrix成立于2020年8月，至今已经获得总规模超亿元的四轮融资，投资方包括晨山资本、顺义产业基金、某头部云厂商、东方富海、中科创星、清华启迪等。YMatrix的团队在数据库内核引擎开发方面拥有深厚的积累，创始人&CEO姚延栋曾担任Greenplum北京研发中心总经理，历经10年从0到1组建Greenplum中国研发团队，并带领团队将Greenplum打造为世界前列的数据库。

基于对数据库融合的技术趋势，以及物联网时代时序数据爆发的坚定判断，YMatrix在成立伊始就锚定了超融合数据库方向，并选择先从时序数据库切入。

2021年7月，YMatrix发布了超融合时序数据库MatrixDB4.0。经过持续打磨，YMatrix于今年10月26日正式发布了升级版的超融合数据库YMatrix5.0，该版本的迭代重心在“超融合”层面，并实现了一系列性能和易用性的优化。其内置高性能微内核数据引擎，实现了对关系型数据、时序数据、JSON数据、键值数据、GIS数据、文本数据的广泛支持，并在数据操作层面支持以标准SQL实现跨数据模型的写入、建模、联合查询以及机器学习等。

基于这些特性，YMatrix超融合数据库的适用场景广泛，尤其适用于OLAP和时序数据处理的场景，如工厂数据基座、智能网联汽车、物联设备智能运营、实时数据仓库等。目前，YMatrix已经服务宁德时代、三一重工、理想汽车、小米、比亚迪等多家大型企业，验证了其产品和服务能力。

以YMatrix服务国内新能源巨头的案例为例。该企业原有数据平台架构较为复杂，包括承载业务分析数据Greenplum数仓集群、承载时序数据的MySQL + Greenplum，以及Hadoop大数据平台等。这些系统普遍存在功能和性能层面的不足，且整套体系开发成本高、运维复杂，无法支撑该企业长期发展对数据管理的承载力、效率、成本和易用性的要求。

为了解决上述问题，该企业基于YMatrix替换原有集群搭建了制造大数据平台，承载传统业务的关系型数据，优化了性能，并承载时序数据，补全了时序场景分析能力；基于YMatrix搭建了分支工厂的独立数仓平台，构建总部（云）和工厂（边）协同架构，有效降低了集团集群的负载；此外，以YMatrix架构替代了Spark及MySQL集群，承载售后大数据分析系统，大幅简化了系统架构，提升了性能。借助YMatrix的架构升级，该企业获得了以下收益：

整体上提升了性能，为应对业务量大规模扩张奠定基础。
基于YMatrix超融合数据库对多模数据综合分析需求的支持，能够服务该企业未来5-10年的潜在需求，避免不必要的架构调整和投资浪费。
数据管理成本获得有效控制，集群规模节省超30%，且节约了对新产品、新架构的学习成本。
基于YMatrix提供的大量图形化及自动化的运维能力，以及系统架构的精简，大幅提升了使用体验，降低了运维复杂度。

通过YMatrix的实践可以看到，超融合数据库正在从一种概念设想转变为真正的落地应用。随着技术的持续迭代，以及应用场景的扩展和渗透，未来，超融合数据有望在数据库市场中占据越来越大的份额，成为企业数据基础架构的重要选择。

以下是本次爱分析对姚延栋先生访谈内容的精选。

爱分析：您如何理解超融合数据库？为什么选择这个方向创业？

姚延栋：我们观察到，最近这10年数据库领域出现了明显的融合趋势，如NewSQL、HTAP、Lakehouse等，都是某种融合的体现，这是一个融合的时代。

那么，未来数据库的融合趋势会如何演进？我判断未来是一个超融合的趋势，并在2020年就提出了“超融合”这个概念，这里的超融合是指实现“OLTP+OLAP+大数据”三者的融合。

为什么我觉得超融合一定是数据库的未来？以手机为例，在智能手机出现前，功能手机只能接听电话，拍照、听音乐则需要用照相机、MP3。随着智能手机的出现，这些单一功能在智能手机这个平台上实现了融合。这个例子背后反映的是技术从简单到复杂，再到升维后简化的客观发展规律，数据库技术的发展也必然符合这样的规律。

从客户需求的角度，也能进一步验证超融合这个趋势。实际上，客户需求也是我们创业的出发点。具体来讲，做数据库是一件长期的事情，单产品研发就可能耗费3-5年的时间，所以我们创业需要首先判断未来时代发展的大机会在哪里。

显然，未来的时代是物联网+数智化转型的时代，而这个时代的用户主体是广泛的传统企业。当前传统企业数据库体系复杂，建设和维护需要大量的人力、时间和资金成本，相较之下，购买能够直接解决大部分场景需求的超融合数据库产品，性价比更高。我们预见，未来企业对超融合数据库产品有强需求，而超融合数据库也将以更具竞争力的成本优势、更快的速度和更好的创新方式赋能各行各业。

爱分析：YMatrix创立之初，为什么选择以时序数据库作为超融合数据库的切入点？

姚延栋：上面提到，我们的第一个判断是未来将会是万物互联和企业数智化转型的时代。在这个时代，最大的新变量就是时序数据，并且时序数据将快速增长成为主体数据。那么从产品端，我们该如何支持时序数据？

对此，我们做了第二个判断：时序的主要场景是分析，分析的主体数据是时序，针对时序数据的分析功能一定要做。这就是为什么我们没有做诸如InfluxDB这类性能显著，但不具分析功能的时序数据库产品，最终选择面向分析场景的Greenplum的分布式架构，并采用关系型数据库PostgreSQL作为核心引擎研发超融合时序数据库。当然，还有一个额外的显而易见的优势，就是我们的创始团队具有10年以上Greenplum研发经验。

爱分析：YMatrix的数据库产品目前实现了怎样的“超融合”？从技术上是如何实现的？

姚延栋：YMatrix采用了一种创新的技术架构，我们称为“多微内核开放架构”。就像CPU有多个核一样，现在数据库也可以是“多核”的。每个内核由不同的存储引擎和执行器组成，而这些都是针对场景优化过的。比如我们专门针对时序场景的微内核，其中包括自研的MARS2时序存储引擎，以及经过向量化优化的执行器。目前我们提供三种微内核，分别面向TP、AP及时序场景，里面有很多专项的优化，也有一些复用的部分。基于这种架构可以让我们非常方便的进行场景扩展，比如未来针对某类新兴数据类型，我们只需要是针对新的场景研发一款新的微内核，而不是从头到尾再重新研发一整套数据库，效率将大幅提升。

爱分析：与专用数据库相比，超融合数据库为了做到功能上的融合，是否会牺牲性能上的表现？

姚延栋：不会，性能也是我们产品一直在打磨的方向。本次发布的5.0版对性能进行了全面优化，实现时序场景的写入及查询、单表查询、多表关联分析、机器学习以及OLTP等全场景处理性能的跨越式提升。

每个场景我们都有真实的测试数据作为证明：

在时序场景的写入能力上，YMatrix5.0在真实的生产场景中写入速度可达1.52亿数据点/秒。而通常一个工厂的数据点大概在10万点以内，1.52亿是工厂场景规模的1500倍；

在时序场景的查询性能上，对比时序数据库独角兽TimescaledDB耗时是YMatrix的5.1倍；

在单表查询性能上，SSB基准测试结果表明YMatrix超融合数据库比ClickHouse快27%；

在多表关联分析性能上，对比MPP数据库主流厂商Greenplum，YMatrix实现了数倍的性能提升；

在机器学习场景性能上，YMatrix库内机器学习性能相比Spark提升了8倍；

在OLTP场景下，TPC-B国际标准测试结果表明，YMatrix超融合数据库主键查询TPS高达160万，而绝大多数低于TPS5万的水准。

爱分析：目前YMatrix的商业化应用场景有哪些？服务了哪些客户？

姚延栋：YMatrix超融合数据库的应用广泛，尤其适用OLAP和时序数据处理的场景，如车联网、智能制造、智慧能源、智慧交通、智慧城市等领域，可应用于工厂数据基座、智能网联汽车、物联设备智能运营、实时数据仓库等场景。目前YMatrix已经服务了宁德时代、比亚迪、三一重工、理想汽车、小米等多家大型企业。

另外，YMatrix还非常适合有“选择困难症”的客户。客户经常由于业务变化出现数据库新需求，比如时序数据库、分析型数据库或是湖仓一体等。YMatrix支持时序场景、分析型场景，能根据客户需求灵活应用。而且未来如果客户数据体量迅速扩增到更高级别比如10PB，而客户基于成本考虑不想再购买新数据库时，就可以使用YMatrix仓下建湖的能力，在架构底层搭建S3和HDFS进行海量数据存储。所以客户如果面向当下场景有数据库选型困难的问题，面向未来业务场景有需求变化的风险，那么用YMatrix做起步是最合适的方案。

爱分析：在数据库融合趋势下，市场上也有很多厂商推出了“多模数据库”。YMatrix超融合数据库与多模数据库的区别是什么？

姚延栋：市场中提的“多种模式”实际上是指多种数据类型，并没有多个存储模型或者数据模型。多模数据库实现的是多数据类型的存储，但当应用时，多种数据类型会出现存储空间占用高、协同速度慢以及查询难优化等问题，缺失操作层面的融合。多模数据库和YMatrix超融合数据库的区别是多模实现的只是YMatrix的底层存储层，YMatrix还实现了上层数据操作层面的融合，支持基于SQL的全场景查询分析和机器学习建模分析。

爱分析：怎么看未来超融合数据库的发展前景？

姚延栋：我认为，未来所有的数据库都会尝试往融合方向发展，因为专用数据库只有做到在单场景下性能比通用数据库快10倍，才能有生存空间。预计到2025年左右，超融合数据库就会成为主流。

YMatrix超融合数据库由于继承了数据库领域中优秀产品的成功经验，性能比多数专用数据库优良，对比之下，一些专用数据库厂商还需要在数据库领域多积累经验，持续吸收学习后才能在数据库领域占据一席之地。

爱分析：下一步，YMatrix在产品研发和商业化等方面有哪些规划？

后续，我们会在已经存在海量需求的时序场景深耕，尝试替代传统数据库和专用类产品。数据量大、指标量多的车联网、智能制造、智慧能源、智慧城市、智慧园区、智慧医疗等场景会是重要的方向。这些场景所产生的业务需求，将最大化体现超融合产品的价值。