对话智领云CEO彭锋:大数据平台如何进行云原生改造?

甲子光年
+ 关注
2022-06-02 16:47
439次阅读

对话智领云CEO彭锋:大数据平台如何进行云原生改造?

“Data Platform as a Service.”

作者 | 柚李Youli

编辑 | 赵健

智能化时代,企业如何借助数据驱动业务?如何解决企业日益增长的各种类型数据的实时化和智能化处理需求,成为不少大数据平台解决方案服务商在思考的问题。智领云就是其中一家。

智领云成立于2016年,专注于利用云原生技术将企业大数据系统各项组件容器化和服务化,帮助企业搭建数据和AI中台,轻松打造业务数据能力闭环,掌握全面、及时、更多维度的业务现状,提升数据驱动应用的迭代和发布速度;实现系统资产在同一系统中的统一管理,建立数字化运营体系,并最终完成数据驱动的数字化转型。

创始团队有着浓厚的“硅谷基因”,曾负责推特(Twitter)、Ask.com和艺电(EA)等企业内部数据平台的搭建,是硅谷最早一批从事云和大数据研究与实践的技术专家。深处技术最前线,让他们比常人更敏锐地嗅到了云原生(Cloud Native)技术、数据驱动能力在提升企业运营效率方面的商机。因此,2016年,时任Twitter大数据平台负责人的彭锋回国创业,发力如何依托云原生技术将大数据平台做成一个产品。

云原生并不是一个新的概念。简单来说,云原生是一种专门在云上(而不是传统的数据中心)构建和运行应用程序的方法论。企业的业务或应用生在云上,长在云上。据Gartner预测,到2025年,云原生平台将成为95%以上新数字化计划的基础,而2021年这个比例不到40%。因此,在接下来的几年里,云原生平台或将带来一个巨大的想象空间。

成立之初,智领云主要依托Mesos(一种开源分布式资源管理框架)作为大数据的基础。去年,Spark(一类实时计算引擎)和Kafka(一类流式处理引擎)都支持了应用更加广泛的Kubernetes(一种容器集群管理系统,简称K8s),智领云就将在Mesos上所做的云原生大数据平台全部迁移到了K8s。

近日了解到,智领云发布了国内第⼀个纯K8s在线⼤数据平台——BDOS Online,这是智领云自主研发的一款云原生Data Platform as a Service(DPaaS)产品,旨在为需要高效快速实现多源异构数据应用开发、发布、运维的企业级用户提供一个在线协同数据应用开发及运营平台。

目前,智领云已获得两轮融资。2019年4月获得线性资本数千万元pre-A轮融资;2020年7月获得由金沙江联合领投、线性资本跟投的数千万元A轮融资。

近期,「甲子光年」采访了智领云CEO彭锋,来了解下这一平台背后更多的技术与发展脉络。


提问:对大数据平台进行云原生改造,会涉及哪些难点

彭锋:第一是体系之间的冲突。原有大数据体系都有一套自己的分布式管理和内部工作通讯机制,K8s体系与其存在架构冲突。比如,K8s对有状态服务的支持还不是很完善,可供选择方案不多;现有大数据组件对于K8s原生技术栈的使用;存算分离对于Data Locality的挑战,K8s需要的是存算分离,但是大数据是把计算放到数据中,数据存在哪里,计算便存在哪里。

第二是现有组件的改造安装和使用。每个大数据组件都有自己的安装流程、系统要求、第三方库支持要求,需要使用新的运维理念对其进行安装、运维。K8s希望以类似于operator方式将一个大数据组件的整个生命周期进行自动化管理。

第三是现有业务的无缝迁移。现有大数据运行着很多以前的业务,包括ETL数据分析、数据仓建设等,不能为了使用K8s便把以前的业务应用全部重写,那就存在如何“不用重起炉灶”便将其无缝迁移到新的K8s体系上的难题。

对话智领云CEO彭锋:大数据平台如何进行云原生改造?

提问:不同组件对K8s支持版本可能不同,你们是如何对其进行统一,或者在不同版本中使用时,如何解决错位问题?

彭锋:K8s的版本更迭速度快,大数据组件的版本更迭速度相对慢一点,这容易出现两者版本更迭的错位问题。

一般来说,如果开源组件对于其它系统有依赖关系,他们一般都只会设定一两个版本来支持。比如,Spark要在Hadoop和Hive上使用,可能对Hadoop版本有要求,也对Hive版本有要求。但是,Spark支持的K8s版本可能会与Hive支持的K8s版本是有区别的。对此,我们一般需要指定一个K8s版本,再将指定的Hadoop版本、Kafka版本、Spark版本、Hive版本进行改造,将这些版本与目标K8s版本集成。在这一过程中,我们需要更改Hive、Spark、Hadoop的源代码,确保他们可以在统一K8s版本中顺利运行。一旦做好类似集成后,后面K8s版本和大数据版本的升级会相对容易。

提问:当前大家都在提“云生云长”的概念,你们“从无到有”搭建一个云原生大数据平台,主要经历哪几个阶段?

彭锋:现在大家对“云”的接受程度已经很高了,我们的客户基本上都把业务系统发布在云上,不管是私有云还是公有云,逐渐接受“上云”,但是上公有云的步伐“迈得”还不够大,对数据安全有一定顾虑。

早期,我们需要向客户解释什么叫容器?什么叫云计算?云计算的好处是什么?容器发布的好处是什么等等。大家对容器发布的复杂度、性能损耗和管理存在顾虑。而现在大部分客户都在寻找“上云”方案。甚至,如果一个解决方案不是在云上,而是使用传统集群管理方式发布,客户会有疑问:“为什么你这个不是云端发布,有什么原因吗?”

大家已经基本认可云原生的体系架构,比较大的阻碍是人才欠缺,现有系统改造存在困难。获得认可后,上云的过程可以与现有业务架构、数据架构并行进行,一些新的组件、功能发布到云上,然后系统再逐渐迁移。很多客户都采取这种方式,而非直接“一次性”上云。这种方式的好处在于弹性、高可用、容错、高效率。

提问:你们在市场推广方面是怎么做的?

彭锋:现在最主要的想法是,在云上为客户提供一个直接使用这种大数据平台的机会。以前,如果想使用大数据平台,需要购买至少十几台服务器,找专业人员安装大数据的每个组件,安装后还需要一个开发平台、运维平台,以及购买各种各样的工具,建设和使用成本、门槛和决策风险比较高。

现在,通过云原生方式可以让客户直接使用、试用、实施。这意味着,从原始数据到产生第一个数据报表,以前可能需要几个月的周期、几百万资金的投入,而现在只需要开个帐号,几天便可以看到效果。这就是我们想实施的市场推广方式,也是以后市场的必然选择。

在美国硅谷,大部分大数据厂商,比如Snowflake直接在云上做服务,Databricks也在主推云上服务平台。基本所有大数据或者相关厂商都在提供直接云上使用方式,否则别人怎么会相信这是一个云原生体系?在云上直接使用的话,产品迭代、用户使用、更新速度,都要比私有发布快得多。

未来,国内一定会逐渐往这个方向转变,目前很多新型数据库厂商也都逐渐在云上直接提供服务,这是大势所趋。

对话智领云CEO彭锋:大数据平台如何进行云原生改造?

提问:作为国内第一个K8s在线大数据平台,主要涉及哪些方面?核心优势是什么?

彭锋:BDOS Online旨在为需要高效快速实现多源异构数据应用开发、发布,运维的企业级用户提供一个在线协同数据应用开发及运营平台。

它可以提供数据采集、数据治理、数据分析、机器学习、BI报表、数据服务、数据应用发布等数据应用必需能力组件,并以数据工程的方式实现工程管理、应用共享、质量管理、代码复用等DataOps核心功能。

在应用方面,允许用户即开即用、按需付费,以最低成本高效实现和共享数据价值。同时还支持公有云及私有云发布,并可无缝迁移。

对话智领云CEO彭锋:大数据平台如何进行云原生改造?

提问:你们的云原生大数据平台,主要适用于哪些企业,或者是哪些业务?

彭锋:我们的云原生大数据平台,其实并不强调行业属性,我们提供的是基础架构服务,就像阿里云对业务应用提供技术支持,我们的在线云平台是对数据应用开发提供支持,希望客户在云上具有两种使用云原生的方式。

第一种是在公有云上直接使用,主要面对中小客户/大客户中的创新团队,这类客户的特点在于不希望自己来管理一个复杂的大数据平台,但是有数据分析需求,需要这种大数据业务开发的管理方式。比如,如果他需要门店销售预测,直接把门店销售的历史数据传送上来,直接运行门店销售预测应用,不需要再搭建完整的大数据平台。

第二种是在企业内部使用,主要面对已经有大数据平台/需要搭建大数据平台,但需要更高效的数据应用开发能力的客户,他们想要将整个开发过程统一管理,且可以与现有集群混排、一起使用,而不是业务系统一个集群,大数据再一个集群的形式。有这种内部需求的客户,实际上也是我们云原生大数据平台的目标使用场景,可以极大降低客户的集群运维、开发、使用成本。

提问:想请你介绍一下整体行业的发展现状,与其他厂商,尤其是大厂在采取路线方面的差异。

彭锋:行业内很多企业在做,但大家的区别主要在于采取的路线不一样。我们是第一个完全基于K8s的在线大数据平台,这其中涉及两点:

一是完全基于K8s搭建大数据平台。目前在硅谷已经有很多实践,趋势比较明显,但在国内,可能时机还不合适,很多厂家还在处理原来传统大数据平台问题,一些大企业试着在内部进行这一方面的尝试,但是目前并没有成型的产品。

比如阿里云的dataworks是基于自己的调度系统和体系开发的,虽然现在也在做K8s改造,把自己的调度全部移到K8s,但并不是纯K8s。

第二是像Spark、Kafka等组件都是最近才开始支持K8s,一些厂商也在尝试。比如腾讯内部也有K8s调度、大数据调度,Hadoop的HDFS改造等,但在云上还没有提供K8s大数据平台功能。华为云也在K8s与大数据上做很多工作,但所提供的大数据平台服务也是基于自己的体系。

我们更强调两个方面,第一是把所有组件都用K8s进行改造,而不是只改造一部分;第二个是在线上,不仅是私有发布能够进行K8s集成和开发,而且是可以在公有云上直接使用。

提问:目前在国内外的发展方面存在哪些区别?

彭锋:在美国,大家更激进一些。像Snowflake和Databricks直接在线上把Hadoop去掉,用云原生存储做大数据体系建设。基本上是以K8s为调度平台和运营平台,直接在线上运行自己的云原生数据流水线,提供API的采集、计算、数据整合、数据分析等,不需要处理Hadoop、Hive等传统数据仓架构,做得更彻底、更“纯云原生”。

但在国内,很多客户还是希望能够从现有的架构中进行平稳迁移,把现有的大数据组件在K8s上运行。

这也是为什么我们没有像美国的公司一样只做API集成、云上解决方案,我们要同时兼顾私有发布和公有云发布,但这两者的基础是一样的,即云原生架构。传统大数据平台的云原生改造是一个必然的趋势,对大家的整体生产效率、成本、产出都会有很大提升。

提问:刚才提到,你们之前采用的是Mesos路线,那么,现在整个路线还在进行吗?还是说以后只做K8s改造?

彭锋:目前还支持,还有很多客户在用Mesos,但接下来我们的主要精力将聚焦在K8s上。

例如,以前大家要发布一个大数据平台,需要面对不同底层硬件、操作系统的适配,而现在直接用K8s就可以解决问题。虽然现在K8s也没有做到百分之百的完美,但K8s相当于以前的Linux系统,以后所有的分布式系统都将会在K8s上运行,只要适配了K8s,基本可以做到标准化发布。因此,我们的重点肯定是放在K8s的发布和运维管理。

提问:据了解,其他很多数据平台上面的各个组件包括Hadoop等,有自己的商业公司在运作,你们与他们是什么样的关系?

彭锋:可以这样理解,比如像Cloudera,也是典型的Hadoop黏合剂,那我们的黏合剂与它不一样的地方主要体现在这几个方面。

第一个是原来的黏合剂只是基于Hadoop,比如Cloudera的系统是基于Hadoop发布,运营全部在YARN上,而现在大数据组件的Flavor问题越来越多,做联合的话很难由一家来做,并且也不是所有组件都有集成,像Cloudera就无法做Flink,这不是它自己开发的。

或者像Jupyter这种机器学习方面组件的开发、Docker的发布,都存在比较大的局限性,因为用户每次要做一件事情就需要安装一个新系统。所以我们做集成开发环境的时候,最大的问题在于要找到公分母,与公分母进行对接。以前的公分母是Hadoop,现在的公分母是K8s,所有新的大数据组件开发都要进行K8s的改造和集成,如果新的大数据组件不支持K8s,大概率没有人会使用。

第二是原来的大数据组件的K8s有很多架构上的缺陷,在做集成开发平台时很难做到真正的用户隔离和资源隔离。而在K8s基础上,所有机构的运行,不管是Hadoop,还是Hive程序、机器学习、人工智能等,全部都是基于K8s实现资源隔离,不用担心机构之间的互相影响,真正实现资源隔离。

第三是混合调度,以前Hadoop都是用YARN来调度,如果有其他运行机制应用的话,需要再单独安装服务器,而现在集成之后,所有运行的应用都是容器化,在同一个架构下很容易做到混合调度、精准计费。

第四是找到公分母之后,如果有新的大数据组件平台,因为它支持K8s,就可以直接把它对接进来,不需要单独再去做额外的开发。

本文来自微信公众号 “甲子光年”(ID:jazzyear),作者:柚李Youli,36氪经授权发布。

0
相关文章
最新文章
查看更多
关注 36氪企服点评 公众号
打开微信扫一扫
为您推送企服点评最新内容
消息通知
咨询入驻
商务合作