编者按:本文来自微信公众号“爱分析ifenxi”(ID:ifenxicom),36氪经授权发布。
报告编委
报告指导人
张扬爱分析联合创始人&首席分析师
报告执笔人
李喆爱分析合伙人&首席分析师
冯伟爱分析分析师
外部专家(按姓氏笔划排序)
刘辰京东智联云副总裁
刘汪根星环科技联合创始人&研发总监
张玮安畅网络CTO
库依楠SmartXCMO&战略合作总监
苗权观脉科技CTO
报告摘要
近年来,云计算的实践者从最初的互联网科技行业,正逐步向金融、公共事业、零售、生产制造等传统行业渗透。同时,随着产业数字化的推进,企业中也产生了不同的业务形态。
在这一过程中,无论是单一的公有云,还是单一的私有云、虚拟机都逐渐难以满足企业需求,许多企业的IT架构正在逐步从单一的物理机、虚拟机逐步走向多云、混合云、分布式边缘云并存的局面。在这样的背景下,云计算产业生态呈现多元化、多层次发展的趋势。
因此,如何将云计算生态中的不同元素进行深度整合,形成能够稳定、安全、高效、灵活地支撑多形态业务的混合云、边缘云平台解决方案,已经成为企业上云的主要课题。
本报告将阐述混合云和分布式边缘云诞生的背后逻辑,分析它们在实践过程中面临的挑战,并提出应对这些挑战的最佳方案。此外,本报告还将对未来云计算的发展趋势进行判断,从而帮助企业更好地对未来的业务创新进行提前布局。
目录
一. 企业级云计算形态向混合云与边缘云演进
二. 混合云的实践路径选择与面临挑战
三. 混合云基础设施平台建设
四. 多云架构的云原生技术中台建设与应用交付
五. 哪些云计算新趋势将为企业创造更多价值?
结语
关于爱分析
法律声明
1.1 企业数字化转型驱动业务上云
随着中国企业数字化进程的进一步推进,云计算技术的实践者逐步从新兴的互联网行业拓宽到金融、零售、政府、能源、电信、交通、制造业、医疗、教育等传统行业,从而进一步带动了云计算应用场景的不断进化,这又反过来推动了云计算的技术、产品与服务形态不断演进。
在企业数字化转型过程中,云计算能够为企业降低成本、提升效益,为企业业务创新、AI等新兴技术的应用创新提供有力支撑,还能够通过虚拟化技术降低其对硬件设备的要求来提升基础设施自主可控水平,在整个企业数字化转型过程中居于基础设施地位。
为了适应企业的业务创新、技术创新带来的敏捷性需求,同时满足企业在效率、成本、安全等方面的需求,云计算的形态从最初的公有云、私有云,逐步发展出混合云与分布式边缘云等多种云计算形态。
1.2 多重因素驱动云计算形态演进
爱分析认为,在云计算形态演进过程中发挥推动作用的三大因素是:扩容成本、扩容效率、数据存储安全性,它们影响云计算形态演进的逻辑如下图所示。
基于在不同业务场景下,企业对于降低成本、提升效率、提升安全三方面的需求强弱差异,云计算出现了从基于公有云、私有云的单一云形态,向以混合云、分布式边缘云为主的多云形态的演进。
1.3 面向双模IT,公有云与私有云优势各异
众所周知,云计算技术的先行者亚马逊aws最早定义的云计算模式,就是依托于数据中心资源,通过互联网基础设施,为企业提供集中化、共享式的服务器资源租用,这也就是公有云的服务模式,但它在实践中被证明更加适合互联网科技型企业的需求。
而当云计算逐步进入到金融、政府、电信、能源、交通、制造业、医疗、教育等传统行业时,公有云的服务模式逐渐难以满足企业需求,在企业数或第三方数据中心内部建设私有云成为必然选择。
这种差异的驱动因素是不同类型的企业的业务对于扩容成本、扩容效率、数据存储安全性三方面需求的差异,其中前两者的需求可以归结为弹性需求,如下图所示。
因此,我们看到的以往状况是互联网和创新型企业更多地会采用公有云,传统型企业更多地会采用私有云。这种企业之间、业务之间的需求差异性,使得过去公有云和私有云之间的关联较少,很少需要进行紧密配合。
但是,随着企业数字化进程的深入和业务模式的创新,传统型、创新型企业的应用场景出现了拓展和融合。在这种背景下,公有云与私有云的优势和特性可能是越来越多的企业希望同时享有的。
1.4IT成本优化诉求之下,混合云已成大势所趋
随着企业数字化转型的深入,传统型企业、互联网和创新型企业的业务需求都发生了变化:
以上传统型企业、互联网创新型企业的两种业务边界拓展方式,使得原来他们与私有云、公有云的紧密绑定关系被打破,由公有云、私有云共同提供服务成为越来越明显的趋势。在这种背景下,混合云的应用空间大大扩展了。
因此,探索能够融合公有云、私有云两种云形态优势的混合云架构,同时实现良好的协同管理,成为未来企业级云计算的必然趋势。正如全球基础云架构方案商VMware所定义,混合云(Hybird Cloud)主要指公有云和私有云协同工作的应用方式,以及任意的能够通过办公场所内和场外的工作协同来提供云计算服务的解决方案组合。
未来,中国的混合云市场将有极大的发展动力与潜力,而率先应用混合云的企业在相当长的时间内将代表企业数字化转型的最先进力量,在企业效能的竞争中将占据领先地位。
1.5 万物互联时代背景下,分布式边缘云方兴未艾
在传统多云架构中,无论是多公有云、多私有云还是混合云,数据处理能力都是集中式的,即大部分数据都统一汇集到这些云平台中进行处理。
但是随着万物互联时代的来临,企业的云计算应用场景发生了明显的变化,来自企业边缘侧的高数据密度、时延敏感的应用场景明显增加,比如面向互联网企业的音视频加速需求的内容分发网络(CDN)、工业互联网的工业设备数据、智慧安防中的安防摄像头数据、智慧交通中的路况和车辆数据的采集、处理和分析等等。
面对这类对于网络效率的要求较高的应用场景,集中式云的计算、存储扩容能力逐渐产生瓶颈,迫切要求云厂商和企业将计算能力下沉到网络边缘侧,实现中心节点与边缘节点的职能分化,构建“分布式边缘云”,并进一步对中心节点、边缘节点进行深度协同以实现成本优化。
在后文中,我们将边缘计算系统中担负中心节点计算能力的云称为“中心云”,将担负边缘节点计算能力的云称为“边缘云”。
边缘云根据位置的不同,又可分为近场边缘云和现场边缘云两大类,近场边缘云强调高可靠性的基础云服务能力,多采用OpenStack架构,而现场边缘云强调超强的弹性、快速的启停速度和高并行计算能力,多采用Docker和Kubernetes架构。
总体来看,分布式边缘云产生和发展的驱动因素在于网络响应效率和扩容成本两方面:
1)网络响应效率: 在分布式边缘云架构中,采集到的数据可以首先在边缘节点进行初步的处理再上传到中心节点进行AI模型训练,训练完毕的模型被下放到边缘节点,基于持续产生的数据进行模型的推理和优化,从而避免了因大量数据的网络传输和集中式计算存储带来的网络性能瓶颈,提升了网络响应效率。
2)扩容成本: 计算、存储能力下沉到边缘之后,中心云的资源扩容压力以及带来的成本被大大减轻。
02
混合云的实践路径选择与面临挑战
当企业选择实行混合云战略,需要选择良好的实践路径。按照主导厂商类型的不同来区分,混合云方案存在两种实践路径:
从公有云向下延伸,提供技术同构的专有云产品,从而形成混合云解决方案;
从私有云向上延伸,将公有云进行集成,从而形成混合云解决方案。
本章将论述这两种实践路径的产生逻辑,以及针对特定企业和场景的选择建议。
2.1 从公有云到混合云:满足基础架构一致性需求
云计算的最早商业化形式是公有云,其早期的实践者和推动者是亚马逊、阿里巴巴等互联网巨头,后来其他互联网公司、传统ICT厂商和创业型公司也持续加入。同时,为了满足企业级客户的专属资源池的需求,这些公有云厂商陆续推出了专有云、私有云方案,从而形成了全栈式的混合云方案。
按照厂商背景来看,提供全栈式混合云解决方案的公有云厂商有三类:第一类是互联网大厂旗下的公有云厂商,第二类是传统ICT厂商旗下的公有云厂商,第三类是中立性的公有云厂商。
从共同点来看,这些公有云厂商的混合云发展路径都是最终实现公有云架构与专有云&私有云架构的完全统一,但是不同点在于它们公有云诞生的目的不同使得其特性不同,由此造成的专有云&私有云、混合云的适用场景也有所差异,如下图所示。
2.1.1 互联网大厂公有云+专有云的混合云方案
阿里云、腾讯云、百度智能云、京东智联云等互联网大厂旗下的公有云,其诞生初衷都是为了通过公有云服务更好地支撑自己集团内部的业务,实现自身IT能力的敏捷化转型,同时降低对于专业服务器、存储和网络设备厂商的依赖。
这类厂商的公有云架构大部分都是基于高度自主研发的分布式架构,为了应对极高并发的互联网业务,普遍需要较大数量的管理节点以保证服务的稳定性。
这类厂商早期的公有云客户一般以互联网企业和中小企业,逐步转向服务大型政企客户时,提出了“专有云”的概念,即通过对公有云架构进行适当的缩减,形成一套规模相对较小、能够适应本地化部署的专有云方案,典型如阿里云+Apsara Stack,腾讯云+TCE、京东智联云+JD Cloud Stack、百度智能云+ABC Stack、金山云+Galaxy等。
由于专有云与公有云采取一致性的基础架构,IaaS、PaaS资源具备一致性,因此一般能够支持应用在公有云、专有云之间进行低成本快速迁移,同时保证了公有云、专有云实现功能和特性的同步进化,防止了碎片化的专有云版本出现。
但是由于互联网大厂公有云的基础架构特性,其专有云对于物理节点数量下限要求较高,一般都要求至少提供几十到近百的物理节点,更加适合于业务规模较大、预算充足的腰部以上企业。
京东智联云构建多云资源一致的混合云方案
京东智联云(JD Cloud & AI)是京东集团旗下的智能技术提供商,依托京东集团在人工智能、大数据、云计算、物联网等方面的业务实践和技术积淀,打造服务于数字企业、数字政府的多维场景解决方案。
京东智联云提供的专有云服务包括专有云(Stack)、敏捷专有云(Swift)、敏捷专有云超融合版(Swift HCI)三个不同版本,以及能够实现多云纳管的混合云平台(Mesh)。
京东智联云在混合云方案的优势体现在以下两方面。
首先,京东智联云的公有云平台(Public Cloud)和专有云平台(Stack)基础架构一致,可搭建同构混合云平台实现在功能、资源方面的同步更新和一致性。
其次,针对异构多云的资源,京东智联云借助混合云平台(Mesh)也可构建统一纳管,资源一致的混合云解决方案,它具备以下几方面能力:
1)全方位支持:提供从网络层的拉通,到跨云资源管理、业务调度、服务组件管理、容器云平台、多云服务平台、资源监控以及成本控制等全方位的混合云场景支持能力;
2)一站式管理:兼容多种异构云平台,整合私有云、公有云等多种底层资源,实现一站式资源管理控制、对资源的跨平台融合编排及多租户访问;
3)解除厂商绑定:具备行业核心业务系统架构的最佳实践,可无缝连接异构硬件与上层业务,解除厂商绑定,使得企业聚焦于业务。
4)AI赋能:深度集成AI能力,实现极简和智能的资源调度和稳态与敏态业务的动态平衡,资源利用率平均可提升30%。
混合云平台(Mesh)从以下两方面实现多云资源的一致性:
1)跨云的云原生技术中台:基于容器化、微服务基础技术,提供涵盖应用、部署和治理的技术中台,兼容传统与创新应用的一致性管理和平滑迁移,实现多云环境下敏捷的持续集成、发布、运营。通过云原生技术承载AI能力,实现云的数字化、智能化,更加贴合企业业务,提升业务创新迭代速度。
2)跨云迁移:支持以不停服全量和增量迁移的方式迁移不同环境及不同类型的数据库,通过VPN、专线等网络环境接入京东智联云的RDS数据库、自建数据库等,支持国内外主流公有云、私有云、虚拟机、X86物理服务器的迁移。
京东智联云的混合云解决方案应用于某知名车企的汽车产业云,该车企集团为满足集团转型和信息系统及应用上云的需求,实现混合云架构的蓝图,需要采用成熟稳定的商业化云平台替换现有的开源架构的云平台。
为此,京东智联云为该车企建设了集成公有云(Public Cloud)、专有云(Stack)、混合云平台(Mesh)的混合云解决方案,方案具备以下特点:
1)多云整合:构建了混合云统一服务平台,统一纳管现有的OpenStack平台。
2)硬件利旧:通过专有云(Stack)将现有各分公司的物理机云化,并通过混合云平台(Mesh)直接纳管,提高了资源利用率。
3)迁移扩容:实现全量应用跨云一键式平滑迁移,并结合DNS解析分流,实现跨云负载扩容。
4)跨云灾备:该混合云平台具备灾备能力,将京东智联云公有云作为灾备中心,构建了稳定可靠的同城跨云灾备。
混合云方案实施后,该车企获得了以下实施效果:
1)资源整合优化:实现集团的混合IT基础架构资源整合优化,统一平台灵活调配,大幅提升资源的利用率和运维运营效率;
2)灵活扩容:业务系统实现全局调配,合理部署,应用负载能力成倍提升;
3)跨云灾备:充分利用公有云的无限量存储,实现核心业务数据多副本容灾备份,提升了服务的稳定性和可靠性;
4)战略落地:加强集团信息化、数字化建设,推动集团化2.0战略落地,打造自主知识产权的服务和产品,为集团“两个转型”和四化发展提供可靠支撑。
整体来看,互联网大厂“公有云+同构专有云”的混合云方案,适合业务规模较大、预算较为充足、服务商生态较为完善的企业,公有云、专有云间的基础架构一致性有助于其在漫长的IT建设周期内保证技术能力的持续同步进化。
2.1.2 传统ICT厂商与中立云厂商公有云+私有云的混合云方案
与互联网大厂旗下的公有云不同,华为云等传统ICT厂商旗下的公有云,以及UCloud、青云等中立性公有云厂商,其公有云的定位更加单纯,并不用于支撑自有的高并发互联网业务,主要用于对外提供商业化的公有云服务,同时期望能够将公有云的架构无缝地移植到私有云之中。
因此,这类公有云厂商的基础架构相对较为轻量化,从而保证了其私有云产品既能具备与开源架构一样的低节点数量要求,同时又能保证私有云的基础架构与公有云之间的一致性,典型如华为云+华为云Stack、UCloud+UCloudStack、青云+青云私有云。
整体来看,传统ICT厂商或中立云厂商的“公有云+同构私有云”的混合云方案能够更加灵活有效地支撑中小规模业务场景,同时保证公有云和私有云的基础架构一致性,因此更加适合于当前业务规模一般,但未来可能具备一定成长性,并期望长期保持技术创新和迭代能力的企业。
2.2从私有云到混合云:满足企业差异化需求
相比于从公有云到混合云的实践路径,从私有云到混合云的实践路径更为复杂,这是因为私有云厂商从一开始就需要考虑来自企业客户的差异化需求,这种差异性体现在两个方面:
1)企业技术和运维能力的差异性:科技创新型企业和头部企业常常更加追求私有云的定制化、与企业流程的匹配性,技术和运维能力不足的大部分传统型企业更加追求私有云的易管理性;
2)企业数据中心规模的差异性:超大规模企业具备丰富的数据中心资源,更加追求IT架构的成熟性、稳定性,中大规模企业数据中心资源相对有限,更加追求IT投入的高性价比。
基于这些差异化需求,私有云架构出现了开源技术和闭源技术的差异,以及分离式架构与超融合架构的差异。
2.2.1 分离式架构的私有云
早期的私有云采取分离式架构,即计算、存储能力通过不同的设备或服务器集群来提供。按照技术架构的不同,它又分为开源和闭源两类。
1)开源分离式架构私有云:OpenStack是当下最为流行的开源云计算管理平台,具备较强的定制化能力,因此通过OpenStack对接KVM、VMwarevSphere、XenServer等计算虚拟化平台,以及Ceph等开源分布式存储平台,在过去一段时间曾是个性化需求较多的大中型企业客户构建私有云的一种流行方式。
但是由于OpenStack架构的复杂性问题,近些年在产品化、标准化、商用化等方面开始面临大量痛点,因此开源云厂商基于OpenStack进行闭源深度自主研发,从而提高产品的标准化程度,实现产品无缝升级已经成为大势所趋。
2)闭源分离式架构私有云:VMWare等成熟厂商在商用虚拟化技术方面一直占据主导地位,其闭源分离式架构私有云主体由VMWare vSphere对接SAN商用存储设备构建而成,而云管的部分可以选择VMware vRealize Automation或独立的云管理软件(CMP),前者仅支持VMWare自身产品,后者更加开放。
闭源私有云的优势在于其长期实践经验和产品迭代带来的高度稳定性,但由于其核心技术往往由国外虚拟化厂商、商用存储设备厂商所控制,会使得企业面临自主可控性差、厂商绑定等因素的困扰。此外,商用存储扩展性不足也成为困扰企业的一大痛点。
2.2.2 超融合架构的私有云
当企业追求私有云的易于管理、高性价比等特性时,计算、存储融合部署的超融合架构成为最合适选择,目前这种方案已经开始在中型乃至大型客户中出现。
Gartner认为,超融合架构(HCI)是一种以软件为中心的体系结构,将计算、存储、网络和虚拟化资源(以及可能的其他技术)紧密集成在单一的供应商提供的一台硬件设备中。相比于分离式架构的私有云,超融合架构的私有云真正实现了完全的软件定义、完全的虚拟化、完全的分布式。
与分离式架构私有云类似,超融合架构私有云同样存在开源、商用两类生态。
1)开源超融合架构私有云:基于Openstack、KVM、Ceph等开源产品整合的超融合方案,优势是可以快速从社区获得最新的功能,但同时存在着诸多问题,比如:Openstack架构复杂、大量模块在超融合中并不需要,商用程度差,且计算资源要求高;基于开源的Ceph模块和代码复杂,服务商对产品核心问题无法有效支持,且Ceph对计算资源消耗高较高,IO密集型场景性能也表现欠佳;一般无法有效支持VMWare等商用虚拟化平台。
2)闭源超融合架构私有云:该种模式最典型的厂商案例是VMWare的vSphere+vSAN+vCenter超融合架构配合vRealizeAutomation,以及国内超融合厂商SmartX的SMTX OS超融合架构,并可对接国内多家成熟的商用多云管理平台实现计算存储的资源池化、分布式化、软件定义化和自服务化。
如上图所示,SmartX的超融合架构除了包括自有的虚拟机服务和分布式块存储,还可兼容VMWare、Citrix等其他厂商的虚拟机服务。据了解,SmartX结合云管理形成的超融合私有云已经在大型国有银行和大型券商等客户形成实际案例。
2.2.3 从私有云出发的混合云生态
两类私有云部署架构(分离式/超融合)、两类私有云技术生态(开源/闭源),与公有云一同构成的混合云生态体系如下图所示。
总体来看,不同混合云生态在定制化能力、易管理性、成熟稳定性、性价比等四方面的对比如下。
无论从公有云走向混合云,还是从私有云走向混合云,对于企业来说,都是一个解决方案越来越复杂、面临的技术挑战越来越多的过程。
据中国信通院数据显示,缺少适合的解决方案,以及现有技术不够成熟是阻碍企业应用混合云的两大最主要因素,网络连接不够稳定、基础功能不完善是企业在混合云应用过程中面临的两大最主要挑战。
但是,缺乏合适的解决方案与技术的具体原因可能分布在混合云与分布式边缘云的各个层次中。为了分析这些原因,我们必须明确混合云与分布式边缘云建设的混合云和分布式边缘云的基础架构图来进行分析,如下图所示。
1)混合云基础设施平台: 它是混合云、分布式边缘云建设的基础环节,主要包括公有云/私有云、中心云/边缘云等多种不同基础架构的云形态,以及其中不同的计算、存储、网络架构,还有跨云连接网络、多云管理平台(CMP)等多云间的融合机制。
2)云原生技术中台: 它是企业开发云原生应用或迁移、改造传统应用,最终实现业务创新的核心环节,主要包括aPaaS(DevOps、微服务治理、中间件服务)、iPaaS、Database PaaS(数据库PaaS)、Business Analytics PaaS(业务分析PaaS)、ITOM平台(CMP、APM工具),共同服务于云原生应用交付生命周期。其中,aPaaS(应用PaaS)是云原生应用交付的主要平台。
在本报告的第三章、第四章中,我们将详细分析这两个环节中的挑战构成,如下图所示。
此外,为了应对这些挑战,企业还需要选择合适的厂商来提供混合云解决方案,因此本报告还将提供一些典型厂商的最佳实践案例。在这些挑战环节中提供解决方案的典型厂商如下图所示。
03
云计算基础设施层的构成形态,直接决定了云计算的架构和形态。企业在对混合云与分布式边缘云的落地实践中,首先要面临基础设施平台建设的挑战。
根据公有云、私有云之间在基础设施层面的协同深度,我们可以将混合云基础设施的应用阶段分为三个层次:多云网络互通、多云管理与协同、多云资源一致。
1)多云网络互通: 在多云之间实现广域网的连接,从而实现信息的跨云传输;在这一阶段,企业面临的挑战主要是混合云对跨云连接网络的稳定性、配置敏捷性、成本优化能力等方面具有较高要求;
2)多云管理统一: 通过多云统一资源管理,实现工作任务在多个计算存储资源池的灵活分配,从而实现多云业务协同和成本优化;在这一阶段,企业面临的主要挑战在于多云环境承载业务形态多样、资源类型多样、权限分配复杂,对企业的IT统一管理带来大量痛点;
3)多云资源一致: 通过在多云之间保持IaaS、PaaS资源的相对一致性,从而允许应用和资源在多云之间自由迁移或漂移,同时尽可能减少过程中的人工干预;在这一阶段,企业面临的主要挑战在于如何克服多云基础架构的异构性。
本章将对以上三个阶段企业面临的挑战及对策进行详细阐述和分析,同时提供相关类型厂商在企业中的实践案例。
企业组网是企业IT基础设施建设的核心诉求之一,它保证了企业分布在不同地点、不同环境中的计算资源能够实现在一张局域网中自由互访,并满足企业内部的网络管控需求。
在混合云架构中,公有云、私有云计算与存储设施往往分布在不同地域和数据中心,需要通过广域网进行连接,从而实现企业组网。
在分布式边缘云架构中,从骨干网、城域网到接入网,均需要通过广域网进行连接,从而构成包括众多边缘云的边缘计算网络。
无论是混合云还是分布式边缘云,它们的广域网连接质量对其应用效果乃至成败至关重要。
现阶段,VPN、专线和SD-WAN是企业采用最多的三种网络连接技术,其中MPLS VPN是最为普遍的VPN技术类型,它们分别具备不同的优势和适用场景,其对比如下图所示。
随着企业对云计算应用程度的加深,以及混合云、边缘云的出现,专线和MPLS VPN面临着三个方面的严峻的挑战。
第一,随着业务工作负载量的增加,专线、MPLS VPN的带宽也需要不断增加,而高带宽的专线和VPN的租用费用较为昂贵,给企业造成了越来越高的网络运维成本;
第二,随着分布式边缘云架构的发展,部分偏远或小型分支机构的规模不足以支撑专线和MPLS高昂的成本;
第三,在云计算环境下,企业业务创新与迭代速度不断加快,对企业的网络响应能力,对增加带宽、增加线路等网络配置的敏捷性要求都越来越高,而专线、MPLS的配置灵活性相对不足。
为了解决专线和MPLS VPN面临的困境,SD-WAN(软件定义广域网)这一新兴网络技术在近些年崛起,其主要技术在于实现网络控制与数据转发功能的分离,以及传统网络功能的虚拟化,同时基于对网络环境实时状态的感知来控制虚拟化的网络功能,从而为每个数据包选择最佳路径,保障了分发的高效性和通讯的实时性。
近些年,SD-WAN的安全性技术也不断完善,支持通过IPsec、TLS、DTLS等多种加密技术来实现数据加密。但现阶段,许多企业出于对安全性的顾虑,会采用MPLS VPN与SD-WAN的混合架构,使用MPLS来承担核心业务流量,而使用SD-WAN来承担互联网业务流量。
综上所述,在混合云与边缘云时代,SD-WAN能够有效提升企业网络管理效能,从而进一步提升企业竞争力。
尽管成本优化是推动混合云、分布式云的主要因素,但是成本优化方案的落地实施却并不容易。公有云、私有云、中心云、边缘云等不同的云,其成本最优的业务类型不同,同时这些业务的工作负载同样是在动态变化中的。
这种复杂性带来的管理困难,使得企业亟需通过统一的多云资源管理平台,对多云平台的资源使用、任务调度进行统一管理,最终实现多云成本优化。
混合云成本优化分为两个部分:
1)在公有云、私有云之间进行工作负载分配,以尽可能降低因扩容带来的额外成本;
2)对多个公有云账号所拥有的资源进行统一管理与分配,以尽可能降低因部门或团队独占资源带来的资源利用率降低。
混合云产生与发展的主要驱动因素之一是成本与效率的平衡,即让私有云和公有云发挥各自的优势,实现最大的投入产出比。在这里,我们将投入产出比定义为:在一定时间内,混合云承载的总工作负载量与软硬件成本投入的比值。
在混合云实践中,企业面临成本优化的挑战主要来自敏态业务,这是由稳态和敏态业务的特性决定的。但是,在敏态业务的生命周期中,并非采用公有云的比例越高越好,这是因为在整个敏态业务的生命周期内,尽管其工作负载的总体波动性较大,但是仍然可能在某些时间段内展现出一定程度的稳态特性。
比如,下面的曲线图就表示了某敏态业务在生命周期内经历的工作负载变化情况。
增长期: 当业务处于增长期,负载的波动幅度较大且不断增长,其下一时间段的波动幅度,以及生命周期长度往往不可预料,需要云平台具备弹性的扩容缩容能力。因此,选择公有云来完全承载其负载是投入产出比最优的方案。
稳定期: 当业务进入到稳定期后,由于用户群体、数据源的相对稳定,其负载波动特性会变得比较容易预测,低谷期的工作负载也会相对稳定。在这个阶段,企业往往对于业务的生命周期长度有相对乐观的预计。因此在稳定期内,企业逐步采用私有云来承载一部分固定存在的工作负载,是相对成本更优的方案。
衰退期: 当业务进入衰退期,工作负载在波动中呈现下滑趋势,但由于在稳定期投入了大量支撑私有云的硬件成本,而且这部分硬件成本显然无法回收,所以整体的投入产出比也呈现下滑趋势。在这种情况下,继续尽可能地利用现有私有云资源,同时不断回收公有云资源,更加有利于投入产出比的维持和优化。
面对这样的优化场景,仅仅依靠割裂在不同资源池内的运维管理界面难以满足需求,企业运维人员亟需有能够纳管多种资源、提供多维度运维数据的管理平台,实现统一、高效的成本优化,这就是云管理平台(CMP)。
作为能够实现多云资源纳管的运维管理工具,云管理平台(CMP)能够纳管包括VMware虚拟机、裸金属机器、私有云、公有云、存储设备、SDN网络等多种资源,同时提供运维监控、统计报表以及相应的可视化功能。
基于CMP的这一系列功能特性,企业能够实现对公有云、私有云各自的资源使用情况的分析,从而做出相应的优化策略:
多公有云的成本优化是建立在公有云、私有云间成本优化的基础上,进一步实现混合云成本优化的另一个阶段。
造成多公有云的原因是复杂的,其中典型的原因包括实现多云灾备、减少厂商绑定、希望利用不同云的特有能力等。此外,出于内部组织架构的原因,企业也有可能创立多个公有云账号来归多个部门管理和使用。
无论是单一公有云厂商的多个账号,还是多个公有云厂商的多个账号,由于其资源之间的割裂性,都可能会带来资源闲置,从而造成成本升高。资源闲置的典型原因包括两类:
1)不同部门拥有不同的账号,使得这部分公有云资源被独占,在不使用的情况下无法被分配给其他部门来使用,也无法被统一释放,造成资源闲置和成本浪费;
2)某些公有云的资源被释放后,它所占用的资源未被同时释放,比如服务器被释放后,占用的存储、弹性IP可能未被释放,在多公有云账号的情况下,这样的情况更加突出,造成资源闲置和成本浪费。
基于CMP提供的多云纳管、权限管理和运维监控能力,企业能够采取以下策略来解决资源闲置问题:
随着企业双模态业务之间的深度融合,以及混合云和分布式边缘云在企业内的应用程度加深,应用和各类资源在多云之间进行平滑迁移的需求逐步显现,这就需要多云资源一致能力,即“互操作”能力。
多云资源一致的含义在于应用和资源能够无缝地访问公有云、私有云、中心云、边缘云的计算、存储、网络等IaaS资源,乃至数据库、中间件、微服务等PaaS资源,这有赖于多云间的基础架构与标准的统一或兼容。
但是,由于公有云、私有云、中心云、边缘云往往来自不同厂商,而这些厂商出于差异性竞争、产品创新等需求,都可能会在相对统一的原生技术标准,如KVM、OpenStack、Kubernetes、Ceph之上增加自己的特性或限制,这使得不同厂商的云在计算、网络、存储等基础架构以及其上的IaaS、PaaS资源都会存在大量异构性,其影响主要体现在两个方面:
1)资源深度耦合: 不同云厂商的云原生资源与基础架构深度耦合,云原生应用同样与云原生资源相互耦合,对应用和资源的跨云迁移造成障碍。
2)功能进化不同步: 公有云、私有云、中心云、边缘云之间的基础能力无法保证同步进化,这阻碍了私有云、边缘云中的云原生应用采用公有云、中心云提供的最新服务,进一步增加了应用跨云漂移的难度。
现阶段来看,多云资源一致仍然难以建立在开放生态的基础上,因为这有赖于云厂商之间的共识,从而在未来实现某些统一的底层标准。
目前,在混合云、分布式边缘云中实现资源一致性的阶段性方案有三种:
1)采用统一厂商的全栈式方案: 即由同一家云厂商来提供包括公有云、私有云、中心云、边缘云产品,这样做的好处在于完全保证了多云之间基础架构和资源的一致性,能够让企业在私有云、边缘云中享受到与公有云较为一致的资源服务,保证了上层应用无需改造、无需专门的迁移工具就能实现自由迁移。
2)搭建跨云的云原生技术中台: 通过Docker容器镜像、Kubernetes容器编排技术实现跨云的统一云原生技术中台搭建,能够同时解决资源一致性和跨云迁移自动化的问题,并且能够进一步服务于应用的全生命周期的跨云统一管理,这将在第四章中详细介绍。
3)采用第三方云迁移工具: 它尽管并没有改变多云基础架构异构的现实,但是却提供了一种多云资源一致性的替代方案,即通过自动化、标准化的跨云迁移解决方案,降低了应用跨异构云迁移的成本,这样的平台可能是多云管理平台(CMP),也可能是专业的云迁移工具。
04
企业上云和数字化转型的主要动力之一是为了实现业务创新,从而获得快速的商业增长。
因此,尽管企业在上云初期主要关注基础设施平台的扩容成本、扩容效率、数据存储安全性等问题,但是随着其云计算应用程度加深而不断加强,企业对于应用交付过程的关注会持续加强。
企业在数字化转型和业务创新过程中,为了快速地实现业务迭代和体验提升,需要不断通过快速上线新功能的方式来收集用户反馈,从而用于指导下一步的开发,从而实现业务创新的敏捷化转型。
因此,企业除了关注基础设施层面的成本、效率优化,以及安全合规等问题,必然会还会关注实现业务创新的云原生应用的交付效能。
混合云、分布式边缘云的出现,对于应用交付效能提出了新的挑战。如果企业无法有效解决异构多云环境下的应用交付效能降低,将阻碍混合云、分布式边缘云的成功实践。
如果要想找到评价企业应用交付过程是否能够为企业创造足够价值的一个评价标准,那么“应用交付效能”将是十分合适的一个指标。应用交付效能的含义是应用在开发与构建、测试、部署、运维管理的生命周期过程中,在吞吐量和稳定性两方面的综合表现。
1)吞吐量: 含义是应用在单位时间内更新的功能点的总量,它主要受到变更前置时间和部署频率的影响。变更前置时间代表应用从研发人员提交代码到成功在生产环境中部署所经历的时间长度。部署频率则与变更前置时间密切相关,一般来说前置时间越短,能够达到的部署频次就越高。
2)稳定性: 含义是应用交付完成后,在实际生产环境中持续发挥价值的能力,它主要受到变更及服务失败率和服务恢复时间的影响。变更及服务失败率主要指应用新功能上线后,由于功能缺陷、体验性、系统故障等原因,导致应用被迫回退到上一版本或重新启动的概率。服务恢复时间指应用在因系统故障、性能压力等原因而停止后到恢复正常服务能力所需的时间。
随着基于容器的DevOps、微服务治理等产品与方案的成熟,整个云计算的云原生技术中台体系逐步形成,它也成为推动云计算时代的企业应用交付效能进一步提升的主要动力。云原生技术中台对于应用交付效能的影响表现在吞吐量和稳定性两方面,如下图所示。
但是,以混合云和分布式边缘云为代表的多云架构带来的异构的资源环境,必然需要打破单一云环境下的应用交付和管理生命周期,在应用交付的吞吐量、稳定性两方面都会给企业带来新的挑战。因此,在多云异构环境下,云原生技术中台的价值再次凸显。
由于以Docker技术为代表云原生技术在相当程度上能够屏蔽很大一部分多云间的异构性,实现应用开发测试环境的相对标准化、统一化,因此如果实现云原生技术中台的跨云构建,那么多云架构之上的应用交付效能将得到有效提升,如下图所示。
因此,如何构建一套兼容不同厂商的公有云、私有云、中心云和边缘云的云原生技术中台,成为企业在这一过程中将面临的主要挑战。
除了基于不同的云基础设施平台构建云原生技术中台之外,一些大型政企客户往往还拥有大量的数据中心资源,其中存在各类物理机、VMWare虚拟机。尽管这些资源中并没有建设云基础设施,但仍然是资源异构性的另一种表现。云原生技术中台可直接搭建在物理机、虚拟机之上,实现跨异构资源、跨地域、跨机构的应用交付生命周期的统一管理,成为多云架构的另一种形式。
尽管在跨云的云原生技术中台的搭建过程中,我们看到了独立容器云厂商的独特价值,但是它也并非唯一的答案。
实际上,云原生技术中台的最初目的,就是为了服务于云原生应用交付的全生命周期。而考虑到敏捷开发过程周而复始的过程,这个生命周期显然不可能是一条单向的直线,而一定会构成一个“云原生闭环”。
根据一般企业的软件研发及上线流程,这个完整的“云原生闭环”应该包括:业务部门流程,即需求提出;研发和测试部门流程,即需求确定、开发测试资源申请、开发与构建、测试;运维部门流程:部署、运维管理、问题与需求反馈。随着运维部门将应用在部署或运维中出现的问题反馈到研发测试部门,整个闭环周期才完全流转结束,如下图所示。
正如上图所展示,在云原生应用交付的生命周期里,除了需求确定、云原生应用开发、测试、应用部署等环节由容器云厂商占据主导,在资源申请、监控与灾备这两个连接开发测试部门与运维部门的核心环节中,企业都需要相应的工具平台进行支撑。
当多云异构环境成为企业中的主流以后,如何实现跨云的资源统一申请、统一监控与灾备,从而有效提升“云原生闭环”的效率成为企业的主要痛点之一。在这种背景下,许多厂商的CMP、APM等ITOM工具,正在逐步从基础设施层向云原生层进行拓展,从而融入到“云原生闭环”中。
因此,基于“云原生闭环”的重要价值,我们把面向云原生资源进行管理、监控并提供IT服务的云管理工具CMP,以及应用性能监控工具APM等ITOM工具,都定义为云原生技术中台的重要组成部分。
05
展望未来,随着云计算技术深入到企业的业务中,必然会催生两方面需求:一方面是更好地让云计算的低成本、高性能算力为企业的数据利用服务,加速企业的业务创新;另一方面是将云计算与传统网络拓扑进行无缝融合,从而更好地为拥有大量历史遗留IT资源的传统型、集团型企业提供全面上云的支撑。
相比于底层的IT基础设施,数据和企业业务的联系更加紧密。因此,对数据普遍应用是企业数字化转型的最直接表现,它能够为企业带来业务营收和生产效率的增长,同时有效改善客户体验。
随着企业数字化转型进程的不断推进,数据维度、数据类型的越来越复杂,企业面临的业务诉求越来越复杂,对数据利用效率的要求越来越高,使得原有的数据利用过程遇到了效率瓶颈。
在这样的背景下,如何从应用管理的角度出发,将数据利用过程转化为包括开发、部署、编排、持续测试和优化等环节在内的数据密集型应用的生命周期管理过程,已经成为企业IT与组织能力的核心挑战之一。
但是,DevOps过去仅仅关注的是非数据密集型的的应用,对于以数据密集型应用的关注较少,但两者存在截然不同的需求:
因此,近些年业内有人提出了面向数据密集型应用的生命周期管理理念——DataOps,它尝试将数据、代码、工具、基础架构和人员进行标准化的流程管理,最终提高数据开发过程的生产能力、可重复性、敏捷性和自助服务能力,最终实现数据科学模型持续部署和优化。但目前DataOps的具体模式尚不成熟,仍然在持续探索中。
同时,云计算逐步发展出为数据型应用提供计算、存储、分析、服务和生命周期管理能力的PaaS——DaaS(既包括了面向数据存储的DB PaaS,又包括了面向数据分析和AI建模的Business Analytics PaaS),也就是通常所说的数据中台和AI中台,它将数据开发过程变成一项能够在云计算平台中按需取用的服务。
然而,面向数据密集型应用的DaaS平台和DataOps过程,在云计算平台上的实践中仍然会面临一系列挑战:
1)环境异构性的挑战: 传统领域企业在数据应用实践中,往往会面临多云、多数据中心等异构环境,而异构环境会直接影响数据汇集和利用的效率,从而影响数据密集型应用开发的整体效率。
2)生产环境性能的挑战: 数据密集型应用在生产部署环境中需要进行大量的数据处理和模型推理,对于计算的并发性要求更高,单台服务器上部署多个业务会产生资源竞争,但虚拟化会产生明显的性能损耗,需要轻量化的隔离部署环境。
3)数据交换合规性的挑战: 非数据密集型应用的开发测试过程可以不依赖于真实数据源,但是数据密集型应用则不同,由于其需要进行数据建模和机器学习等过程,必然需要依赖于大量真实数据。但是,在多云、多数据中心的环境中,企业或组织往往需要对割裂在不同地域、不同组织中的数据进行统一汇集,共同进行数据分析和建模。但是,部分行业和领域对数据的合规性限制往往阻碍了数据的跨地域、跨组织的汇集与利用。
面对这些挑战,基于Docker、Kubernetes等云原生技术构建跨多云、多数据中心的DataOps成为企业的必然选择。
总体来看,跨云和数据中心的DataOps所应具备的核心能力包括:
1)能够为数据密集型应用的开发、测试、部署过程提供一致性的环境,从而有效提升数据开发效率,降低人工介入频次;
2)能够为数据分析和模型推理过程提供轻量级隔离的生产部署环境,以达到高并发的计算性能,可直接部署在物理机、公有云的裸金属服务器中,以降低因虚拟化而产生的性能损耗;
3)为跨地域、跨机构的数据汇集与利用提供权限相互隔离的多租户环境,有效保证数据的安全合规性。
按照数据利用的阶段来看,面向数据密集型应用的云原生技术中台又大体包括云原生数据中台、云原生AI中台两类。
综上所述,云计算技术未来如果要进一步深入企业业务中,进一步推动企业数字化转型和业务创新,并帮助企业克服因异构的传统IT、多云、多数据中心环境带来应用交付困难,云原生的数据中台与AI中台将成为其重要的发展趋势。
随着云计算深度地融入到传统型、集团型企业的业务之中,它必然要与企业原有的网络技术架构发生融合。在这样的背景下,通过“云网融合”重塑传统ICT架构正在成为云计算发展的另一项前沿趋势。
云网融合的主要驱动力可以归结为传统型、集团型企业上云过程中的两个IT架构变化趋势:
1)资源的异地化: 正如第一章所述,传统型企业的业务创新驱动了各类创新型应用的诞生,常常会产生对公有云的需求。此外,为了满足企业在不同地域的IT服务能力,实现核心系统的全面上云,企业还可能会在多个地域、多个分支机构建设数据中心或机房,并进行私有云、虚拟化的建设。以上这两种因素都推动了企业IT与云资源的异地化趋势。
在这样的背景下,企业为了提升对外和对内的IT服务和响应能力,需要通过专线、VPN、SD-WAN等广域网技术实现在异地资源之间实现低延时网络互联,并提升网络开通和变更的效率。
2)资源异构化: 由于创新型业务、传统型和核心型业务的不同需求,企业在这些资源进行IT建设和上云过程中,必然会产生包括各类物理资源与虚拟资源、专属资源与共享资源在内的异构资源池。由于传统型企业业务的相对稳定性,这些异构资源池将会长期存在于IT架构中,因此随着时间推进,它们内部的、之间的网络拓扑架构都会变得越来越复杂。
对于电信运营商、第三方数据中心运营商、广电等对网络服务能力具有苛刻要求的行业来说,过去依托于专业物理设备、依赖人工操作的网络配置过程极大影响了网络配置和变更效率。因此,这类企业亟需通过SDN、NFV等技术实现网络的自动配置、拓扑灵活调整、自动化编排、协同调度等能力,即网络的云化。
2010年代,混合云与多云是云计算应用的前沿趋势,它是云计算不断满足企业差异化业务形态过程中出现的必然结果。
2020年代,除了混合云与多云的趋势将进一步深化,近场化、场景化、融合化将成为云计算应用的三大最新趋势。
边缘计算驱动的近场化趋势,让云计算算力的空间位置更加贴近企业现场,加强了云计算对边缘侧的数据利用能力,从而为企业提供更加低时延、低成本、沉浸式的数据利用支撑;
DaaS与DataOps驱动的场景化趋势,让云计算算力的逻辑层次更加贴近企业业务,加强了云计算的数据利用效能,从而进一步驱动了企业的业务创新;
云网融合驱动的融合化趋势,让云计算基础架构与企业、地方、全国、全球等各个范围的ICT基础设施实现高度融合,双方开始呈现“你中有我,我中有你”的状态,最终使得企业经营、个人生活都与云计算结合得更加紧密而深刻。
未来,爱分析将持续而深入地追踪云计算的最前沿趋势在各个行业内的落地进展和最佳实践。
法律声明
此报告为爱分析制作,报告中文字、图片、表格著作权为爱分析所有,部分文字、图片、表格采集于公开信息,著作权为原著者所有。未经爱分析事先书面明文批准,任何组织和个人不得更改或以任何方式传送、复印或派发此报告的材料、内容及其复印本予任何其它人。
此报告所载资料的来源及观点的出处皆被爱分析认为可靠,但爱分析不能担保其准确性或完整性,报告中的信息或所表达观点不构成投资建议,报告内容仅供参考。爱分析不对因使用此报告的材料而引致的损失而负上任何责任,除非法律法规有明确规定。客户并不能仅依靠此报告而取代行使独立判断。
北京爱分析科技有限公司2020版权所有。保留一切权利。
特别鸣谢(按拼音排序)
(本文有删减,点击查看原文)