阿里云 CIPU,是一场「原生」的冒险

极客公园
+ 关注
2022-06-16 10:31
973次阅读

谁能重新定义计算,谁就能重新定义商业的未来。

文 | 张鹏

过去几十年来,很多商业变革的背后,如果去追溯的话,都可以在计算的变化上找到起点。从计算能力遵循摩尔定律不断攀升,最终解锁了智能手机,带来了移动互联网;到云计算的出现解决了超高并发和大算力的经济性问题;再到现在追求计算的可信与安全,而不是计算效率和计算经济性的区块链… 可以说「计算」这个核心点,就是数字经济永恒的发展基础。技术能力的变化,以及它要解决问题的目标的变化,每跳动一次就意味着一次商业变革。

当然,不论到什么时候,计算效率的提升都是重要的问题,而效率提升最终还要回到芯片和系统的底层去寻找空间。

最近,我看到阿里云做了一件事,发布了一款自主研发的云数据中心专用处理器 CIPU(Cloud infrastructure Processing Units),并表示,CIPU 是一款为「飞天」操作系统设计的专用处理器,它将取代 CPU 成为新一代云计算架构体系的处理中心。

这里让我疑惑的是:新概念在云计算产业中并不稀缺,单是包括 IPU、TPU、DPU 和各种 AI 芯片已经让人应接不暇了。而阿里云推出的 CIPU 究竟是什么?它和之前的概念有什么区别?它会给我们带来什么?

CPU 的困境,

CIPU 的缘起

我觉得阿里云推出 CIPU 其实是「蓄谋已久」:

他们之前推出的「飞天」,据说是中国唯一的自研云操作系统,这些年更是一直都在持续地投入自研云技术;去年的云栖大会,又一口气发布了磐久、倚天、神龙 4.0 和灵杰几个重磅产品,一步步地在「做深基础」「向下生长」。

阿里云 CIPU,是一场「原生」的冒险

图|阿里云 CIPU 发布

这次专门面向云数据中心设计 CIPU,依旧可以看作是阿里云「向下生长」逻辑的延续。

但想更好地理解 CIPU 的出现,还是有必要先说说数据中心的这些年的变化。

数据中心有个古早词汇叫「机房」,一听就有点旧工业气息,在互联网发展的早期阶段,它确实也技术含量不高,更多的就是用来堆放计算机。但随着互联网的发展成熟,数据中心越来越成为「业务和流量复杂性的聚集地」,涌现了一系列的技术创新。

一众科技巨头比如亚马逊、微软和谷歌等也嗅到了数据中心领域的机会,纷纷重金投入,进行自研自建。阿里云这边,2020 年 4 月就宣布了未来 3 年要再投 2000 亿,用于云操作系统、服务器、芯片、网络等重大核心技术研发攻坚和面向未来的数据中心建设。

除了看到机会,巨头们花这么大力气自研数据中心,也是因为传统数据中心的软硬件从性能、成本角度还是落后,云数据中心才能解决大规模的计算问题。既然现有设施不能满足,就干脆重新面向云环境去做更加原生的设计,甚至可能还要体系化地重构。比如,CPU 芯片,其实并不是为了面向搭载云操作系统而设计。

阿里云的同学和我说,在过去十多年,云计算技术发展经历了两个阶段:第一阶段是分布式技术,推动互联网企业从大机向分布式系统整个迁移;第二阶段诞生了资源池化技术,进一步提高了云计算的可靠性和可用性。在这两个阶段中,都是基于传统的、以 CPU 为中心的计算体系架构去做优化。很显然,当阿里云自研了云操作系统飞天之后,对于 CPU 的优化只是时间和具体路径的问题。

国际数据公司 (IDC) 一项数据显示,全球数据量在过去 10 年年均复合增长率接近 50%,并进一步预测每四个月对于算力的需求就会翻一倍。这就意味着,随着摩尔定律的失效,CPU 的性能会到达天花板,数据量增长后的处理需求可能难以为继。

此外,企业在大数据、 AI 等数据密集型计算的应用场景下越来越多。阿里云基础产品首席架构师黄瑞瑞也强调:「我们发现现在云上有很多的核心应用,实际上是数据密集型的应用。在服务这么多客户以后,我们发现客户对我们的诉求是逐步从业务逻辑为中心,转向了以数据处理为中心。」

这其实都在不断地提高了对云计算提供的低时延、高带宽的要求。在阿里云看来,以 CPU 为中心的计算体系架构已经很难适应,面临着很大的挑战:以 CPU 为中心的架构数据吞吐小,计算和网络传输的时延大,也无法解决超大规模的复杂管理问题;大数据应用增多,导致数据中心内部数据迁移量增多,以 CPU 为中心的架构无法提供高带宽。

是时候需要去改变了。

阿里云的思路,其实就是从数据中心的内部体系结构里做了体系化创新,将过去以 CPU 为中心的体系架构,变成了以云操作系统+CIPU 为中心的体系架构。

阿里云 CIPU,是一场「原生」的冒险

图|阿里云 CIPU 架构示意图

在这里面,飞天云操作系统是跑在 CIPU 上,从而可以获得更好的管理能力。黄瑞瑞进一步补充:「我们希望上百万台服务器整体纳管、整体编排、整体调度起来,变成一台超级计算机。这个本身也是『飞天+CIPU』想要达到的目标」。

换句话来说,「飞天+CIPU」其实是云计算数据中心体系架构的变革,而 CIPU 更像是一个大数据中心、大云计算的控制器,支撑云操作系统更高效地做云资源的管理和加速。

CIPU 当然不是唯一。围绕数据中心的计算,在芯片和软件上已经出现了一系列的创新,甚至还产生了不同技术的演进方向。

比如 NVIDIA 公司 2020 年发布的 DPU(Data Processing Unit),它定位在数据中心里继 CPU 和 GPU 之后的「第三颗主力芯片」。在功能上,DPU 作为计算卸载的引擎,直接效果是给 CPU「减负」。之后在 DPU 方向,涌现了一批的创业公司。而英特尔依据数据吞吐类应用快速增长的趋势,在 2021 年推出了 IPU(Infrastructure Processing Units),融合了与云厂商合作的经验,试图去 CPU 提高数据密集型场景的能力。

在阿里云看来,IPU 代表的虚拟化云化能力,和 DPU 代表的数据搬迁带宽能力,很难融合,只有云厂商能真正做到,并且规模落地,而 CIPU 能够突破以上两者瓶颈。

在和阿里云内部的交流中,我感受到他们的很强的自信,因为一旦掌握了产业 Know-How,就有机会去定义未来。阿里云基础产品负责人蒋江伟也强调,「我们 CIPU 最大的不一样,其实是用我们顶层定义的飞天云操作系统,垂直根据业务驱动往下定义了芯片。」

应用设计领域,最近流行着一种云原生 (CloudNative) 理念,其目标是探寻云应用设计的最佳实践路径,以充分发挥云的效能。在云原生浪潮之下,以往的关注视角,都是从基础设施向上看,聚焦在 PaaS、SaaS 以及应用侧。但应该还有一种视角,是往下看,比如数据密集型计算的上层需求,也在推动硬件侧「原生化」。云原生应该同时包含软件和硬件的概念。

实际上,在「CIPU+飞天」的组合中,阿里云是先把云操作系统做得非常成熟。通过对于飞天的定义和迭代,实现了对于客户需求的清晰化的感知。在此之后,才去做 CIPU。为云而生的 CIPU,与底层基础设施进行深度定制,可以更精准垂直去解决云操作系统的管理问题。在某种程度上来讲,在这个过程中,其实是完成了对于 CPU 的云原生化。

原生的最大意义是什么?也许就是实现极致性能和体验。乔布斯在第一次 iPhone 发布会上引用了图灵奖获得者 Alan Kay 的名言:「对软件极度较真的人,应该生产自己的硬件」。

阿里云 CIPU,是一场「原生」的冒险

图|乔布斯在发布会上引用了 Alan Kay 的名言

如果去追溯苹果的发展,会发现阿里云「云操作系统+CIPU」的路径选择与苹果有着有趣的相似。苹果手机先有 iOS 操作系统,一开始用的其实是三星的 CPU,后来用了自己 A 系列的 CPU;Mac 最初用了英特尔的 CPU,最后变成自研的 CPU,比如 MI 和 M2 芯片,性能惊人。通过自研的软硬件一体,苹果创造了极富竞争优势的用户体验。两个不同领域的公司,都在通过类似的方式去定义各自行业的未来。

当然两者有着表面上的相似,更有着不同。

苹果作为终端产品需要考虑复杂生态的互联互通的问题,使用的场景是人机交互,这其实意味着可能因为路径依赖的问题,产品并不是遵循效率第一的原则,甚至效率的提升要伴随着巨大的阻碍,从而并不能实现原生意义上的「极致」。

比如,「QWERTY」键盘发明的初衷,是为了解决早期的机械打字机键盘的工艺发展不成熟,当打字速度太快时,很容易发生「卡壳」的问题。作为发明人美国人克里斯托夫·肖尔斯选择了「反人类设计」,把常用字母安排在不顺手的地方,从而降低打字员的速度,来解决这个问题。尽管后来随着加工技术的进步,出现了更高效率的字母排列组合的键盘,但是却没有成为主流。

而「CIPU+飞天云操作系统」不同:首先它是面向数据中心的,是系统级别的,而不是像苹果产品是单机的。其次它更多的是满足了机器与机器的交互。相比于终端,阿里云通过 CIPU+飞天操作,更容易实现原生。

CIPU+飞天操作系统在调度效率及运行算力方面,为性能和体验带来了极大提升,而客户端并不需要做任何代码的修改,就能无感的享有这种云算力带来的加速。

此外,从阿里云的产品布局来看,「CIPU+飞天」可以与其他自研产品,比如神龙计算平台、盘古存储平台和洛神网络平台等进行深度的适配。从而实现在总体上带来更好的性能乃至于更优的性价比。

换个视角来看,阿里云推出以 CIPU 为中心的云计算架构体系,其实意味着这家公司在尝试去定义新一代云计算的标准。这里面未来的进展以及可能的变化,还都挺值得关注的。

很多人认为,阿里做电商、支付以及物流都对中国意义重大,我觉得这其实只是阿里对于中国商业影响的一部分。

在数字化和智能化转型席卷各行各业的今天,阿里云的新计算,带来新的商业变革,也许更是阿里对中国商业产生影响的另一个重要的维度。

云计算似乎又进入了一个关键的突破期。阿里云智能总裁张建锋说:「我们看到云计算进入了一个新的发展阶段,我们越来越接近于下一个时代,需要定义一个全新的技术体系。所以,今年我们最重要的策略是 B2B,就是 Back to Basic,回到云计算的本质。」

我觉得,很多时候想真正去定义云计算产业发展的未来,这首先比拼的是独立思考的能力,特别是对未来计算问题的定义。而阿里云在做的努力,值得密切关注。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

本文来自微信公众号 “极客公园”(ID:geekpark),作者:张鹏,36氪经授权发布。

0
相关文章
最新文章
查看更多
关注 36氪企服点评 公众号
打开微信扫一扫
为您推送企服点评最新内容
消息通知
咨询入驻
商务合作