大型机没有灭亡,反而正成为AI、混合云的宠儿
作者:赵满满
编辑:小宏
编审:杨小天
头图来源:中培伟业
本文是《中智观察》“企业数字服务供需市场”行业洞察之人工智能篇。二三十年前,专家就预言了大型机的死亡。然而,诞生70多年的古老的大型机不但没有消亡,而且又开始抬头了,在混合云、AI、量子计算等新兴领域大展拳脚。基于关键业务和AI应用,IBM的大型机能够咸鱼翻身,再造辉煌吗?
——海比研究院
2022年5月23日
在20世纪50年代初,大型机开始进入市场,“蓝色巨人”IBM 和七个“小矮人”——Burroughs、Unisys、NCR、Control Data、Honeywell、GE和RCA用大型机创造了计算时代,并在最大的组织和企业中争夺关键应用、复杂建模以及大规模事务和工作负载。
在过去的70多年中,计算能力、存储和网络在每一波颠覆性技术浪潮中,出现了多次各种集中化和去中心化浪潮。
在这每一波体系架构浪潮中,专家、分析师和行业观察人士都预言了大型机因为昂贵、复杂、封闭等而“死亡”。
然而,70多年过去了,古老的大型机又开始抬头了。
对于许多CIO来说,混合云都是“and”战略,而不是“or”战略。对于许多企业来说,在与亚马逊云科技、微软Azure、阿里云、腾讯云、华为云等公有云合作的同时,出于成本和安全原因,将其密集型工作负载保留在大型机上。
另一方面,大型机已经为AI应用做好了准备。2022年4月,IBM最新的大型机IBM z16及其集成的片上Telum AI加速器已准备好大规模分析实时事务,非常适合大型机关键型任务工作负载,如医疗保健和金融交易等,并开始受到用户的青睐。
IBM CEO Arvind Krishna表示,全球市场正处于达到关键AI临界点的风口浪尖,该临界点将释放重大的生产力提升。那么AI会成为大型机的新领地吗?IBM能借助大型机在AI、混合云,甚至是量子计算等方面,再造辉煌吗?
图片来源:IBM
1991年3月,当时的风险投资家、InfoWorld的主编Stewart Alsop首次预测,最后一台大型机将于1996年3月15日拔掉电源。
在此后的30年中,没有人怀疑,大型机将走向灭亡的预言。但是,大型机消亡了吗?
大型机在70年后仍然保持强劲威力。
在2020年第四季度大型机使用情况通报中,IBM分享了有关大型机采用情况的统计数据。
其中,财富100强中的67位,前50大银行中的45家,前10大保险公司中的8家,前10大电信公司中的8家,前10大零售商中的7家,前5大航空公司中的4家等,都在使用大型机。
在过去十年,IBM大型机的使用数量增长了350%。
市场研究机构Forrester在2019年对IBM大型机专业人员的调查结果显示,近90%的企业计算专业人士认为其技能组合的就业市场需求正在增长,75%的人认为市场对大型机技能的需求很高。
在2020年德勤的调查中证实,大型机的使用量继续增长,74%的受访者认为,大型机作为其组织的战略平台具有长期可行性。91%的受访者认为,在未来12个月内,扩展其大型机业务是一项中等或关键的优先事项。72% 的企业计划在未来三年内升级其大型机。
大型机Mainframe更多地被形容成一整套操作、应用和系统的集合,目前广义上已经把之前更加细分的大型机、小型机、其他一些Unix系统等,基本都归类为大型机了。
其核心是采用专心的CPU,如IBM Power/HP RISC等,而不是现在工业标准的x86 CPU;采用的操作系统为专用Unix系统,当然现在则采用了Liunx系统;采用专用的中间件和应用系统等。金融系统一直是应用大型机数量最大最集中的领域。
IBM CEO Arvind Krishna
第三,AI已经成为IBM和大型机发展的重要应用领域。
IBM CEO Arvind Krishna在2022年的Think大会表示: “在数字化转型浪潮的引领下,技术成为竞争优势之源。我们的客户和合作伙伴相信IBM能够持续创新,提供混合云、人工智能和咨询相关解决方案,为其业务保驾护航。”
IBM发布了2022年全球人工智能采用指数。报告显示,目前,35%的公司正在其业务中使用人工智能,比2021年高出4个百分点。此外,30%的受访者表示,组织的员工已经通过新的人工智能和自动化软件和工具节省了时间。
Krishna说:“人工智能迅速发展的原因是,我们每天产生的数据为2.5万亿字节。任何数量的人类都不可能处理它。旧的分析和数据库技术是不够的。人工智能是唯一能够利用和收集这些数据以获得洞察力的工具。”
因此,IBM在AI发展上,也把大型机纳入了发展规划,为此专门推出专用的推理芯片和大型机。
拥有Telum芯,实现欺诈检测等AI推理工作负载。
2021年,蓝色巨人IBM推出了Telum,首款具有AI推理加速功能的芯片,使其能够在交易发生时执行欺诈检测等任务。
IBM介绍说,该芯片包含8个处理器内核,具有深度超标量无序指令流水线,以超过5GHz的时钟频率运行,针对异构企业级工作负载的需求进行了优化。
同时,完全重新设计的缓存和芯片互连基础设施为每个内核提供32MB的缓存,并且可以扩展到32个Telum芯片。双芯片模块设计包含220亿个晶体管和17层金属层上的19英里导线。
IBM Z硬件开发高级技术人员Anthony Saporito表示,L2缓存可以组合并形成虚拟的256MB L3缓存,最多8个Telum芯片可以组合成虚拟的2GB L4缓存。
Telum设计的关键创新之一是,在芯片上构建了一个AI加速器,直接连接了所有内核,并通过硬件设计、固件、操作系统以及能够将深度学习带入交易的软件,在堆栈上构建了一个生态系统。
借助这项技术,不仅可以达到每秒成千上万的交易,具有高可靠性和零停机时间特性,而且能够进行实时深度学习推理、欺诈检测和分析。
另一大创新是IBM Research创建了一款采用2nm制造的测试半导体技术,与基于7nm的芯片相比,使用相同的功率,性能将提高45%,或者只使用75%的能源。
2nm技术将于2024年底投入生产。大规模使用可能会在2025年左右出现。
而目前最先进的半导体制造工艺是5mn,IBM展示给大家的是一个可以组装的2nm晶体管。意味着这个行业将在未来十年内持续改善半导体制造工艺。
该芯片基于三星创建的7nm极紫外技术构建。在开发三年后,第一个使用该芯片的大型机Z16已经于2022年4月推出。
第一台面向AI的IBM大型机已经问世。
2022年4月,IBM推出了最新一代的大型机IBM z16,配备IBM Telum 处理器,可提供实时 AI洞察。
IBM用自己的实力想行业证明,大型机在2022年与1960年代一样重要。
海比研究院通过观察发现,定位于AI应用的IBM z16有其不可忽视的优质特性:
第一,用于推理的Telum AI加速器是行业首创。IBM z16及其集成的片上Telum AI加速器已准备好大规模分析实时事务,适合大型机任务关键型工作负载,如医疗保健和金融交易等。
这款21世纪的Big Iron AI加速器内置于其核心Telum处理器上。借助这款新的双处理器 5.2 GHz 芯片及其16内核,每天可以执行3000 亿次深度学习推理,延迟为1毫秒。
分析师认为,人工智能加速器是一个游戏规则改变者。与平均网络延迟为60毫秒的同类 x86云服务器相比,采用z/OS的z16在推理时具有20倍的响应时间,吞吐量提高了19倍。
Tellum处理器上的AI加速器,利用AI推理模型分析大型机内进行的大量事务处理的细节,以发现趋势并做出智能预测。
第二,首配量子安全系统。z16还包括一个所谓的量子安全系统(Quantum-safe),以保护组织免受可能破解当今加密文件的未来威胁。这是在z16对Crypto Express8S适配器的支持下完成的。
它围绕CCA加密协处理器和PKCS #11加密协处理器构建,使用户能够开发量子安全加密。它也适用于经典密码学。
借助 IBM z16 的创新,客户可以在关键型数据所在的位置通过推理来提高决策速度。
第三,更多应用场景。随着诸如即时支付、反洗钱 (AML) 等越来越严格的法规以及在线交易的急剧增加,欺诈的数量在逐年上升。IBM z16通过嵌入式 AI ,能够实时、大规模地处理大量关键事务和工作负载,帮助企业降低风险。
Telum处理器的应用场景还包括贷款审核、加密货币的清算、结算、逃税及零售业联邦学习(Federated learning)防范欺诈及盗窃等在内的各类业务。比如,它可以加快金融机构对企业或消费贷款的审批,也可以帮助确定结算前哪些贸易和/或交易可能存在高风险。
5年前,日立公司决定停止开发自有大型机产品。今年2月,富士通又宣布将在2030年放弃大型机业务。
近些年来,大型机市场的“玩家”正在以肉眼可见的速度在减少。
但是大型机留下的市场空间却没有人会忽视。AWS推出一系列服务,将大型机工业级工作负载迁移到云中。AWS 首席执行官 Adam Selipsky说,大型机既昂贵又复杂,并且具有传统的编程方式。通过将大型机工作负载迁移到云端,客户能够将成本降低多达70%。
但是,无论采取哪种方式,从大型机的迁移都可能需要数月到数年才能完成。大型机被替代的进程并不顺利。
行业专家认为,IBM 2019年发布的IBM z15,被称为“为云而生”的主机,其一大亮点是帮助企业实现跨混合云环境管理客户数据隐私,支持企业的云迁移和混合云环境下的业务创新。
而今年IBM推出了大型机——IBM z16,将是为AI而生的。
日趋成熟的AI技术成为企业加速技能升级的“精良装备”,但与此同时,计算压力也如“排山倒海”般涌向后端。
以金融欺诈场景为例,根据IBM和Morning Consult推出的《2022年IBM全球金融欺诈影响报告》,由于计算延迟问题,大规模实时运行深度学习模型难以实现,金融应用中的欺诈检测模型只在不到10%的大批量交易中运行,还有大量的欺诈无法被检测到。
这些应用场景都为z16提供了用武之地。根据 IBM的内部基准测试,借助Telum处理器,IBM z16每天可以处理 3000亿个推理请求,延迟时间仅为1毫秒。
美国某银行已经基于IBM zSystem,将AI的欺诈检测引入其信用卡授权流程中。他们曾经试图在平台外执行类似的操作,但基本最快的响应速度也需要超过80毫秒。而引入AI加速器之后,不仅响应时间缩短到单毫秒延迟,并且交易处理量还从每秒1200笔,扩展到了每秒15000 -20000笔,这意味着他们可以分析每一笔交易。
作为关键任务设施,大型机中承载着海量数据,某些信息甚至可以追溯到几十年之前。其中最大的挑战在于AI这一新兴技术缺乏向前兼容的能力。
大型机的功能同样在快速发展。例如,IBM公司就一直在努力针对AI应用调整其Z系统,包括将其与各类常见开源平台如Spark、PyTorch、Keras以及TensorFlow等相集成。
IBM正努力帮助客户以最少的应用改动将AI嵌入到企业关键任务工作负载与核心业务流程中,并在满足最严苛服务水平协议(SLA)的同时对每项事务做出评分。
通过在Z系统上生成AI洞见,客户可以利用大型机上的过往数据,可在交互点上实现实时响应,进而建立起欺诈检测到重要用例。同时由于无需移动任何敏感数据,因而还有着明显的安全优势。
海比研究院认为,大型机并没有固步自封,x86也不是事事如意。因此,当AI大型机推出,并得到顶级组织青睐时,一点都不用惊奇,毕竟用户最看重的是自己业务的发展。
本文作者系赵满满
本文来自微信公众号 “中智观察”(ID:Hapiweb-soft6),36氪经授权发布。