超融合双活集群打造半导体精尖制造“定海神针”
2020 年 5 月,上海申和热磁电子有限公司(下文简称“申和热磁”)迎来了 25 周年大庆。从 2002 年进军半导体硅片产业开始,申和热磁在电子,尤其是各种规格的太阳能级单、多晶硅锭和单、多晶硅片的制造上突飞猛进。2019 年,申和热磁又谱写了一部“老兵新传”,投资建立的杭州中欣晶圆半导体股份有限公司大硅片项目正式建成。这是一个标志性的突破,国内首家规模最大、技术最成熟、具有自主核心技术且真正可量产的半导体大硅片生产工厂起航。
稳定性压倒一切
众所周知,硅片等高精尖制造对材料技术、生产技术和流程,以及产品质量有极高的要求。申和热磁主要通过引入 MES 系统(制造执行系统)对生产的每道工序进行主动管理和质量控制,以提高良品率。因此,MES 系统能否稳定运行成了硅片制造质量的重要前提和保证。
MES 系统牵一发动全局,它必须运行在高稳定、高可靠的 IT 基础架构之上。
因为历史的沿革,申和热磁原先也和大多数制造企业一样,基于“服务器虚拟化+集中式存储”的传统架构,支撑 MES 系统的运行。这种方式的弊端在于,存在明显的单点故障风险,更不具备在灾难中快速恢复的能力。另外,随着业务的快速发展,原有机房在空间、制冷等方面捉襟见肘,也成为潜在的停机风险点,再加上部分服务器使用年限较长,稳定性和性能不足。
为保障 MES 系统的稳定运行,IT 基础架构升级势在必行。申和热磁利用在同城异地建设新建机房的契机,与原有机房配合,重新构建了能够支撑关键业务系统(包括 MES、ERP 等系统)的实时容灾基础架构,并且在新机房基础架构的建设中,努力提高资源利用率、节省空间,以适应业务的快速扩展。对申和热磁来说,超融合双活集群是“一箭双雕”的选择。
从保证可靠性和高可用性的角度出发,申和热磁在第一时间联系到 SmartX,并从 2019 年 7 月开始进行了深入的需求探讨和方案沟通。最终,双方根据申和热磁的实际需求,即需要在一个园区的 A、B 两个厂区分别建设一个机房,并且要实现实时容灾,最终决定基于业内流行的双活集群模式对整体 IT 架构进行改造。
为业务发展装上“永动机”
在环境准备到位后,SmartX 专业服务团队只用一天时间便完成了基于 SMTX OS 的双活集群部署,并在一周内完成了应用部署及相关的故障演练和验证。
从整个部署流程来看,申和热磁分别在 A、B 厂区的两个机房部署了 SmartX Halo 一体机,两个机房之间通过裸光纤进行互连,并通过 SMTX OS 超融合软件构建跨机房的拉伸集群。借助双活集群的功能,实现两个机房数据的完全同步,MES 数据库则可以通过 Oracle RAC 集群的方式部署在两个机房之上,一旦任意一个机房出现故障,业务系统都可以透明切换到另外一个站点上恢复运行,确保了 MES 业务系统的高可用。
此方案的核心——SMTX OS 双活集群由两个超融合站点以及仲裁节点组成,两个站点之间用网络连通,并且物理距离不大于 75 公里。双活集群中的业务数据将自动实时同步到远端站点中,一旦发生火灾或电力中断等灾难故障,业务可快速迁移到可用站点,并及时恢复运行。SMTX OS 双活集群保证了 IT 基础架构层面的高可用,同时配合实时应用集群 Oracle RAC,实现业务层面的高可用,“双管齐下”全面满足申和热磁的应用需求。
为确保整个系统的高可用性,申和热磁特别进行了故障演练,结果显示,MES 系统的 RPO 为 0,RTO 接近于 0,达到了预期的容灾效果。不仅如此,构建于超融合双活集群之上的 MES 系统的运行速度提升一倍,采购成本直降 30%。同时,ERP、OA 等重要生产业务系统也可通过 V2V 模式迁移到超融合环境中,轻松完成了硬件设备的更新换代。
见证并亲身参与了整个 IT 架构改造的申和热磁信息管理部部长沈剑锋深有感触:“SmartX 超融合双活集群解决方案,为我们的 MES 系统提供了高可靠支撑,有效保障了生产不停顿。”
超融合成为关键业务的中流砥柱
近年来,随着国内芯片、半导体行业的蓬勃发展,申和热磁的业务增长速度明显加快,布局也越来越深入。但从现状看,半导体硅片仍是我国半导体产业链与国际先进水平差距最大的环节之一。申和热磁还要继续深挖潜力,实现跨越式增长。
砥砺奋进二十五载,申和热磁在硅片高精尖制造方面从未停下前进的脚步,对技术和质量的不懈追求更是申和热磁勇往直前的动力。而作为助推器,IT 基础架构也要与时俱进,为稳定、高效、高质量的生产制造保驾护航。SmartX 在超融合领域拥有独特的产品和解决方案,特别是基于超融合的双活集群解决方案非常适合对稳定性和可用性有严苛要求的企业。
越来越多成功的实践表明,超融合架构完全有能力承载企业关键核心业务,成为业务稳定发展与创新的“定海神针”。