快云——云计算运维是什么？-36氪企服点评

云不懂运营的苦恼，就像白天不懂黑夜。回首团队十余载的“激情燃烧”岁月，往事历历在目，115科技创始人赖霖枫感慨道，“我们甚至成立了一个专门的‘换盘队’，7个人的团队每天都会更换硬盘，奔走于东莞、佛山、梅州等地的数据中心。接下来小编就给大家介绍一下快云云计算运维是什么，一起来看看吧。

快云——云计算运维是什么？云计算运维是什么？

十年磨一剑，赖霖枫及其团队一手建造支撑115网盘“帝国大厦”的IT基础设施，更是在运营方面积累了非常丰富的实战经验：文件校验、故障监控报警、数据防丢失恢复...连哈希算法都有自己的一套，团队上下做了许多特殊底层的事情。

"我们几乎研究、实践了所有的东西。就拿存储器来说，DDN的系统，我们已经做到了能够对其进行二次改造的程度。

完全适应自身应用实际，满足使用场景需求，多年来一路“摸爬滚打”，115团队已形成稳定的运营体系，积聚的知识库更称得上行业“无出其右”。那到底是什么因素促使115转向云端，把自己已经非常熟悉的事情交给别人去做呢？赖霖枫对以下几点进行总结。

第一，核心业务网盘多年稳定运行的背后，离不开IT基础设施运营团队的大量投入。为了提高网络连接的效率，115小组自行建立CDN。至后期，正式的机房设备维护升级中断，实际使用过程中遇到许多BUG。

对此，团队甚至自研了一套分布式存储器准备更换，但无奈工程量太大，反复调试效果不理想，难以投入实际生产。在底层工作中投入了大量的人力、物力资源，长期来看，未必能跟上业务发展的需要。

成本高、效率低、压力大；网盘成本是网盘界需要重点考虑的问题。自建资源池的使用对于大容量冷数据存储的实际效果并不好。事实上，大量的机器被压在机房里，长期这样必然会导致成本的大幅上升。赖霖枫表示：“当数据量达到这个规模时，资源投入、成本效益等因素更需要综合考虑，谨慎权衡。

另外一个现实因素就是当时的115科技在佛山的机房被一家公司收购，团队迫不及待地去寻找新机房。如自行搬机房，一方面系统风险高实施周。

一方面，设备机房面临不得不搬迁的“窘境”，另一方面，与运维经验增长“比翼齐飞”，资源瓶颈日益凸显。上云还是不上？初步了解厂商相关信息，简单核算后，赖霖枫和他的团队发现上云其实是可行的，不如把专业的事情交给专业的人做，把精力都投入到业务上。

接下来就是评估各家方案，做决定的过程。“我们最后采用的思路就是和阿里云提议高度一致的方案。”赖霖枫表示，“阿里云的迁移方案整体性非常强，涉及文件迁移、网络迁移、业务系统迁移，不同模块是相互区分的。包括阿里云特色的‘闪电立方’服务，针对MySQL二次开发的能力等，都是我们重点考虑的因素。”

据了解，此次合作中，阿里云为115科技量身定制迁移方案，为确保115科技的业务不受任何影响，方案将不同地区物理机内的数据与云上的放置位置进行了一一对应的规划，保证每一比特数据都有迹可循，并制定了非常有效的物理机回收计划。

赖霖枫表示，与阿里云合作，印象最深刻的有两点。一是速度快，整体迁移仅耗时45天，创造了新的“中国速度”。2018年6月7日，115科技和阿里云宣布完成阿里云史上最大数据迁移上云项目，115科技的全部数据都搬迁至阿里云上，规模超过100PB，这也是中国互联网史上涉及用户量最多、数据规模最大的迁移项目之一。二是充分保障用户数据安全，整个数据传输过程严格遵循“加密→解密→进库”规范，一步都没有省。

到今天，云计算的工业实现已经不太难了。现在有开源软件 KVM 和 Xen，这两个东西基本把虚拟化搞定；而 OpenStack 则把管理、控制系统搞定，也很成熟。

PaaS 也有相应的开源，比如 OpenShift，而 Java 里也有 N 多的中间件框架和技术。另外分布式文件系统 GFS/TFS，分布式计算系统 Hadoop/Hbase 等等，分布式的东西都不神秘了。技术的实现在以前可能是问题，现在不是了。

对于云计算工程方面，现在最难的是运维。管 100 台、1 万台还是 100 万台机器，那是完全不同的。机器少你可以用人管理，机器多是不可能靠人的。

运维系统不属于功能性的东西，用户看不见，所以这是被大家严重低估的东西。只要你做大了，就必然要在运维系统上做文章。数据中心 / 云计算拼的就是运维能力。
为什么我说运维比较复杂，原因有这么几个。

一方面，云计算要用廉价设备取代那些昂贵的解决方案。所谓互联网的文化就是屌丝文化，屌丝就是便宜，互联网就是要用便宜的东西搭建出高质量的东西，硬件和资源一定不会走高端路线——比如 EMC、IBM 小型机、SGI 超级计算机等等，你如果用它去搭建云计算，成本太贵。

用廉价的解决方案代替昂贵的解决方案是整个计算机发展史中到今天唯一不变的事情。所以如果你要让夏利车跑出奔驰车的感觉，你需要自己动手做很多事，搭建一个智能的系统。用廉价的东西做出高质量的东西，运维好廉价的设备其实是云计算工程里最大的挑战。

另一方面，因为你机器多了，然后你用的又不是昂贵的硬件，所以故障就变成了常态，硬盘、主板、网络天天坏。所以，没什么好想的，运维就必须要跟上。云计算的目标是在故障成为常态的情况下保证高可用——也就是我们所说的，你服务的可用性是 3 个 9、4 个 9 还是 5 个 9。

快云-MySQL数据库

0条点评

咨询产品

免费试用

解决用户选型困难的好软件，有各维度的信息

快云信息科技有限公司，成立于2015年10月，注册资金5000万元，隶属景安集团（股票代码：832757）旗下，是国内专业的云计算公司之一！公司自主研发云计算平台，拥有“快云”品牌，提供计算、存储、网络等企业必需的基础IT资源，同时深入了解互联网、移动互联网、传统企业等不同的应用场景，为其提供相应的行业解决方案。公司现有快云服务器、快云VPS、快云数据库、快云存储等计算存储产品，快云抗D、快云CDN、快云SSL、快云Waf等云安全产品，以及快云行业解决方案等一系列云计算产品。目前快云依托郑州、北京、香港等云计算节点已为超过40万家的企业用户提供了云计算服务，致力成为国内可信赖、优口碑的专业云计算服务提供商。

最后，这一大堆机器和设备都放在一起，你的安全就是一个挑战，一方面是 Security，另一方面是 Safety，保证数十台数百台的设备的安全还好说，但是对于数万数十万台的设计，就没有那么简单了。

所以，面对这样的难题，人是无法搞得定的，你只能依靠技术来管理和运维整个平台。比如必须有监控系统。这跟操作系统一样，对资源的管理，对网络流量、CPU 利用率、进程、内存等等的状态肯定要全部收集的。收集整个集群各种节点的状态，是必然每个云计算都有的，都是大同小异的。

然后，你还要找到可用性更好的节点，这需要有一些故障自检的功能。比如阿里云就遇到过磁盘用到一定时候就会莫名其妙的不稳定，有些磁盘的 I/O 会变慢。变慢的原因有可是硬盘不行了，于是硬盘控制器可能因为 CRC 校验出错需要要多读几次，这就好比 TCP 的包传过来，数据出错了，需要重新传。

在这种硬盘处理半死不活的状态时，你肯定是需要一个自动检测或自动发现的程序去监控这种事情，当这个磁盘可能不行了，标记成坏磁盘，别用它，到别的磁盘上读复本去。我们要有故障自动检测、预测的措施，才能驱动故障，而不是被动响应故障，用户体验才会好。换句话说，我们需要自动化的、主动的运维。

为了数据的高可用性，你只能使用数据冗余，写多份到不同的节点——工业界标准写三份是安全。然而，你做了冗余，又有数据一致性问题。为了解决冗余带来的一致性问题，才有了 paxos 的投票玩法，大家投票这个能不能改，于是你就需要一个强大的控制系统来控制这些东西。

此外，公共云人来人往，里面的资源和服务今天用明天不用，有分配有释放，有冻结，你还得建立一个资源管理系统来管理这些资源的生命状态。也有权限管理，就像AWS的IAM一样，如果没有像AWS这样的IAM权限管理系统，AWS可能会像今天这样被许多大公司使用。企业级云平台需要企业级运营和管理能力。以上就是小编为大家介绍的云计算运维是什么，希望对您有帮助。