云不懂运营的苦恼,就像白天不懂黑夜。回首团队十余载的“激情燃烧”岁月,往事历历在目,115科技创始人赖霖枫感慨道,“我们甚至成立了一个专门的‘换盘队’,7个人的团队每天都会更换硬盘,奔走于东莞、佛山、梅州等地的数据中心。接下来小编就给大家介绍一下快云云计算运维是什么,一起来看看吧。
云计算运维是什么?
十年磨一剑,赖霖枫及其团队一手建造支撑115网盘“帝国大厦”的IT基础设施,更是在运营方面积累了非常丰富的实战经验:文件校验、故障监控报警、数据防丢失恢复...连哈希算法都有自己的一套,团队上下做了许多特殊底层的事情。
"我们几乎研究、实践了所有的东西。就拿存储器来说,DDN的系统,我们已经做到了能够对其进行二次改造的程度。
完全适应自身应用实际,满足使用场景需求,多年来一路“摸爬滚打”,115团队已形成稳定的运营体系,积聚的知识库更称得上行业“无出其右”。那到底是什么因素促使115转向云端,把自己已经非常熟悉的事情交给别人去做呢?赖霖枫对以下几点进行总结。
第一,核心业务网盘多年稳定运行的背后,离不开IT基础设施运营团队的大量投入。为了提高网络连接的效率,115小组自行建立CDN。至后期,正式的机房设备维护升级中断,实际使用过程中遇到许多BUG。
对此,团队甚至自研了一套分布式存储器准备更换,但无奈工程量太大,反复调试效果不理想,难以投入实际生产。在底层工作中投入了大量的人力、物力资源,长期来看,未必能跟上业务发展的需要。
成本高、效率低、压力大;网盘成本是网盘界需要重点考虑的问题。自建资源池的使用对于大容量冷数据存储的实际效果并不好。事实上,大量的机器被压在机房里,长期这样必然会导致成本的大幅上升。赖霖枫表示:“当数据量达到这个规模时,资源投入、成本效益等因素更需要综合考虑,谨慎权衡。
另外一个现实因素就是当时的115科技在佛山的机房被一家公司收购,团队迫不及待地去寻找新机房。如自行搬机房,一方面系统风险高实施周。
一方面,设备机房面临不得不搬迁的“窘境”,另一方面,与运维经验增长“比翼齐飞”,资源瓶颈日益凸显。上云还是不上?初步了解厂商相关信息,简单核算后,赖霖枫和他的团队发现上云其实是可行的,不如把专业的事情交给专业的人做,把精力都投入到业务上。
接下来就是评估各家方案,做决定的过程。“我们最后采用的思路就是和阿里云提议高度一致的方案。”赖霖枫表示,“阿里云的迁移方案整体性非常强,涉及文件迁移、网络迁移、业务系统迁移,不同模块是相互区分的。包括阿里云特色的‘闪电立方’服务,针对MySQL二次开发的能力等,都是我们重点考虑的因素。”
据了解,此次合作中,阿里云为115科技量身定制迁移方案,为确保115科技的业务不受任何影响,方案将不同地区物理机内的数据与云上的放置位置进行了一一对应的规划,保证每一比特数据都有迹可循,并制定了非常有效的物理机回收计划。
赖霖枫表示,与阿里云合作,印象最深刻的有两点。一是速度快,整体迁移仅耗时45天,创造了新的“中国速度”。2018年6月7日,115科技和阿里云宣布完成阿里云史上最大数据迁移上云项目,115科技的全部数据都搬迁至阿里云上,规模超过100PB,这也是中国互联网史上涉及用户量最多、数据规模最大的迁移项目之一。二是充分保障用户数据安全,整个数据传输过程严格遵循“加密→解密→进库”规范,一步都没有省。
到今天,云计算的工业实现已经不太难了。现在有开源软件 KVM 和 Xen,这两个东西基本把虚拟化搞定;而 OpenStack 则把管理、控制系统搞定,也很成熟。
PaaS 也有相应的开源,比如 OpenShift,而 Java 里也有 N 多的中间件框架和技术。另外分布式文件系统 GFS/TFS,分布式计算系统 Hadoop/Hbase 等等,分布式的东西都不神秘了。技术的实现在以前可能是问题,现在不是了。
对于云计算工程方面,现在最难的是运维。管 100 台、1 万台还是 100 万台机器,那是完全不同的。机器少你可以用人管理,机器多是不可能靠人的。
运维系统不属于功能性的东西,用户看不见,所以这是被大家严重低估的东西。只要你做大了,就必然要在运维系统上做文章。数据中心 / 云计算拼的就是运维能力。
为什么我说运维比较复杂,原因有这么几个。
一方面,云计算要用廉价设备取代那些昂贵的解决方案。所谓互联网的文化就是屌丝文化,屌丝就是便宜,互联网就是要用便宜的东西搭建出高质量的东西,硬件和资源一定不会走高端路线——比如 EMC、IBM 小型机、SGI 超级计算机等等,你如果用它去搭建云计算,成本太贵。
用廉价的解决方案代替昂贵的解决方案是整个计算机发展史中到今天唯一不变的事情。所以如果你要让夏利车跑出奔驰车的感觉,你需要自己动手做很多事,搭建一个智能的系统。用廉价的东西做出高质量的东西,运维好廉价的设备其实是云计算工程里最大的挑战。
另一方面,因为你机器多了,然后你用的又不是昂贵的硬件,所以故障就变成了常态,硬盘、主板、网络天天坏。所以,没什么好想的,运维就必须要跟上。云计算的目标是在故障成为常态的情况下保证高可用——也就是我们所说的,你服务的可用性是 3 个 9、4 个 9 还是 5 个 9。
[免责声明]
文章标题: 快云——云计算运维是什么?
文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。