对话 CTO | 服务万亿旅游市场,去哪儿网企业级运维的精益实践
去哪儿网作为国内领先的旅游搜索引擎,高效稳定服务万亿旅游市场的背后是卓越的运维能力。万台实体机、数万台虚拟机的服务器规模,持续优化的技术迭代,成为去哪儿网服务客户的强力后盾。
在去哪儿网的内部,同样追求「利用技术解决效率问题」。大概 4、5 年前,为解决团队的沟通效率问题,去哪儿网开始研发 QTalk 即时通讯工具。当时市面上还没有钉钉这样的产品,去哪儿网网站运营中心 CTO 孙斌团队决定用开源的技术进行内部开发。现在,公司所有内部运营系统基本都可以对接在 QTalk 上,孙斌的想法是,「公司内部系统决定了运营效率问题,系统越高级,公司运转就没那么费力,尤其是到了一定规模以后。」
使用了很多开源技术之后,去哪儿网从去年开始将内部使用的消息中间件 QMQ 放到 GitHub 进行开源,在孙斌看来,公司可以通过开源完善技术,而开源也会成为技术领域的大趋势。
本期「对话 CTO 」请到了去哪儿网网站运营中心 CTO 孙斌。孙斌加入去哪儿网时,公司还处于相对早期的起步阶段,随着人的规模、业务的规模、服务器的规模扩大,孙斌也在构建着自己的技术视角、管理视角、行业视角、商业视角。
业务扩张背后,万台服务器的高效运维
颖奇:非常感谢去哪儿网网站运营中心 CTO 孙斌同学接受我们的采访。请您先大概介绍一下,在去哪儿大框架下网站运营中心是一个怎样的部门呢?
孙斌:网站运营中心的职责有几个,一是构建所有基础架构的设施,比如像数据中心、服务器、系统;另外一个是配置管理,有点像你们 ONES 的产品。再就是一些过程改进、技术委员会的一些标准、监控等等。相当于所有的底层数据的存储和计算都在网站运营中心。
颖奇:那目前在运营的服务器大概是什么样的规模?
孙斌:我们实体机快到 1 万台,虚拟机大概 6 万多台。我刚来去哪儿的时候,其实已经在做虚拟化的东西,只不过那时候是 Xen,现在 KVM 多一些,容器也会做一些。
颖奇:看上去你们有大量的搜索,有一些预判的东西。
孙斌:对,但是旅游行业不像搜索行业,搜索行业必须用实体机。旅游行业没有那么大的波动的量,基本上我们都是用虚拟化技术,底层的虚拟化加上 Java 的程序去做。
颖奇:流量会有一个非常明显的波峰吗?
孙斌:实际上早期会有,那是因为系统对容量规划做得不好。现在的话,像春运或十一我们大概都知道它的区间了,就不算一个异常情况,我们都会提前准备好。
颖奇:我们近期参与了信通院 DevOps 标准的制定,了解到去哪儿网也有参与进来。您觉得国内 DevOps 能力以及工具的发展现状是怎样?与国外最大的差别是什么?
孙斌:国内很多的思想是通过国外过来的,DevOps 也是。国内现在还是一个混沌的状态,原来没有这种 DevOps 标准,大家就是靠感觉摸索着做。我个人觉得在 DevOps 的实践上,适合公司现在的业务发展才是最重要的。因为每个公司经历过的东西是不一样的。比如我之前在雅虎中国见过「巨量」公司怎么去做研发管理;如果是在小公司,核心思想又会变成怎样去解决短期最核心要解决的问题。
颖奇:所以您觉得长期来看,中国在研发管理以及 DevOps 上会有怎样的发展呢?会追平甚至说超越国外实践吗?
孙斌:我觉得很有希望超过国外,因为这个世界上好像业务量如此庞大的目前就只有中国。量变会带来质变,业务总量庞大会推进技术的变化。
从应用到贡献,企业级 IT 的开源洞见
颖奇:刚才讲到内部管理的一些问题,去哪儿网现在是在使用你们内部开发的 QTalk?
孙斌:是的。当时我们用的 IM 使用起来不太方便,工具跟不上软硬件的更新速度。而且当时市面上也没有像钉钉这样的产品,所以我们用了开源的东西来自己做。我认为内部系统决定了整个公司运营效率问题,系统越高级,整个公司的运转就没那么费力,尤其是到了一定规模以后。因为工程成本是非常大的成本,这里经常会遇到很多问题。我们做完 QTalk,把各个组件补上之后,移动审批、移动申请也就都开始应用了。当时我们看到开始移动互联网化,很多公司内部运营就也一起往移动端上迁了。目前我们基本所有的内部有流动化的系统都集合在 QTalk,比如 IM、监控、自动化运维、HR、财务审批等等。我觉得将来最好是手机上用 QTalk 什么事都能搞定。
颖奇:您能够大概讲一下你们内部系统的一些选型方式吗?比如说财务、HR 是用什么系统进行管理的?
孙斌:HR 我们买的是 Oracle PeopleSoft。本来一开始我是想做的,后来发现很难做,因为很多流程是想不到的。而且当时选型的时候,去哪儿还有国外的一些办事处。当时的问题是,第一流程太细,我们肯定没有 Oracle 做了这么多年可以做的那么专业;第二是有国外的办事机构,当地的税率等等都不一样,所以买一个可能是最省时省力的。但是他们实施完后,我们会接着做二次开发。
颖奇:我们现在的一些客户,中大型的企业选型时也会考虑这些因素。
孙斌:互联网行业的公司先抛开不说,传统企业将来再往上走,拼的是效率,效率是非常重要的。而且我觉得传统方式很难管理技术人,特别是互联网公司的技术人,所以很多传统企业转型的一个重要事情是看互联网公司的东西能不能用起来,怎么能很好的落地。虽然这里面肯定有一些玩法不一样,毕竟传统公司和互联网公司情况不一样,但我觉得大方向肯定是这样的。
颖奇:您觉得这种企业的内部系统还有哪些方面是大家可以借鉴的呢?
孙斌:商业化公司我觉得现在钉钉做的挺好的,因为沟通是企业最基本的需求。它通过这个入口能去把一些周边商业插件送进去,不一定是他自己做,可能跟第三方合作的,这样企业的依赖度就会更高,这个战略我觉得还是很好的。然后做工具这种,就一定要做专业,并且能够兼容企业现有的研发体系,大家就可以用起来了。
颖奇:去哪儿使用了很多开源的东西,同时也在贡献开源社区,包括在开源 QMQ。您可以大概讲一下你们与开源社区互动的一些实践吗?
孙斌:开源其实是我们去年下半年 Q3、Q4 做的,我觉得现在开源肯定是个大趋势。阿里现在也在做开源,他们的目的是,第一,能完善他们的技术;第二,有人喜欢这个项目,对于企业来说,也是一个很好的招聘渠道;第三,技术品牌、技术实力也能宣传。其实我们开源的 QMQ 只是内部系统的一部分,我们是希望能够把所有系统关联起来。因为我们的系统兼容性很大,我们开源出一个组件,最好能够把不同层次的组件都贡献出去,形成一个闭环的模式,从上到下都能够用起来。这样可能对于中小型公司,它就不需要用一些太复杂的其他管理系统,直接用我们的一套就可以了。
颖奇:我觉得去哪儿在开源方面是有深度参与的。
孙斌:是的。而且我为什么觉得开源是趋势,美国好多最近上市的公司都是开源,像 Elasticsearch,你就会看到它慢慢变成一个标准。把一个开源的东西做得特别好的时候,全行业都在用时候,就会成为一个标准。
面向未来的技术思考
颖奇:您认为有哪些技术可能在未来三到五年对去哪儿有比较大的影响,或者说能影响中国旅游行业甚至全球旅游行业的?
孙斌:我最近在关注 5G,在看它可能对行业有什么影响。我觉得一个行业改变,例如底层的像芯片技术、半导体技术或者通信技术,等它应用到一定程度的时候,它就会让产业或者是业务发生质的变化。5G 可以带来好几倍的带宽以及高密度,原来做不了的业务可能就可以做了。实际上 5G 在旅游相关的产品可能有很多应用场景。比如门票这种,应该是游客到了哪里就给他推送什么东西,或者大密度的去推一些东西,原来 4G 的时候可能做不到,5G 就有条件去做了。但是这种产品形态其实还要再看。
另外像实时计算和智能推荐对旅游行业也非常重要。原来我们对用户都是滞后的判断,而现在的趋势是业务要求一个用户的行为你下一秒就要知道,然后再推给他一个适合他的东西。所以实时计算的技术,像 ELK 其实对业务模式的影响比较大。原来只通过日志分析,就会有滞后性。
我觉得其实一个商业模式,入口是你的产品的形态,然后你通过技术,不管是数据也好,系统也好,能够给客户适合他的产品。因为从人群来说,90 后、00 后对旅游的认知跟 80 后、70 后完全不一样。70 后、80 后主要看价格,他们觉得性价比最重要;而 90 后和 00 后的决策,价格只是其中一个影响因素。他们比较看中整体体验,玩的好不好,以及是否有新的玩法。我们有些项目也在尝试为用户单独去拍摄旅行视频,这个目前也在探索。
颖奇:YouTube 上看到会有年轻人用摄像机拍一天 Vlog,类似情景带入的这种。年轻人在线下也会有不一样的旅行习惯吗?
孙斌:对,90 后、00 后对旅游的概念不是说像 80 后、70 后那样,他们一定要融入当时的场景,不是作为游客,而是要去生活去体验,这个差异会非常大。年轻人也会到了目的地再决定行程,这个就需要我们去预测他的意图。这与之前自己会做好计划,是两个决策方式。现在大家都没什么计划,但是需求不明确的时候你可以替他完善需求。比如说即时推荐,这又和搜索推荐的技术相关。
我觉得年轻人将来报旅行团会越来越少。因为翻译的软件会越来越智能,所以语言不是什么问题。关键是能不能带他去融入当时那个场景,这个其实是比较难的。就是实时的内容提供、景点推荐,包括怎样带他去体验当地生活。
颖奇:接下来能否给大家介绍一下您的个人履历。
孙斌:我大学毕业 06 年就直接去了雅虎中国,在雅虎中国的网络运维团队做了差不多 3-4 年。当年雅虎比较大,全球 30 万台服务器。我当时是只负责中国区域,但是能看到全球范围的资料。当时年纪小,就见过种大的体量的公司觉得还是有很多收获的。2010 年的时候我跟着我在雅虎的老板一起来了去哪儿。当时去哪儿还比较小,很多事情还在规范当中。我虽然在雅虎待了很长时间,但当时的雅虎已经是个巨无霸了,我对雅虎发展过程中的很多细节是不太了解的。而我来去哪儿的时候就是刚刚起步的阶段,所以当时在技术上、业务上的专业知识和流程,是随着去哪儿的发展过程边磨合边成熟的。
颖奇:去哪儿网一直在快速发展,您日常有哪些方法去思考或者吸收新知识?
孙斌:几个方面,一个是看书,一个是跟不同的人聊天,还有就是像混沌大学,高手讲课也可以听一听。我觉得所有这些信息构成一个人对事情的基本看法。
颖奇:有没有最近看的比较好的书?可以来分享一下。
孙斌:《赋能》《跃迁:成为高手的技术》《奈飞文化手册》都还不错。我最近还在看达里奥的《原则》和《债务危机》,我觉得投资的思维不在于说他赚不赚钱,而是他的思考逻辑很闭环,很严谨。思考的惯性思维,你理解以后对事情的看法又不一样。原来可能你只看到我把这事做了,但实际上不一定是最优的方案。所以很多时候我们看事情都是只看了表面,没看到根本。
颖奇:思维方式确实是大家都在关注的问题。我们采访了这么多CTO,一般都是工程师出身,然后逐渐从技术视角变成管理视角,然后业务视角、行业视角,最终变成商业视角。今天非常感谢您的分享。