数字化浪潮席卷而来,颠覆性创新正在加速。企业面临着前所未有的挑战和机遇,数字化转型成为其生存与领跑发展的关键突破口。据研究数据显示,数字化转型程度高的企业获得快速增长的几率是程度低的企业四倍之多。如何进行数字化转型、如何通过利用大数据,找到新的机遇和价值增长点成为越来越多企业关注的话题。
袋鼠云数栈赋能20+行业,服务3000+客户,是研究数字化转型解决方案的先行者,产品融合了大数据行业云原生、信创、湖仓一体、批流一体、多引擎兼容、跨云能力等多项前沿技术,在金融、政府、教育、军工等众多行业领域积累了丰富的解决方案经验。本次袋鼠云数栈以“数智洞见”专栏为交流窗口,将先进的技术和产品方案经验进行传递、分享,旨在帮助解决数字化转型的痛点与困惑;同时探讨转型思路和机遇,助力更多行业伙伴完成数智化升级、成为数据价值释放的“受益者”。
本专栏每周更新1-2篇,敬请关注。
Vol.开篇
作者|申杭
编辑|雨濛
本文4657字阅读约12分钟
据中国信息通信研究院发布的《中国数字经济发展白皮书》显示,2020年中国数字经济规模达到39.2万亿元,占GDP比重为38.6%,同比名义增长9.7%。在国内数字经济迅猛发展的背景下,企业自身的数字化建设和转型迫在眉睫,其中对数据的治理、管理、应用已成为企业运营关注的首要焦点。
在企业推进数字化建设的过程中,如何将自身业务产生的数据资产化是一项重要任务,数据资产的质量也决定了其应用效果,而数据资产化有赖于高效的数据质量管理工作,如建立数据管理标准、数据接入方式、数据质量核查评估体系等。在企业发展过程中,随着各种信息系统的逐步上线,数据采集方式越来越多,从而产生了包含业务数据,行为数据,系统日志数据,IOT数据等,数据类型涵盖结构化数据,半结构化数据,非结构化数据等来源不一、形式不一、标准不一的复杂数据。
在企业试图将这些数据进行标准化处理,形成数据资产,使用数据,挖掘数据价值,实现数据业务化的过程中,常常面临各种痛点和难点,主要体现在:
1.数据孤岛严重:烟囱式的应用开发模式,导致数据分散在不同的业务系统中,数据割裂严重,无法有效整合打通,很难做统一的统计与分析,难以发挥全域数据的价值。
2.重复开发:缺少数据沉淀、数据共享机制,当有新的数据需求时,重复开发导致人力资源、计算资源浪费严重。
3.数据管理困难:数据没有统一的标准和定义,分散在不同的存储上,没有统一的数据入口,元数据维护、在线化管理困难。
4.技术门槛高:数据采集、离线处理、实时处理、数据挖掘等需要用到不同的技术和组件,并且技术更新快,组件版本升级频繁,熟练掌握这些技术,需要花费大量的精力。
5.需求响应慢:为了满足不同业务方的数据需求,需要从多个业务系统中进行数据采集,再做复杂的转换加工,缺乏工具和平台方面的支撑,疲于应付临时性提数分析需求,无暇顾及平台级建设和数据治理,恶性循环。
企业数字化转型中遭遇的一系列痛点呼唤催生出数据中台,但数据中台的概念产生和实际落地,并非一步到位,而是经历漫长的发展过程。
——从单机数据库到数据中台:四代数仓技术的变革历程
为了解决数据孤岛的问题,实现数据分析,数据支撑业务决策,赋能业务的需求,二十世纪九十年代,数据仓库之父Bill Inmon提出数据仓库的概念,在之后的30年时间里,数据仓库技术经过了四代的发展和变革。
第一代:SMP架构
share-storage共享存储架构,采用EMC/IBM高端存储,优点是使用简单方便,和OLTP的数据库技术栈一致,缺点是存储昂贵,磁盘数据读写效率低,并且只能扩展到十几个实例,比较典型的是Orale、Oracle RAC、DB2等产品。
第二代:MPP架构
为了解决节点扩展性问题,出现了share-nothing的MPP架构,内存、存储都是自控制的,不存在共享。每个节点都是一个单独的数据库,采用本地计算的模式,节点之间的数据交互通过节点互联网络实现。通过将数据分布到多个节点上来实现海量数据的存储,通过并行查询处理来提高查询性能,这种架构以TeraData, HP Vertica,EMC GreenPlum等产品为代表。缺点是,新的节点加入的时候,数据需要重新分布,每次计算的时候,如果数据不在本节点,需要通过网络把数据移动过来,当节点较多的时候,移动数据耗费大量的IO和网络资源,这样就导致当集群规模到100个节点规模的时候,就很难继续横向扩展。
第三代:分布式架构
随着数据量的增长,为了解决更大规模的节点扩展性问题,Google在2006年发表了三篇设计论文,也就是著名的三驾马车: GFS、MapReduce、BigTable。依据此理论,产生了HDFS、MapReduce、 HBase等优秀的分布式组件,Hadoop生态圈开始蓬勃发展,直至今日,Hadoop在各行各业广泛应用,为了支持不同的场景,不断地有新的组件加入到Hadoop体系,例如Kudu 、Presto、Spark、Flink等。同时为了解决各种大数据组件繁琐的安装、管理、服务等问题,也产生了一些专门做Hadoop发行版的商业化公司,例如Cloudera、MapR、华为等。
第四代:新一代数仓架构-数据中台
Hadoop的横空出世,虽然解决了海量数据量下的节点扩展性,和各种计算场景的支持问题,但Hadoop生态圈,技术组件繁多,版本更新频繁,相当于一个重型武器,因此大数据相关人才需要花费大量的时间才能掌握此技术,并且开发效率低,管理复杂,而且后续组件和任务运维都要投入非常大的资源。
为了解决这些问题,最近几年,数据中台的理念开始在各行各业普及和落地,数据中台最核心的价值是沉淀公共数据能力和产品技术能力,强调数据和技术能力的复用性,数仓架构也从以前主要解决存储和计算问题,转到数据管理和数据应用,屏蔽底层技术的复杂性、多样性,形成一站式、智能化的数仓产品,通过这些产品高效地支持数据应用的快速创新。
第四代数仓架构,也就是数据中台的诞生为企业提供了全新的数据采集、存储、计算、数据管理、数据共享,通过数据处理和沉淀形成对于前台业务提供复用价值的数据资产,打通数据间、业务间的隔阂,实际上数据中台早已逐渐脱离纯粹的技术层面概念,而是成为企业在数据管理层面的平台和工具。
数据中台的核心在于业务及数据的一体化,它提供的是一种方法和通路,因此不受限于企业规模、业务种类、复杂程度等因素,能够被广泛应用到各行各业中,如商业领域的金融、零售、电商、快消、地产,公共事务领域的教育、军工、政务等一系列场景,实现多领域及行业的“中台化”。
同时,数据中台帮助企业降本增效的效果是明显的。以外卖店家或品牌门店简单举例,在过去一家多门店、多SKU的企业希望掌握并应用自身在各个环节、端点、业务线上产生的数据,需要巨大的人力、物力和时间成本,易受数据源混乱、数据难治理等问题的影响,最终放大决策结果的不可控性。
在引入数据中台后,数据中台通过商家接入的外卖平台、小程序、APP客户端或线下门店等数据源,采集、治理数据,形成从订单、物料、会员到门店的一系列整合数据,指导商家在渠道整合、物料留存、用户资产和运营效益方面的管理,同时这些数据资产能够为商家进一步的业务优化提供决策依据,如新品开发、供应链管理、营销手段的调整等等。
依据数据中台为企业提供数据采集、存储、计算、数据管理、数据共享的理论,袋鼠云自主研发了“数栈DTinsight”产品,为企业提供可复用的数字化基础设施。数栈从产品化方向和技术架构两个维度对数据中台进行了独特的设计与定义。
在产品化方向上,袋鼠云“数栈DTinsight”在整合企业业务数据、运维数据和设备数据的基础上,设计了企业数据“平台化”、“资产化”和“服务化”的三大核心平台:
一、平台化
Hadoop相关技术组件使用复杂、技术门槛高、版本更新迭代快,完成整条数据处理链路,涉及到数据采集、数据加工处理、任务发布管理、任务调度、任务运维等多个环节。从计算场景上,又分批处理、流式处理、数据挖掘等。因此在开发平台层产品上,需要屏蔽存储和计算引擎层的技术复杂度,支持多种不同的计算任务类型,同时通过一站式、一体化的平台,把整个数据链路全部集成和打通,从而降低技术的门槛,提高开发、运维管理的效率。
二、资产化
开发平台经过ETL处理后,产生了大量的可以被业务直接使用的、有价值的数据,但是数据质量如何保障?数据资产如何高效管理起来?这成为企业面临的大问题,因此需要建设资产平台,校验数据质量,保障数据产出的正确性和有效性,同时能以在线的、可视化的形式对数据进行管理,完善元数据信息,制定数据标准,对数据进行分级分类,安全性管理,并分析数据热度,数据血缘关系,提供统一的企业级数据访问入口。
三、服务化
沉淀有效的数据资产,最终需要给业务应用提供数据服务,产生数据价值,因此在数据服务的时候,需要统一的数据服务出口,保障数据在安全、可控的范围内使用,并进行实时在线的访问监管。
在技术架构维度,袋鼠云“数栈DTinsight”主要包含六类设计:
一.云原生:云原生主要涉及到计算的弹性伸缩和计算存储分离。大数据计算任务大部分都是在凌晨开始运行,传统的基于Yarn的资源调度模式,面临晚上计算资源不足,白天又浪费严重,因此需要基于云原生的架构,容器化编排,统一计算调度,根据任务量情况,自动弹性伸缩,提高资源的利用率。
同时大数据场景,对计算资源的要求要高于存储资源,计算资源和存储资源需求不均衡,大部分情况下计算资源不足,在计算和存储资源耦合的情况下,为了扩展计算能力,存储资源也一起扩展了,带来了大量的存储浪费,因此计算和存储分离后,可以根据需求,单独扩充计算资源,降低成本。
二.信创:信息技术应用创新发展是目前的国家战略,也是当今形势下国家经济发展的新动能,我国明确了“数字中国”建设战略,抢占数字经济产业链制高点的目标。在信创数据中台产品上,主要体现核心技术自主可控,以及开源开放等两方面。核心技术自主可控是大趋势,因此基于开源主流框架,具备源码二次开发和优化能力,并沉淀技术能力、自主知识产权,同时产品也需要拥抱信创生态体系,包含对国产数据库、操作系统、服务器等多个领域全面国产化适配。
三.湖仓一体:数据仓库属于强schema,事先建模,主要存储的是以关系型数据库组织起来的结构化数据。数据通过转换、清洗后,再导入到目标表中。优势在数据管理方便,弱点在于灵活性。
数据湖属于弱schema,事后建模,主要存储任何类型的数据,包括像图片、文档这样的非结构化数据,存储成本也更为廉价,读取的时候再进行schema解析。优势在于灵活性,快速得到结果,存储成本低,弱点在于缺少数据管理能力,以及对数据质量的保障。而企业对数据的需求中,这两种场景都存在,因此为了管理方便,通过湖仓一体的架构,打通多种不同的数据存储,并构建统一的元数据管理,实现数据湖和数仓的一体化。
四.批流一体: 大数据处理主要分批处理和流式处理,传统一般采用Lambda架构,批处理和流处理分别采用不同的技术架构,然后在数据服务层合并成统一的数据视图,此种方式需要维护两套分布式系统和两套不同的ETL代码,增加了大量的开发和维护成本。为了提高开发、运维的效率,因此需要统一的技术框架,通过一套计算引擎、一套代码实现批处理、流式处理等多种计算场景,大幅度提高开发效率。
五.多引擎兼容:在企业发展过程中,随着数据仓库技术的演进会存在多种计算引擎共存的情况,例如有Oracle、GreenPlum、Hadoop等多套大数据环境,每套环境中都有大量的业务数据和任务在运行,因此需要一套统一的平台来对接多套不同的集群,提供统一的开发体验。
六.跨云能力:随着这几年大量企业开始接受公有云模式,业务和数据逐步迁移到阿里云、腾讯云、华为云等云平台上,甚至部分企业已经购买了云厂商的EMR产品服务,因此需要数据中台平台具备跨云部署以及对跨云EMR的兼容能力,在复用云上服务器、计算集群的同时,提供统一的开发管控的入口。
结合数据中台的理论,通过以上的产品化方向和技术架构,袋鼠云研发出的“数栈DTinsight”作为新一代的大数据处理平台,能够最大程度帮助企业降低成本,提高大数据基础设施的投入产出比。
未来,数据中台将成为企业核心数字化战略之一,它体现了数据结合业务、数据间打通的新的企业管理思路,通过打造具备集企业研发、营销、财务、技术、业务、算法等于一体的管理平台推动企业数字化的转型。同时,数据中台产品在独立部署、行业云和公有云等多个领域具备着较大的规模商业化机会和发展空间。
一.独立部署常常被应用于涉密行业、金融、军工等对数据隐私、数据安全性要求非常高的行业领域。在相当长的时间里,这些行业的核心业务还会是在私有环境为主,和外部环境是网络隔离状态,因此对于这类客户,产品主要还是以独立部署形态存在,即一套环境,客户内部独享使用的模式,这样能最大限度保障数据安全,和降低数据泄露的风险。
二.行业云的特点主要体现在专业性和服务精细化方面。在一些大型集团,以及行业性非常强的领域,会统一建设行业云平台,为行业客户提供软硬件基础服务,例如金融云、移动云、各地的政务云等。在这些行业云平台上,提供数据中台产品,可以进一步地提高已有客户的粘性,发挥行业平台的价值。
三.公有云的核心特点是共享资源服务,适用于数据在云上的企业。开箱即用,使用便捷,弹性伸缩,成本低廉是这些企业共同的诉求,因此对于此类客户,未来有机会产生国内版的snowflake,通过技术手段充分利用几大云厂商的基础设施的优势,实现弹性伸缩,计算存储分离,跨云支持,按量付费等,为客户提供极致的数据中台SaaS服务。
数据中台作为衔接“前台”与“后台”的技术架构,强调的是数据及技术对前台数据业务的复用价值,通过数据治理方式,形成有价值的数据资产,并充分利用数据资产形成服务,最终通过数据技术手段拓展商业边界。
袋鼠云正是通过自主研发的“平台化”、“资产化”和“服务化”的核心产品和具备可扩展性、持续性、前瞻性、领跑性的的技术架构,重新设计定义数据中台产品形态,加速数据中台战略在企业的落地,帮助企业实现数据驱动业务,数据创新业务,数据管理业务的诉求,助力企业的数字化转型。