企业级云端Fabric:衡石x云器打造湖仓一体化分析方案
万物之始,大道至简。
过去的数据基础设施,搭建流程长且复杂,耗费人力、资金甚巨,也是拖慢企业数字化转型过程的重要原因之一。
近日,衡石科技与云器科技合作发布的云原生一体化分析解决方案,就像数字化领域的“大道”——通过数据的全流程一体化,他们完成了云端数据基础的搭建、连接简洁有效的BI端应用。
从数据存储、数据加工到数据分析及BI的呈现,用户首次获得了全量实时的智能分析体验,平台具有强大弹性,体验简明可靠。
这一解决方案意味着,衡石这一业界独树一帜的BI PaaS,进一步搭载了云器以Single-Engine为核心技术的数据引擎,共同驱动大数据分析走向未来的一体化时代。
未来,企业将有全新的数据体验——无需担忧复杂、多源的数据及架构,仅需一个简单易用的平台,企业就能从自身的数据金矿中不断获取价值、快速成长。
01
BI PaaS+云器Lakehouse带来全量实时的智能分析体验
通过统一数据、存储、语言,衡石科技与云器科技联合解决方案首次突破了过去离线分析或者离线实时Lambda架构的桎梏,能够提供全链路一体实时BI分析,让BI分析师能够更整合、更便利、更全面地分析实时和离线数据。同时,在数据架构上极致简化,避免实时离线多条数据烟囱和复杂的架构带来的指标口径不一致等问题。
“这是行业内第一次,能通过一套方案实现实时和离线的数据处理及分析,并且覆盖全域,对数据时间有更好地把控、显著降低成本、不受数据量限制,解决了企业客户的重要痛点。”衡石科技创始人及CEO刘诚忠表示。
“衡石BI一直以来关注用户的极致数据分析体验,通过和云器Lakehouse融合的解决方案,帮助企业更好把控数据,不再受数据离线或实时的限制使用和分析数据;真正做到将数据分析的全面性和便利性结合,给客户一个简单且统一的BI分析方案。”
这也意味着在面对高频数据时,用户能够根据需求获得实时结果;而业务需求减缓时则可以切换为离线。这样的变化都是基于同一套数据、指标及同样的链路处理方式,大大减少了搭建多套数据产品组合方案的成本,以及多个产品的运维成本,让智能分析变得更加统一、自由、高效。
在某跨境服务企业的实际体验中,过去其数据平台类似“组装式”架构,包含离线计算链路、实时计算链路和数据湖等,导致了产品组件多、运维成本高、计算复杂等三大问题——一方面是链路割裂、数据在统一上容易出问题;另一方面,多组件维护也产生了高昂的运维成本;在未来的数据要求增长时,组装式架构也在性能瓶颈、灵活性方面有着难以解决的局限性。
使用Lakehouse前:
使用Lakehouse后:
通过接入这一解决方案,该企业首次做到了全链路实时同步、数据架构进化,打破了组装式架构的种种局限性。从最终效果上来看,降低了5.2倍数据资源消耗、2.1倍CPU成本,性能提升。
具体而言,其数据平台的突破包括:
首次实现全链路实时同步
过去的数据平台,每天需要花费4~5个小时将所有业务表的数据拉到计算平台中,数据更新的频率有限,无法实现实时入库。通过这一解决方案,公司的数据处理方式发生了质的变化,从过去的批处理模式转变为实时同步模式,做到全量数据实时同步,提升业务效率和数据新鲜度,并随着实时数据的变化不断获得新的BI数据洞察。
降低资源消耗、提升性能
如上文提到,其CPU的成本及任务资源消耗双双降低,大大降低平台计算资源,还提高了客户平台上产品数据获取和查询的性能,使得数据处理和查询更加高效。
扩展性强、满足客户不断增加的业务需求
而该解决方案的强大之处,也反映在其扩展性上:针对客户的巨大实时数据计算需求,平台从过去的无法承载,变为可以满足客户的所有诉求与需求,通过统一管理及全域数据治理,一个平台支持BI、AI多种负载,大大提升服务的可能性与客户满意度。
比如跨境商户在商品品类统计分析时,可以将数据湖中的图片及对象存储路径进行location定义,在数据平台界面直接调用AI模型接口,完成商品图片品类识别,并将输出的结构化数据存储在数仓中,后续可以与订单表、商品维度表等数据进行关联统计分析。
能够通过一个平台赋予企业这样的数据能力,来自于两方的数年研发投入、对业务需求的深刻洞察与优秀配合。
云器作为一体化湖仓平台,为这一解决方案打造了优秀的数据基础:通过快速创建虚拟计算环境、湖仓一体数据集成以及针对实时场景的创新技术设计,仅用一套SQL代码、单引擎(Single Engine)、同一份数据,实现全链路的实时化数据处理。且性能成本比表现优异,在分钟级及以上实时场景性能下,可以达到数倍的成本节省。
而衡石则在过去数年中,独家推出了BI PaaS的产品形态,自研更适合数据分析的语义层、完成了端到端的数据分析架构创新(包括湖仓一体的开放式架构以及ELT + Embed的分析管道架构)、在云原生架构上支持多租户适配、API服务能力和弹性扩展。
本次合作中,结合云器的数据平台,衡石科技通过独特的指标中台、BI分析、数据服务等一站式数据能力,使数据真正在企业端发挥价值。
▲ 衡石科技指标平台架构
02
解决百倍突发、降低50%费用,新型平台展现强大弹性
在未来的大数据时代,除了更实时、更简明的数据服务外,数据系统的弹性也将成为评估其效果的重要指标,主要包括两点:
- 在峰值需求时的承压能力及未来扩展能力
- 在需求下降时的自动节省资源能力
本次衡石与云器共同发布的方案,展现了一个全新数据解决方案的强大弹性——伸缩自如,随需而动。
根据云器介绍,其自适应的虚拟集群模块(Virtual Cluster)可以很好地解决业务负载波动问题,在其架构中,只需创建一个新的virtual cluster并配置其扩展的最小和最大值,系统就可以自动地根据C端用户请求的并发数波动进行自适应扩容,并感知业务的负载。而在系统探测到负载下降后,会自动销毁virtual cluster 副本,“水位下降”。
自创立以来,衡石开发了更加灵活的ELT + Embed的管道架构,将计算后置,做到指标的中心化管理,高效沉淀和复用指标体系,减少数据重复加工,但是这样追求业务灵活的架构对计算平台的性能和算力同样有着极高要求。
而云器作为承接衡石的计算平台,拥有强大的算力及性能,这一高性能的湖仓平台+衡石ELT架构意味着二者合作后,可以在性能、弹性和分析灵活度上做到最佳的trade-off,真正实现了云端数据分析上的最佳实践。
在未来业务需求增长时,系统也能做到自动扩容,持续支撑从最初企业小体量数据到快速发展后巨量数据的算力需求。
在客户的真实体验中,在并发增长至10倍乃至百倍时,C端用户的查询响应体验始终保持在稳定的区间中,这正是因为基于并发数量增长,系统副本数做的自适应扩展,润物细无声地为客户在需求暴涨时提供有力的支撑。
而在需求稳定下降后,系统同样会检测负载状态,做到定时自动停止、销毁副本,按量付费、停止使用时0花费,避免资源浪费、降低费用高达50%。
03
AI+BI的未来:无缝、简单、普惠
随着ChatGPT引起的再一次全球AI热,AI+BI结合将逐步成为各行各业的标配,而它们也将重塑许多数据及业务场景。
一方面,从Data4AI的角度看,如果说BI更多是分析“过去”和“现在”的已知数据,解决已知的问题;AI加入后,将可以帮助企业探索未知,包括预测和判断,探索分析企业沉淀的数据宝藏——半结构化和非结构化数据。
随着AI成为数据的“一等公民,仅能做结构化数据分析的传统数仓将逐渐走向衰败,未来由湖仓架构加持的AI时代BI分析工具,将具备如下特点:
- 首先,支持多种类型的数据存储,且所有的数据存储在一个存储体系内;
- 其次,有统一数据管理能力,能覆盖半结构化/非结构化数据;
- 最后,开放数据设计,可支持上层已有的数个不同计算引擎,同时还能面向新的计算引擎完成扩展。
因此,开放式湖仓架构上的BI分析工具,将是AI发挥价值的最佳选择。
另一方面,从AI4Data的角度看,AI可以优化数据的处理链路和资源编排,让数据处理更加高效且节省成本——AI将通过强大的自学习和自加强能力,帮助企业优化数据的处理链路,基于日常使用习惯来进行资源编排。在某SaaS行业的客户实际使用案例中,初步测试带来了35%的资源消耗节省。
随着AI+BI的逐步落地,新一代一体化的湖仓架构将会成为未来整个计算平台架构的迭代发展的趋势。
过去,衡石科技作为数据分析及BI PaaS,曾与各个垂直领域的顶尖SaaS厂商和软件厂商结合。本次衡石与云器合作推出的云原生一体化数据解决方案,将带来企业级一站式的数据体验,按量付费、数据架构灵活,帮助企业进行应用AI的能力及数字化转型。
未来的AI+BI可能会有这样的趋势:
- 更加走入业务场景:不断提升交互方式、降低门槛、在各个行业及工种的普及速度大大增加
- 更“轻量嵌入”:更加容易地整合进现有系统,无缝进入业务流程
- 更“实时”:Copilot的模式会成为工作的标准配置,智能助手的加持让业务运营岗位的效能大大提升,可以做到数据驱动的精细化运营
在这个不那么遥远的未来里,我们也许能看见,随着这样简明数据基础设施的诞生,数据能力随着业务流程自由地在企业各个部门、职能中流转,时而化为决策的依据,时而指导人们寻找业务的疏漏,需要它时它源源而来,使用完毕后它马上偃旗息鼓、静待下一次召唤。真正的一体化云原生大数据时代,也许就此开启。