FastData云原生数据智能平台 | 滴普科技FastData系列解读
未来企业业务都是智能化的,且都是基于数据的。根据IDC白皮书《数据时代2025》预测,2025年全球的数据总量将会升至175ZB,且超过25%的数据将成为实时数据,规模化数据智能时代即将到来。
企业数据平台的建设将成为数据价值呈现的关键因素,从而推动全行业探索新一代实时数据智能平台,并基于云原生技术的中立性大幅度提升企业一线部门的数据应用效能。
滴普科技自主研发的FastData,核心愿景是打造低成本、高性能、易使用的一站式云原生数据平台底座,帮助企业从BI到AI实现数据驱动业务的数字化转型。
本文是关于新一代云原生数据智能平台FastData的开篇,接下来,我们会用8个专题详细介绍FastData的相关能力,每周推送一篇,帮助大家进一步了解FastData的细节和场景。
FastData通过一站式数据智能服务能力,解决企业技术架构和数据架构固有的成本问题和复杂问题,加强业务与技术团队更高效的协作和创新。
即便忽略人工智能规模化应用的挑战,大数据平台的建设也是企业的一件大事情:数据处理过程中将部署大规模数量的机器,与此同时,使用Hadoop等技术组件的选型对企业技术人员的能力要求都是巨大的挑战。
回归本质,企业要想更好地使用数据,应该聚焦在快速的数据融合与分析预测上,而不是把精力浪费在数据技术的选择及大规模机器的部署维护。
一家企业要想拥有大量繁多而有深度的技术专家:诸如OLAP数据库专家、分布式系统专家、多语言开发工程师,XXX-SQL工程师……这也是不可想象的。出于这样的目的,FastData提供的一站式数据智能平台,就能够方便企业低门槛且便捷地使用数据。
如果把时间拉长到3至5年之后,大数据和人工智能必定会紧密配合,它们之间的协同能力将对企业的智能应用起到决定性作用。在“Hidden Technical Debt in Machine Learning Systems”(机器学习系统中隐藏的技术债务)论文中,Google认为:在任何人工智能系统应用过程中,绝大多数不是算法的聪明与否,而是围绕这些算法的“管道”,即数据收集、清洗、验证等基础设施的到位程度,这样才能有效支撑你想做到的任何机器学习。
在AI/ML场景中,更多的数据将比更智能的算法对企业更有价值,尤其对于顶级的互联网公司来看,大数据处理的基础设施已经是核心部分,AI/ML带来价值只是时间问题。
1. 统一流式处理
相比传统的Lambda架构,FastData采用的Kappa Plus架构可实现一套架构同时满足流和批的处理,尤其面向未来,大多数BI或数据分析场景都是需要实时性的。因此,统一的架构一方面简化了企业的数据基础设施,更有效地利用资源;另一方面,也消除了原来Lambda架构下对企业人员技能要求过多的问题。
2. 支持多模数据的存储与分析
对企业来说,未来更多智能业务将基于计算机视觉、语音和文本挖掘的ML/AI,FastData可用于存储、优化、分析和访问多种新数据应用所需的数据类型。FastData提供端到端的数据能力,使得包括数据科学、机器学习以及SQL分析在内的多种差距很大的应用,采用统一的数据存储和调度执行方案。
FastData SQL 对多维度数据的支持,更进一步屏蔽了许多繁琐的非结构化数据处理过程,极大提升数据处理的体验。
3.云原生架构
面对企业上云的需求,FastData坚持云中立的理念,采用云原生的技术架构,对于不同公有云厂商和私有云环境,提供无差别的PaaS服务,保证企业投资的有效性和延续性。
4.事务支持
企业内许多数据的处理过程通常会并发读写数据,对ACID事务的支持确保了多方并发读写数据的一致性问题。
5.数据治理和执行的工具箱
FastData提供一站式的数据采集、加工、开发、管理服务,支持完整数据治理和演进模式,支持DW模式架构,同时能对数据完整性和血缘关系等进行推理分析,并执行安全稳健的审计机制。
6.存储计算分离
在实际部署中,FastData采用独立的存储和计算集群,它们都能独立扩展支持更大的用户并发和数据量,资源按需使用进一步降低成本。
7.开放性
FastData支持的存储格式是开放式和标准化的,并提供API让各种工具和上层计算引擎有效地直接使用数据,包括机器学习的Python库。
8. ABI支持
FastData支持直接在源数据上对接各种ABI工具,降低传统的数仓场景下多个数据副本的成本。
FastData是为解决规模化机器学习和深度学习场景下带来的海量数据挑战问题,而研发的新一代PB级实时数据平台,并采用云原生的架构实现低成本、高性能的设计理念。FastData的目标是成为企业快速构建其数据分析和数据科学相关的各种智能应用的一站式数据平台底座。