| 企服解答
大数据平台,可以从大数据处理流程来理解。大数据处理流程包括数据采集,数据融合,数据治理,存储计算,数据分析,数据可视化。
大数据平台是什么
1、数据采集
这一块,有设备数据iot,系统数据可以用etl,互联网数据用爬虫,日志数据可以用flume,kafka什么的。这样解决了数据采集的问题,你就有了大数据。
2、数据融合
是做数据的整合,将一些需要的数据拿出来,或者过滤掉不需要的数据,例如做网站日志分析的时候,用hive做一些数据处理,处理的数据再去做一些网站kpi的分析。数据治理说起来简单其实是很复杂的一件事。
3、数据治理
就是把数做的规整,整齐,标准统一,质量高的数据。但是这个涉及业务,梳理会很麻烦。
4、存储计算
就算是大数据的核心功能了。将大数据存储起来,然后进行计算,得到结果,这些都是需要分布式的。存储是基于hdfs的,文件存储,列存储等。计算的话区别于不同的场景分为三类吧,离线计算也叫批量计算,实时流处理,查询式分析等等。离线是MR 、spark,实时的有flink、sparkstreaming、strom,查询式分析的话就是提前做一些数据处理,然后通过sql查询进行分析(可以百度百度)。
5、数据分析
就理解为人工智能和统计分析。现在人工智能这么火,大数据平台不提供ai能力就不能叫大数据平台。主要包括一些机器学习算法和深度学习算法,一般的数据预测用机器学习就够了,语义、图像识别等等用深度学习。常见的两个框架机器学习skitlearn、深度学习Tensorflow。
6、可视化
这个是展现形式,比较常见的bi,可视化大屏等等的。
| 拓展阅读
大数据平台的功能:
1、容纳海量数据
利用计算机群集的存储和计算能力。不仅在性能上有所扩展,而且其处理传入的大量数据流的能力也相应提高。
2、速度快
结合列式数据库架构(相对于基于行的非并行处理传统数据库)和使用大规模并行处理技术,不仅能够大幅提高性能(通常约100到1000倍),还可以实现更低且更透明的定价机制。
3、兼容传统工具
确保平台已经过认证,可以兼容传统工具。
4、利用Hadoop
Hadoop已成为大数据领域中的主要平台。利用Hadoop作为用于持久性和轻量型数据管理的高效益平台。
5、为数据科学家提供支持
数据科学家在企业IT中拥有着更高的影响力和重要性,快速、高效、易于使用和广泛部署的大数据平台可以帮助拉近商业人士和技术专家之间的距离。
6、提供数据分析功能
确保大数据平台不仅支持在数秒钟内准备并加载数据,还支持利用高级算法建立预测模型,轻松部署模型以进行数据库内计分。同时使数据科学家能够使用现有统计软件包和首选语言。
[免责声明]
文章标题: 大数据平台是什么
文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。