近年来,大量的新技术在大数据领域不断涌现,成为大数据采集、存储、处理和可视化的有效手段。大数据技术可以挖掘隐藏在大规模数据中的信息和知识,为人类社会经济活动提供依据,提高各个领域的运行效率,乃至整个社会经济的集约化程度。下面就让小编为大家介绍大大数据智能分析的核心技术。
大数据智能分析的核心技术
大数据智能分析的核心技术
大数据堆栈,底层是包含计算资源、存储器和网络互连的基础设施,主要包括计算节点、集群、机柜和数据中心。上面有数据的存储与管理,包括文件系统、数据库以及类似YARN的资源管理系统。
接下来还有计算处理层,比如hadoop、MapReduce和Spark,以及在上面的各种计算范例,比如批处理、流处理和图计算等等,包括从编程模型如BSP、GAS等衍生出计算模型。以计算处理层为基础的数据分析与可视化。该分析包含简单查询分析、流分析和更复杂的分析(例如机器学习、图计算等等)。查询分析多以表结构和关系函数为基础,流分析基于数据、事件流和简单的统计分析,而复杂分析基于更复杂的数据结构和方法,如图、矩阵、迭代计算和线性代数。
通用含义的可视化是显示分析结果。但通过交互可视化,也能探索性地提出问题,使分析得到新的线索,形成反复的分析与可视化。针对大规模数据进行实时交互式可视化分析及自动化因素的引入是当前研究的热点。
上面两个区域垂直贯通,需要从整体、协同的角度看待。一种是编程管理工具,方向是机器通过学习实现自动优化,尽可能不需要编程,不需要复杂配置。另外一个方面就是数据安全,并且贯穿于整个技术领域。在这两个领域中,垂直打通每一层,还有一些技术方面是跨越多层的,比如“内存计算”实际上涵盖了整个技术栈。
海量数据的基本处理流程与传统的数据处理流程并没有太大的不同,主要区别是:由于大数据要处理大量的非结构化数据,因此在各个处理环节都可采用并行处理。分布式处理,如Hadoop、MapReduce和Spark,已经成为大数据处理各个环节的通用处理方法。
Hadoop是一种分布式计算平台,允许用户轻松地构建和使用。通过Hadoop,用户可以很容易地开发和运行处理大量数据的应用程序。Hadoop是一种数据管理系统,作为数据分析的核心,将结构化和非结构化的数据汇集在传统的企业数据栈的每一层。
Hadoop也是一种大型并行处理框架,具有超级计算能力,可用于推动企业级应用的执行。Hadoop也是一个开放源码社区,提供工具和软件来解决大数据问题。尽管Hadoop提供了许多功能,但是还是应该将其分类为由多个组件组成的Hadoop生态圈,这些组件包括数据存储、数据集成、数据处理以及用于数据分析的其他专门工具。
Hadoop的生态系统,主要由HDFS、MapReduce、Hbase、Zookeeper、Oozie、Pig、Hive等核心组件组成,并可用于与其他企业结合使用的Sqoop、Flume等框架。与此同时,Hadoop的生态系统正在增长,新增加的Mahout、Ambari、Whirr、BigTop等提供更新功能。
它具有低成本、高可靠性、高扩展、高效率、高容错等特点,使Hadoop成为最受欢迎的大数据分析系统。然而,它所依赖的HDFS和MapReduce组件却让它一度陷入困境,而批量处理使它只能用于离线数据处理,在实时性要求的场景中没有用武之地。于是,出现了各种基于Hadoop的工具。为降低管理成本,提高资源的利用率,现在有许多资源统一管理调度系统,如Twitter的ApacheMesos、Apache的YARN、Google的Borg、腾讯的Torca、FacebookCorona(开源)等等。
数据采集在大数据生命周期中处于首要环节。按照MapReduce数据生成的应用系统分类,有四种主要的数据源:管理信息系统、网络信息系统、物理信息系统和科学实验系统。对不同的数据集,可能存在不同的结构和模式,如文件、XML树、关系表等,表现出数据的异构性。对于多个异构数据集,需要进行进一步的集成处理,收集、整理、清洗、转换来自不同数据集的数据,生成新的数据集,为后续的查询和分析处理提供统一的数据视图。
目前,国内外对MIS中的异构数据库集成技术、Web信息系统中的实体识别技术、DeepWeb集成技术、传感器网络数据融合技术等进行了深入的研究,并取得了较大的进展,目前已开发了许多数据清洗与质量控制工具,如美国SAS公司的DataFlux、美国IBM的DataStage、美国Informatica公司的InformaticaPowerCenter。
可视化技术在大数据分析的应用过程中,通过交互的视觉表达方式,帮助人们对复杂数据进行探索和理解。可视化和可视化分析技术可以快速而有效地简化和提炼数据流,帮助用户筛选大量数据,帮助用户更快、更好地发现复杂数据,并成为深入分析复杂数据的必备手段。大型数据可视化主要是基于并行算法设计的技术,合理利用有限的计算资源,对特定数据集进行高效的处理和分析。
一般情况下,大型数据可视化技术结合多种分辨率表示等方法,以获得足够的交互性能。科技大规模数据并行可视化工作主要涉及四种基本技术:流线化、任务并行化、管线并行化和数据并行化。
微软公司在其云计算平台Azure上开发了大型机器学习可视化平台(AzureMachineLearning),将有向无环图的大数据分析任务,并以数据流图的方式展示给用户,取得了比较好的效果。同时,阿里巴巴旗下的大数据分析平台御膳房也在为企业员工提供一个互动大数据分析平台。以上就是小编为大家介绍的大数据智能分析的核心技术,感谢观看。
[免责声明]
文章标题: 大数据智能分析的核心技术
文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。