大数据是一个以数据为核心的行业。从数据生命周期的传递和演变来看,大数据产业的生成过程可以分为以下几个部分:数据收集、数据存储、数据建模、数据分析和数据实现。下面就由小编为您介绍一下大数据开发、架构与数据分析的区别,让我们一起来看看吧!
大数据开发、架构与数据分析的区别
通过各种软件收集数据,通过云数据中心存储,通过数据科学家或行业专家建模和处理,最终数据分析发现大量看似无关的数据背后的因果关系,这些因果关系的意义将使人们在未来的各个方面进行推测,降低试错成本,降低风险,解放生产力。
目前市场上人才需求观和部署企业自身大数据项目来看,大致分为3个方向:大数据架构、大数据开发、大数据分析。
大数据架构偏重基建和架构,更多注重的是Hadoop、Spark、Storm等大数据框架的实现原理、部署、调优和稳定性问题,以及它们与Flume、Kafka等数据流工具以及可视化工具结合技巧,再有就是一些工具的商业应用问题,如Hive、Cassandra、HBase、PrestoDB等。能够将这些概念理解清楚,并能够用辩证的技术观点进行组合使用,达到软/硬件资源利用的最大化,服务提供的稳定化,这是大数据架构人才的目标。
主要研究方向
架构理论:高并发、高可用、并行计算、MapReduce、Spark等
数据流应用:Flume、Fluentd、Kafka、ZeroMQ等
储存应用:HDFS、Ceph等
软件应用:Hive、HBase、Cassandra、PrestoDB等。
可视化应用:HightCharts、ECharts、D3、HTML5、CSS3等。
大数据架构师对可视化应用部分要求不高,只需大致了解即可,但其他架构层面、数据流层面、存储层面、软件应用层面等都需要做比较深入的理解和落地应用。至少在每一个层面中挑选一个完全纯属的应用产品。
大数据开发偏重应用实现,注重服务器端开发、数据库开发、呈现与可视化人机交互等衔接数据载体和数据加工各个单元以及用户的功能落地与实现。
主要研究方向
数据库开发:RDBMS、NoSQL、MySQL、Hive等。
数据流工具开发:Flume、Heka、Fluentd、Kafka、ZMQ等。
数据前端开发:HightCharts、ECharts、JavaScript、D3、HTML5、CSS3等。
数据获取开发:关键词有爬虫、分词、自然语言学习、文本分类等。
大数据开发和大数据架构方向很多关键词是重合的,但一个主要是“开发”,一个主要是“应用”。“应用”更多的是懂得这些这种技术能为人们提供什么功能,以及使用这种技术的优缺点,并擅长做取舍;“开发”更注重的是熟练掌握,快速实现。
大数据分析偏重于建模与分析,更多注重的是数据指标的建立,数据的统计,数据之间的联系,数据的深度挖掘和机器学习,并利用探索性数据分析的方式得到更多的规律、知识,或者对未来事物预测和预判的手段。
主要研究方向
数据库应用:RDBMS、NoSQL、MySQL、Hive、Cassandra等。
数据加工:ETL、Python等。
数据统计:统计、概率等。
数据分析:数据建模、数据挖掘、机器学习、回归分析、聚类、分类、协同过滤等。
大数据分析主要是数据统计和数据分析。要有良好的数学素养,一般来说是数学专业。另一方面是对业务知识的理解。每个行业和公司的业务形式都是多种多样的。只有充分了解这些业务形式和业务流程,才能更正确地建模和解读数据。以上就是小编为您介绍的大数据开发、架构与数据分析的区别。
[免责声明]
文章标题: 大数据开发、架构与数据分析的区别
文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。