在回答数据分析入门应该具备什么样的能力的问题时,我经常提到统计知识。统计是一种利用数学理论进行数据分析的技术。通过统计,我们可以以更有信息驱动力和针对性的方式操作数据。接下来就由小编为您介绍统计学数据分析,数据统计分析。
统计学数据分析
描述统计是通过图表或数学方法对数据进行整理和分析,估计和描述数据的分布状态、数字特征和随机变量之间的关系的方法。
描述统计分为三个部分:集中趋势分析、离中趋势分析和相关分析。
集中趋势分析:集中趋势分析主要依靠平均数、中数、众数等统计指标来表示数据的集中趋势。
分析离中趋势:离中趋势分析主要依靠全距离、四分差、平均差、方差(协方差:用于测量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。举例来说,我们想知道两个教学班的语文成绩中,哪个班的成绩分布比较分散,可以用两个班的四分差或百分点来比较。
相关分析:相关分析讨论数据之间是否存在统计相关性。
假定检验是用来判断样品和样品,样品和样品之间的整体差异是由抽样误差还是本质差异引起的。
假设检验可分为三类:正态分布检验、正态总平均分布检验和非参数检验。
正态分布检验:正态分布检验包括三类:JB检验、KS检验和Lilliefors检验,用于检验样本是否来自正态分布的整体。
正态总平均分布检验:正态平均分布检验检测系统误差对检测结果的影响。从统计意义上说,各样本的平均差应在随机误差允许的范围内。相反,如果不同样本的平均值之差超出允许范围,说明除了随机误差,平均值之间还存在系统误差,使得平均值之间存在显著差异。
有两种情况:
t检验:主要用于样品含量小、整体标准差的正态分布数据。用T分布理论推断差异的概率,从而判断两个平均数的差异是否显著。
u检验:一般用于大样本的平均差异检验,基于样本来自正态的整体假设。用标准正态分布理论推断差异的概率,比较两个平均数的差异是否显著。国外英语统计学多采用Z检验。
非参数检验
非参数检验不考虑整体分布是否已知,只应用样本观察值中一些非常直观的信息。适用情况包括:待分析数据不符合参数检验要求的假设,因此无法应用参数检验;仅由一些等级组成的数据;提出的问题不包括参数;当需要快速得到结果时。其主要方法有:卡方检验、秩和检验、二次检验、旅游检验、K-量检验、符号检验等。
相关分析是研究现象之间关系的主要方法之一,可以测量现象之间关系的大小和方向。根据维度的不同,相关关系的类型可以分为:
按照相关程度来划分全相关、不相关、不完全相关。
按照依存关系的表现形式,分为线性相关和非线性相关。
按相关方向划分:正相关和负相关。
根据研究量的不同:单相关,复相关。
测量相关性的方法有:散点图,相关系数等。
回归分析是确定两个或两个以上变量之间相互依赖的定量关系的统计分析方法。根据变量的数量和变量之间的关系类型,可以分为多种回归:
一元线性回归分析:对变量与自变量之间的线性关系进行分析,常用的统计指标有:平均数,增减,平均增减。
多线性回归分析:对多个自变量与一个因变量之间的线性关系进行分析,在实际统计分析中,通常使用软件来估计多个回归模型。
非线性回归分析:自变量和因变量之间因果关系的函数表达式是非线性的。非线性回归模型包括对数曲线方程、反函数曲线方程、二次曲线方程、三次曲线方程、复合曲线方程、幂函数曲线方程、S形曲线方程等。
方差分析又称变异数分析或F检验,用于检验两个或两个以上样本均数差异的显著性。使用条件包括:各种样本必须是独立的随机样本;各种样本来自正态分布的整体;整体方差相等。
根据分析的测试因素数量,可分为:
单因素方差分析:用于研究控制变量的不同水平是否对观察变量有显著影响。在这里,因为只研究一个因素。
双因素方差分析:用于分析两个因素的不同水平是否对结果有显著影响,两个因素之间是否存在交互效应。
聚类分析是一种探索性的分析。在分类过程中,人们不必提前给出分类标准。聚类分析可以从样本数据中将数据分类到不同的类或集群。同一簇的对象有很大的相似性,而不同簇的对象有很大的相异性。
聚类分析的计算方法主要有:
分裂法
先创建k个划分,k为要创建的划分数。然后利用循环定位技术,将对象从一个划分转移到另一个划分,有助于提高划分质量。典型的划分方法有:k-means、k-medoids、CLARA、CLARANS、FCM等。
层次法
创建一个层次分解给定的数据集,可以分为两种操作模式:自上而下(分解)和自下而上(合并)。方法包括:BIRCH、CURE、ROCK、CHEMALOEN等。
基于密度的方法:根据密度完成对象的聚类。方法包括:DBSCAN、OPTICS等。
基于网格的方法:首先,将对象空间分为有限的单元来构成网格结构,然后利用网格结构来完成聚类。方法包括:STING、CLIQUE等。
基于模型的方法:假定每个聚类模型并找到适合相应模型的数据。方法包括:COBWEB、CLASSIT等。
时间序列是同一现象在不同时间上的观察数据按时间顺序排列得到的数列,也称为动态数列。时间序列的两个基本要素:现象所属的时间和反映现象在不同时间的指标值。
根据排列指标的不同表现形式,时间序列可分为:
绝对时间序列:指一系列同类总量指标数据按时间顺序排列形成的序列,反映现象在各个时期达到的绝对水平。又分为时间序列和时间序列。
相对时间序列:指相对指标值按时间顺序排列形成的时间序列,主要反映客观现象数量对比关系的发展过程。
平均时间序列:指一系列同类平均指标值按时间顺序排列形成的数列,主要反映客观现象一般水平的发展变化过程。也可以分为静态平均时间序列和动态平均时间序列。
根据影响因素,时间序列分析模型可分为:
长期趋势的测期趋势的方法:时距扩大法,移动平均法,最小二乘法。
季节变化的测定和分析方法:同期平均法和移动平均趋势排除法。
测定和分析循环变化的方法:直接法和剩余法。
当然,统计学远不止这七种数据分析方法,还有很多其他值得深入学习的方法,如通径分析、因子分析、主要成分分析等。如果以后想做数据分析,一定要多学习统计学的基础知识。在数据分析工作中,利用统计学,我们可以更深入、更细致地观察数据是如何准确组织的,并根据这种组织结构确定数据分析方法,以获得更多的信息。以上就是小编为您介绍的
[免责声明]
文章标题: 统计学数据分析,数据统计分析
文章内容为网站编辑整理发布,仅供学习与参考,不代表本网站赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请及时沟通。发送邮件至36dianping@36kr.com,我们会在3个工作日内处理。