数据标准化算法介绍—数据建模工具
数据标准化是将操作字段按照给定的方法完成由原始数据到新数据的映射,以此消除多字段组合分析情况下存在的数量级和量纲的不同造成的不利影响,算法支持最大最小归一化、最大值归一化及Z标准化等方法。
算法思想
数据标准化是数据建模中数据预处理步骤,在某些比较和评价的指标处理中经常会用到去除数据单位限制,将其转化为无量纲的纯数值,便于不同单位或量级指标能够比较和加权,算法支持最大最小归一化、最大值归一化及Z标准化等方法。
具体介绍如下
1、最大最小归一化
最大最小归一化是将数据转化到给定的[Min,Max]范围之内。公式如下
其中Xmin为x特征的最小值,Xmax为x特征的最大值.
2、最大归一化
最大归一化是将数据转化到[-1,1]范围之间。公式如下
其中|X|max为x特征的绝对值的最大值。
3、z标准化
z标准化也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1.
其中Mean(x)为x特征的均值,Std(x)为x特征的标准差。
数据格式:数值型字段;
参数说明
结果说明
对指定的属性进行标准化处理
Tempo数据建模工具演示实例:
利用数据建模工具构建如下流程:
【文件输入】节点配置如下:
【数据标准化】节点配置如下:
流程运行结果如下: