如何对原始数据进行规范化处理?
提问:
例如,将下图中,原始数据有年龄和工资两列数据,现需要将数据按照最小-最大规范化以及Z-得分标准化的方式缩放到制定范围内,如何进行实现?
实现方式:
一、最小-最大规范化
利用最小最大规范化将数据转换至一个范围内,例如0到1之间,最小值转换为0,最大值转换为1;
这里要借助DataFocus公式中的group_min和group_max公式;
如下图所示,工资为列名,使用公式group_min求出工资列的最小值,使用公式group_max求出工资列的最大值,然后按照最小-最大规范化的方法进行四则运算;
【X_NORM】(工资-group_min(工资))/(group_max(工资)-group_min(工资))
效果如图所示:
二、Z-得分标准化(标准化)
Z-得分标准化是基于平均值和标准偏差的尺度数据,也就是利用数据减去平均值的差异除以标准偏差;
这里要借助DataFocus公式中的group_average和group_stddv公式;
如下图所示,年龄为列名,使用公式group_average求出年龄列的平均值,使用公式group_stddv求出年龄列的标准差,然后按照Z-得分标准化的方法进行四则运算;
【Z_SCORE】(年龄-group_average(年龄))/group_stddev (年龄)
效果如图所示。
暂无评论