无量纲化:离差标准化

  |   0 评论   |   0 浏览

无量纲化(nondimensionalize 或者 dimensionless)是指通过一个合适的变量替代,将一个涉及物理量的方程的部分或全部的单位移除,以求简化实验或者计算的目的,是科学研究中一种重要的处理思想。

离差标准化(min-max 归一化),是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:

X'=(X-min)/(max-min)
其中 max 为样本数据的最大值,min 为样本数据的最小值,X 为初始值,X'为初始值进行离差标准化的结果。这种方法有一个缺陷就是当有大于最大或小于最小的新数据加入时,可能导致 max 和 min 的变化,需要重新计算整个样本集合。

执行前(由于我懒得截全所以就将就看看吧)

image.png

执行后

image.png

可以看到实际些数据在 Proportion of working-age population 这个特征上是有差异的,但由于劳动人口占比都有一个基本值,不会小于 55.78,以下的部分就会使差异变小而不利于机器学习,所以执行离差标准化来使样本在[0,1]区间分布,使其更适合模型学习。

济南为最大值 79.32,最小值为天津:55.78

这里我们以长沙作为例子 64.43

X'=(64.43-55.78)/(79.32-55.78)=0.3674596431605777(咳咳,不说了提 bug 去了,这里属于浮点数误差,我提建议让其少显示两位)


标题:无量纲化:离差标准化
作者:shyvana-knight
地址:https://mmzsblog.cn/articles/2020/06/29/1593419540182.html

个人微信公众号 ↓↓↓                 

微信搜一搜 Java 学习之道

评论

发表评论