关于归一化与标准化
关于归一化和标准化
标准化和归一化是两种讨论的最多的缩放方法(scaling methods)。归一化(normalization)通常意味着把样本重新缩放到[0,1]的范围内。标准化(standardization)则通常表示将数据调整到平均值为0,标准差为1的操作。
在真实世界的数据中包含了各种不同的测量方法,在使用这些数据进行任意类型的分析前,需要对原始数据进行检查,例如在RNA测序数据中独立样本间的技术相差会很大,因此做样本比较时需要做一定的数据预处理,让所有的测量结果具有同样的尺度。此外在一些机器学习的算法中,如果不进行归一化,由于原始数据之间的取值范围差异过大,算法无法正常工作。
归一化(Normalization)
Rescaling (min-max normalization)
这是最简单的归一化方法,能够重新缩放特征范围到[0,1]
$$
x’=\frac{x-min(x)}{max(x)-min(x)}
$$
这种归一化方法并不会改变原本数据的分布形状(数据的分布通过这种线性缩放肯定是会改变的,但是数据分布的形状并不会改变)如下图所示

该方法不适用于数据不稳定,存在极端值的情况。
Mean normalization
这种方法也是将原本的数据缩放到一个固定的范围。与rescaling的区别在于本方法映射的范围不再是[0,1]。
$$
x’=\frac{x-average(x)}{max(x)-min(x)}
$$
标准化(Standardization)
特征标准化使得数据中的每个特征均值为0,方差为1(单位方差),这种方法广泛运用于支持向量机,logistic回归和人工神经网络。
$$
x’=\frac{x-\mu}{\sigma}
$$


在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,该方法的表现较好。
参考链接
- https://en.wikipedia.org/wiki/Feature_scaling
- 标准化和归一化什么区别? - 小松的回答 - 知乎 https://www.zhihu.com/question/20467170/answer/463834078
- https://blog.csdn.net/weixin_36604953/article/details/102652160
- 标准化和归一化什么区别? - thothsun的回答 - 知乎 https://www.zhihu.com/question/20467170/answer/839255695
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!