victory的博客

长安一片月,万户捣衣声

0%

机器学习 | 归一化

归一化(Normalization)

在使用机器学习算法进行分类工作时,有时候我们发现某个特征对计算结果的影响最大,然而本质上用于分类的几个特征是同等重要的,而某个特征对计算结果影响大这一现象的原因仅仅是因为这个特征的特征值值比其他特征值大。因此在处理这种不同范围的特征值时,我们通常采用的方法是将数值归一化,如将取值范围处理为0到1/-1到1之间。
:将任意取值范围的特征值转化为0到1区间内的值:
newValue = (oldValue - min)/(max-min)
其中min和max分别是数据集中的最小特征值和最大特征值
Note:改变数值范围增加了分类器的复杂度