數(shù)據(jù)歸一化處理的目的是:使得預(yù)處理的數(shù)據(jù)被限定在一定的范圍內(nèi),從而消除奇異樣本數(shù)據(jù)導(dǎo)致的不良影響。數(shù)據(jù)歸一化處理后,可以加快梯度下降求最優(yōu)解的速度,且有可能提高精度(如KNN)。
本教程操作環(huán)境:windows7系統(tǒng)、Dell G3電腦。
在機(jī)器學(xué)習(xí)領(lǐng)域中,不同評(píng)價(jià)指標(biāo)(即特征向量中的不同特征就是所述的不同評(píng)價(jià)指標(biāo))往往具有不同的量綱和量綱單位,這樣的情況會(huì)影響到數(shù)據(jù)分析的結(jié)果,為了消除指標(biāo)之間的量綱影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理,以解決數(shù)據(jù)指標(biāo)之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標(biāo)準(zhǔn)化處理后,各指標(biāo)處于同一數(shù)量級(jí),適合進(jìn)行綜合對(duì)比評(píng)價(jià)。其中,最典型的就是數(shù)據(jù)的歸一化處理。(可以參考學(xué)習(xí):數(shù)據(jù)標(biāo)準(zhǔn)化/歸一化)
簡(jiǎn)而言之,歸一化的目的就是使得預(yù)處理的數(shù)據(jù)被限定在一定的范圍內(nèi)(比如[0,1]或者[-1,1]),從而消除奇異樣本數(shù)據(jù)導(dǎo)致的不良影響。
1)在統(tǒng)計(jì)學(xué)中,歸一化的具體作用是歸納統(tǒng)一樣本的統(tǒng)計(jì)分布性。歸一化在0~1之間是統(tǒng)計(jì)的概率分布,歸一化在-1~+1之間是統(tǒng)計(jì)的坐標(biāo)分布。
2)奇異樣本數(shù)據(jù)是指相對(duì)于其他輸入樣本特別大或特別小的樣本矢量(即特征向量),譬如,下面為具有兩個(gè)特征的樣本數(shù)據(jù)x1、x2、x3、x4、x5、x6(特征向量—>列向量),其中x6這個(gè)樣本的兩個(gè)特征相對(duì)其他樣本而言相差比較大,因此,x6認(rèn)為是奇異樣本數(shù)據(jù)。
奇異樣本數(shù)據(jù)的存在會(huì)引起訓(xùn)練時(shí)間增大,同時(shí)也可能導(dǎo)致無法收斂,因此,當(dāng)存在奇異樣本數(shù)據(jù)時(shí),在進(jìn)行訓(xùn)練之前需要對(duì)預(yù)處理數(shù)據(jù)進(jìn)行歸一化;反之,不存在奇異樣本數(shù)據(jù)時(shí),則可以不進(jìn)行歸一化。
—如果不進(jìn)行歸一化,那么由于特征向量中不同特征的取值相差較大,會(huì)導(dǎo)致目標(biāo)函數(shù)變“扁”。這樣在進(jìn)行梯度下降的時(shí)候,梯度的方向就會(huì)偏離最小值的方向,走很多彎路,即訓(xùn)練時(shí)間過長(zhǎng)。
–如果進(jìn)行歸一化以后,目標(biāo)函數(shù)會(huì)呈現(xiàn)比較“圓”,這樣訓(xùn)練速度大大加快,少走很多彎路。
綜上可知,歸一化有如下好處,即
1)歸一化后加快了梯度下降求最優(yōu)解的速度;
2)歸一化有可能提高精度(如KNN)
注:沒有一種數(shù)據(jù)標(biāo)準(zhǔn)化的方法,放在每一個(gè)問題,放在每一個(gè)模型,都能提高算法精度和加速算法的收斂速度。