一碗酸梅湯 作品
第364章 徑向基神經網絡
時間匆匆流逝。
江寒查詢了許多文獻,又經過了一番深入地思考,終於做好了準備,開始撰寫新的論文。
江寒正在研究的,是徑向基神經網絡,在原本的世界,這是第一種實用化的“人工神經網絡”。
這個世界在數學方面的進展,和前世基本一樣。
像“多變量插值的徑向基函數(rbf)方法”,早在1980年代就已經出現了。
也幸好如此,否則的話,江寒在造汽車之前,還得先發明個輪子……
所謂徑向基函數,以本質上來說,就是一個實值函數,該函數的取值僅依賴於與原點或者中心點c的距離。
標準的徑向基函數,一般使用歐氏距離,所以也叫歐式徑向基函數。
當然,使用其他的距離函數也是沒問題的,事實上,最常用的徑向基函數,就是高斯核函數……
在rbf神經網絡中,除了輸入層和輸出層之外,有且僅有一層隱藏層。
從輸入空間到隱藏層空間,所做的變換是非線性的;而從隱藏層到輸出層,卻是做的線性變換。
通過隱藏層把向量從低維映射到高維,使得在低維中線性不可分的問題,到了高維之後變得線性可分。
這其實就是核函數的思想。
由於網絡的輸出和權重參數之間,存在著線性的關係,所以就可以由線性方程組,直接把權重參數求解出來。
這樣一來,一方面大大加快了訓練速度,另一方面,也可以避免“局部極小”的問題。
訓練rbf神經網絡的關鍵,在於求解3個參數。
首先是基函數的中心點,然後是方差,最後是隱含層到輸出層的權重。
在訓練時,同樣需要輸入訓練數據,然後根據損失函數,採用梯度下降法,修正權重的誤差。
這一點,其實與bp神經網絡的做法,基本上如出一轍。
所以從本質上來說,rbf就是bp網絡的一個特例。
當然,兩者之間的區別也很明顯。
在rbf神經網絡中,距離徑向基函數的中心點越遠,神經元的激活度就越低。
在逼近目標函數時,神經元的權重取值,只依賴於查詢點附近的數據。
因此rbf所做的,只是一種局部逼近。
而在bp網絡中,所有數據都會起到同等的作用,是對非線性映射的全局逼近。
第2個區別,是隱藏層的數目不同。
bp神經網絡可以有多個隱含層,但是rbf只有一個隱藏層。
從表達能力上來看,rbf是不如bp的,但rbf也有不可取代的優勢,那就是訓練起來速度極快。
一方面,由於隱藏層較少,計算壓力就更小些;另一方面,局部逼近也可以有效地簡化計算。
江寒查詢了許多文獻,又經過了一番深入地思考,終於做好了準備,開始撰寫新的論文。
江寒正在研究的,是徑向基神經網絡,在原本的世界,這是第一種實用化的“人工神經網絡”。
這個世界在數學方面的進展,和前世基本一樣。
像“多變量插值的徑向基函數(rbf)方法”,早在1980年代就已經出現了。
也幸好如此,否則的話,江寒在造汽車之前,還得先發明個輪子……
所謂徑向基函數,以本質上來說,就是一個實值函數,該函數的取值僅依賴於與原點或者中心點c的距離。
標準的徑向基函數,一般使用歐氏距離,所以也叫歐式徑向基函數。
當然,使用其他的距離函數也是沒問題的,事實上,最常用的徑向基函數,就是高斯核函數……
在rbf神經網絡中,除了輸入層和輸出層之外,有且僅有一層隱藏層。
從輸入空間到隱藏層空間,所做的變換是非線性的;而從隱藏層到輸出層,卻是做的線性變換。
通過隱藏層把向量從低維映射到高維,使得在低維中線性不可分的問題,到了高維之後變得線性可分。
這其實就是核函數的思想。
由於網絡的輸出和權重參數之間,存在著線性的關係,所以就可以由線性方程組,直接把權重參數求解出來。
這樣一來,一方面大大加快了訓練速度,另一方面,也可以避免“局部極小”的問題。
訓練rbf神經網絡的關鍵,在於求解3個參數。
首先是基函數的中心點,然後是方差,最後是隱含層到輸出層的權重。
在訓練時,同樣需要輸入訓練數據,然後根據損失函數,採用梯度下降法,修正權重的誤差。
這一點,其實與bp神經網絡的做法,基本上如出一轍。
所以從本質上來說,rbf就是bp網絡的一個特例。
當然,兩者之間的區別也很明顯。
在rbf神經網絡中,距離徑向基函數的中心點越遠,神經元的激活度就越低。
在逼近目標函數時,神經元的權重取值,只依賴於查詢點附近的數據。
因此rbf所做的,只是一種局部逼近。
而在bp網絡中,所有數據都會起到同等的作用,是對非線性映射的全局逼近。
第2個區別,是隱藏層的數目不同。
bp神經網絡可以有多個隱含層,但是rbf只有一個隱藏層。
從表達能力上來看,rbf是不如bp的,但rbf也有不可取代的優勢,那就是訓練起來速度極快。
一方面,由於隱藏層較少,計算壓力就更小些;另一方面,局部逼近也可以有效地簡化計算。