一碗酸梅湯 作品

第394章 超參數全自動搜索

    經過兩天的訓練,這些網絡已經完全訓練完畢。

    江寒將它們組合到了一起,再套上一層事先準備好的,用vc++編寫的簡易ui。

    很快,ocr軟件就初步成型,可以投入使用了。

    江寒思考了一下,命名為“極光ocr”。

    至於這個名字的含義……其實他沒想那麼多,就是覺得挺順口的。

    然後,他又將源代碼和可執行文件,全都用u盤拷貝下來,帶走。

    這樣晚上回家後,就可以正式啟動那個計劃,在虛擬空間裡暢快地學習了……

    隨後,江寒進入了虛擬空間。

    他為imagenet比賽編寫的代碼,還有相關的論文草稿,就保存在286電腦中。

    江寒很快將這些東西,發送到了外面的電腦中。

    然後又打開手機,把昨晚下載的訓練數據、校驗數據,也傳送給這臺終端電腦。

    程序有了,數據也有了。

    江寒又進行了一番算不上辛苦的調試,深度卷積神經網絡終於基本成型。

    但在開始訓練之前,還有一點工作要做。

    這個深度cnn,所擁有的參數實在太多了,哪怕原始數據有足足12萬多條,也很容易發生過擬合。

    所以,為了提升泛化能力,有必要做一下數據增廣。

    數據增廣的方案有許多。

    江寒思考了一下,選擇了一種新方案。

    原始圖像是256x256的分辨率。

    江寒設計了一個程序,從中隨機扣出來224x224大小的區域。

    每張原始圖像,都有(256-224)^2=1024種不同的扣法,這樣一來,就相當於將原始數據增廣了1024倍!

    接下來,他又將得到的圖像,全都水平鏡像一次,就得到了等於原始數據2048倍的超大數據集合。

    增廣完數據,江寒還覺得不夠保險,為了進一步提高算法的效能,他決定對網絡中用到的超參數,進行一些優化。

    以前他也做過人工神經網絡超參數的優化,但那時採用的手段,主要是手動修改超參數,然後人工分析、比對。

    看修改了某個超參數後,網絡的表現是上升了還是下降了,從而找出較為優秀的模型。

    不用說,這種做法最大的缺陷,就是效率實在太低。

    江寒在這次的比賽中,決定使用一種新技術。

    這是他前一陣子,煞費苦心設計出來的方案,代碼複雜度令人髮指。

    好在他的腦子夠好用,在消耗了大量心血,吃掉了無數冰島紅極參之後,終於開發成功了。

    功能很簡單,就是自動對超參數進行搜索、優化,以找到結構更合理、性能更好的人工神經網絡。

    江寒為這門技術取名assp(autosearchforsuperparameters)。

    好吧,其實就是“自動搜索超參數”的英文直譯……