一碗酸梅湯 作品

第400章 不可逾越的高山

    江寒在網上搜索了一番,參考了一下同類軟件。

    最後他決定,採用市場接受度較高的免費下載、試用模式。

    超過試用次數和時間後,只要花費58元rmb,購買註冊碼,就可以終身使用。

    在軟件保護策略上,江寒毫不猶豫地啟動了“壞蘋果2代”技術。

    經過加密後,“極光ocr”的可執行文件,以及動態鏈接庫等要害部位,堪稱堅不可摧。

    江寒又用installshieldwizard,製作出一個1g大小的安裝包,然後掛到了大江官網上。

    技術上的事情,至此全部搞定。

    至於其他的事情,全盤委託給老江和夏如冰就好……

    江寒想了想,又訪問了一下佈置在地下機房裡的數據服務器。

    過了這麼多天,他為islvrc2013圖像識別挑戰賽,打造的深度cnn網絡,也終於完成了訓練。

    江寒將代碼中關於訓練的部分,暫時全部剔除,然後將驗證集數據加載進來,跑了一下。

    結果還算不錯,top-1項目的識別正確率,達到了62.7%,top-5項目中,更是達到了85.4%的正確率。

    所謂top-1,就是對於每張要分類的圖片,只允許給出唯一答案,對就對,錯就錯。

    至於top-5,要求就比較寬鬆了,每張圖可以給出5種預測,有一個與標籤相同,就算分類正確。

    現在這個成績,已經相當接近去年的冠軍算法了。

    但江寒怎麼可能就此滿足呢?

    他深入思考了一番,重新編寫了預測函數。

    這一次,他使用了一個小技巧。

    將待分類的圖片加載到內存中之後,先進行預處理。

    從圖片的四個角,以及中間部分,依次進行矩形摳圖,這樣就得到了5張子圖片。

    接下來,再對這5張子圖片,依次進行鏡像操作,子圖片的總數就變成了10。

    最後再對這10張圖片,分別進行預測,再把10個結果的平均值,作為網絡的最後輸出。

    這可以有效地防止程序“發呆”,以得到更接近正確答案的預測。

    不出所料,使用了這個技巧後,深度cnn在驗證集上的表現,果然改善了不少。

    top-1上的正確率,足足提高了2%,在top-5上的正確率,也提高了1.84%。

    不過,感覺還有進一步提升的空間。

    江寒思考了一下,又對訓練集圖片的rgb數值,做了pca,也就是主成分分析,並且對主成分做了0.1標準差的高斯擾動。

    這樣做的目的,是增加一些噪聲數據,以提高模型的泛化能力。

    處理完龐大的訓練集後,就可以讓網絡重新進行訓練了。

    安排妥當這件事之後,江寒開始考慮學科等級的事情。

    經過幾天的奮戰,他已經學完了化學、生物兩科,在大學本科階段的全部專業課。

    單論理論上的水平,超過了絕大多數相應科目的本科生、甚至碩士研究生。