2013年的暑假,距離比賽開始時間還有大約一個月的時間。
“模型的訓練過程需要將所有的權重,數據和許多中間過程都放入GPU中進行處理。因而GPU的顯存大小格外重要?!泵戏贬獓@了口氣,“即便是我們購買的旗艦690,也太小了,只有4G大小?!?/p>
比起后來被美國禁止賣給華國的A100-80G,690不說其他性能,單顯存就少了20倍。孟繁岐如今只能可憐巴巴地每次使用16張圖片對模型進行迭代。
“一次十六張,一次循環要接近一百萬次才能更新完整個數據集。而想把模型收斂好,上百次循環又是少不了的。”
孟繁岐估算了一下,這個版本出一次結果要接近20天,最后的訓練過程確實大概消耗了三周左右以收斂到現在的這個性能。
好在IMAGENET在后來基本成為了每個算法工程師必調參的練手數據集,孟繁岐自己就曾無數次刷榜,自然是輕車熟路,清楚各類參數的大概設置。
這為他至少節省了一兩個月的珍貴時間。
即便一次訓練需要三周之久,孟繁岐卻仍舊趕在比賽開始之前就已經準備好了一版模型。
看著訓練出來的模型最終性能達到了預期,孟繁岐心中的一塊大石總算落地了。
這幾個月來,他唯一擔心的一件事情就是多年前的老框架會出一些他意料之外的問題,導致最終的結果不能和理論預期吻合。
一旦這種事情發生,找到問題所在并測試解決的代價就太大了。倘若不能夠及時解決,會很大影響到他初期的規劃。
眼下的結果大約在4.9%的top-5錯誤率,這個版本比后世論文中的性能要稍差了一丁點,但好在仍舊強于賽事方給出的人類標準了。
一般來說,比賽前是不會公布比賽所使用的具體數據的。只是IMAGENET比賽比較特殊,一千多萬量級的圖片,總不可能辦一兩次比賽就舍棄掉,不再使用。
因而每屆比賽所用的數據是變化很小的,只是具體賽道,所競爭的內容和評判的方式常會有所調整。
雖說IMAGENET休賽的時期其實也可以提交結果,孟繁岐現在就可以把這個結果上傳上去,奪取第一的位置,但關注度畢竟不可與賽時的激烈競爭同日而語。
與此同時,唐璜也終于開始意識到事情的走向已經遠遠偏離了他的預料。
“我記得之前查到AlexNet在這上面的準確率不到85吧,你現在這個已經特么超過95了啊?!碧畦谝淮蝸聿榭唇Y果的時候完全不敢相信這個事實。
“你確定沒搞錯?別忽悠兄弟啊。兄弟書讀的少,很容易被騙的?!碧畦丝痰男膽B很復雜,很希望這是真的,但由于事情實在顯得太美好,反而很難相信。
“是假的,我騙你的?!泵戏贬藗€白眼,“我加了特技,里面都是化學的成分?!?/p>
“不會吧,我親眼看這性能一路上收斂上來的?!碧畦址朔P陀柧毜娜罩?,聲音之中帶了三分委屈。他剛剛已經在腦補自己抱緊大腿,走上人生巔峰的場景了。
這就是患得患失的可憐人啊,不敢相信,卻又害怕是假的。
“雖然我沒有測試集的真實答案,但是我從訓練集里劃了百分之5出來沒有使用,作為驗證的辦法?!泵戏贬獙@個數據集的方差可以說是了然于胸,95%的數據用于訓練,5%的數據用于測試已經是相當穩妥而保守的比例了。
“也就是說,只要這百分之5的數據和測試集的數據差別不大,你的辦法可以比去年的冠軍強十個百分點?”唐璜仍舊還處于極度的震撼當中?!熬瓦@么簡單?我還沒出力呢,你們就全趴下了?”
唐璜此時的感覺,就像是夜神月第一次發現原來可以直接指派死神去除掉自己最大的對手L一樣。想象中的努力,拼搏和奮斗一樣都沒有發生,也完全沒有必要,驚人的成績和進展甚至在比賽正式開始之前就已經獲得。
“這就是人生。成功與失敗很多時候可能與你并無關系,習慣就好?!泵戏贬牧伺乃募绨?,“這次不習慣也沒什么,以后的道路還有很長很長,你會習慣的。”
因為不習慣也沒辦法,是吧。改變不了體重的人就只能改變審美。
否則會被自己折磨一輩子的。
既然在95%的數據上已經取得了這樣的結果,接下來要做的就是把余下的5%也加入進去,繼續微調模型幾天。
如此一來,得出的最終結果就可以直接在11月份的時候做提交所用了。
在一個性能已經相當不錯的模型上繼續微調它的性能,就遠遠用不到21天那么久的時間了。
只需兩天左右的時間,新的訓練日志便顯示,模型的性能已經基本收斂到一個固定值,很少再繼續波動。
這樣的話,孟繁岐在前往澳大利亞會議現場之前,就只剩下唯一的一件事情要做,那就是補齊手頭這些論文的實驗數據。
將這些文章所缺的最后一塊拼圖填補上去。
截止此時,孟繁岐已經大約完成了接近7篇之多的文章。除了本次的參賽核心,基于殘差思想的新模型DreamNet,以及相關的訓練技巧,批歸一化,Adam二階優化器,和Mix-up數據增強之外。
孟繁岐還在三個其他方向上準備了開創性的工作,以占坑三個關鍵的領域。
在參賽的相關內容中,其實只有殘差網絡算得上是開創性的內容。余下的三者,雖然是各自方向上的佳作,但是難以稱得上是某一細分領域的奠基之作。
寫論文去詳細描述,也只是迫于無奈,因為為了確保DreamNet的性能和訓練速度,孟繁岐不得已而使用了一些技巧。
為了確保這樣的重要結果業界可以復現,孟繁岐不得不詳細描述這些訓練技巧,于是便寫成論文。但若是有得選擇,其實并不急于一時。
而他真正希望搶占先機去布局的,一,是先前與付院長討論過原理的,生成式對抗網絡。這是近些年來最具有前景也最優雅的無標簽學習方法,是以后所有生成類技術難以繞開的一個里程碑。
二,是基于新思想的實時檢測網絡。這會使得在圖片上分辨物體并確定位置的速度和準確率大大提高。日后落地最廣的圖像檢測技術,不論是人臉識別,自動駕駛還是工業內檢測。這些新技術都不得不提到這次提速的重要意義。
三,則是最簡潔好用的分割網絡,U-Net。這將會是復雜分割任務的基準線,并且會制霸醫療圖像領域。
孟繁岐選出這三類加上殘差網絡,就涵蓋了分類,檢測,分割和生成四大領域。占領了圖像算法的四大主要賽道。
之所以全選擇圖像類的技術,也是為了顯得合理一些。至于語言類,語音類或者多種模態的融合算法,他則計劃可以稍稍放緩些時日提出。