網絡結構的重參數化,原理并不復雜,說白了就像是數學上的結合律。
和加法結合律,乘法結合律什么的差不多是一個意思。
屬于是小學二年級知識點。
只不過這次結合的并非是3+5這樣的簡單加法,而是比較復雜的神經網絡算子。
哪些算子是線性的可以合并,如何合并比較好,分支怎么設計,還是稍微有一些工作量。
這個結果值得和前面的移動端網絡一起,寫作兩篇論文。
孟繁岐自從簽了谷歌之后,基本上不怎么寫論文了,沒有了很強烈的發文需求,忙了好一陣子創業和撈錢的事情。
這一次參與圍棋AI的項目,倒是跟幾位高手一同寫了不少內容。
席爾瓦,戴密斯,黃士杰和孟繁岐前段時間把阿爾法狗的技術總結了一番,各自詳細描述了一下技術內容,目前由席爾瓦在整合當中。
由席爾瓦,黃士杰和孟繁岐共同作為第一作者,戴密斯為通訊作者,投稿阿爾法狗的詳細技術內容到《自然》雜志。
這番投稿比原本早了快兩年,給編輯以及審稿人的震撼程度勢必又能再上一個臺階。
原本是三個月,現在估算下來,可能兩個月左右就能刊登。
“我去年年底投的計算機視覺領域的頂會,一審結果還沒出呢?!泵戏贬榭戳艘幌锣]箱,覺得情況有些好笑。
他公布在arxiv上面的那些論文,雖然質量很高,但其實嚴格意義上來說,都還在審稿當中。
算不上是正式發表的內容。
arxiv上確實存在沒有正式發表,也不準備再正式發表的曠世奇作,重要論文。但畢竟是極少數。
大部分未發表內容還是比較一般的,孟繁岐還在早期階段,咖位還不夠,該發的文章還是得發。
可能再過兩年,以他的咖位就不需要繼續正式發表什么文章了,懶得發的話,隨便arxiv上公布一下也可。
說是這么說,但孟繁岐還是沒能想到,自己第一篇正式發表的文章竟然很可能會是一篇一作《自然》正刊,而且根據前世的情況判斷,基本板上釘釘,是封面文章。
實在是造化弄人。
《自然》和《科學》的地位有目共睹,可以說是科學出版界的百年老店了。
由于兩家都是綜合性刊物,所有的科學領域一起競爭每周相當有限的版面,想在上面發表文章可以說是相當的困難。
即便是學術實力很強的大學,院士十來位,杰青和長江學者百來個,一般一整年能出一兩篇自然和科學,也已經算不錯的了,值得嘉獎。
在國內做研究人員,別的不說,一篇自然、科學正刊,直接立領五十萬乃至上百萬獎金,不在話下。
后續的獎勵和政策協助那更是數不勝數,哇,爆率真的很高。
席爾瓦和戴密斯也覺得特別神奇,孟繁岐從殘差網絡嶄露頭角以來四五個月,一輪審稿期還沒過完呢,技術倒是生產個不停。
還沒有正式錄用一篇文章,就已經能和自己幾人一起發自然正刊了。
要知道他們都是多少年的積累和努力才有了這個實力。
“你這個重參數化的思想,邏輯上好像把自己給繞進去了啊。”重參數化是一個創意為主的想法,屬于腦洞文。
想到比較困難,實現上倒沒有那么復雜。
只是這個原理,在幾位研究者看來,好像不大數學。
“現在的情況就是,你有兩個結構,一個用來訓練,一個用來推理。訓練的比較復雜比較慢,但是推理的則小很多,也很快?!贝髅芩购喴乜偨Y道。
隨即指出了最關鍵的問題:“但你構建的這兩個結構卻是等價的,這里存在一個巨大的問題,如果兩者本身就是等價的,為什么以復雜的形態訓練效果會好,而簡單的情況訓練效果則會差呢?”
“這不數學。”席爾瓦給孟繁岐的想法下了一個結論。
這里面從數學邏輯上來說,存在一個套娃一樣的悖論。
那就是有強烈意義的操作,兩個分支數學上就合并不了,至于沒用的操作最開始就在數學上等價,沒必要拆開。
“網絡結構的分支合并是沒有辦法越過非線性算子的,如果越過,則不能合并對吧。”戴密斯如此抽絲剝繭道。
網絡結構的重參數化,最終目的是要得出與合并之前一樣的運算結果,因此非線性的激活函數是沒法包含在殘差里的,否則就沒法合并。
比如最常用的激活函數,ReLU,其實說白了就是保留所有大于0的數字,小于0的數字歸零。
“這個非線性函數操作必須在分支合并之外,而不可以在分支合并之內?!?/p>
這個很好理解,假設一個原本的數字x是1,而他F(x)運算之后得出的結果是-2。
那么ReLU(F(x))+ x,和ReLU(F(x)+ x)的結果是完全不同的。
前者為0+1,后者為ReLU(-2+1)=0。
所有的可合并分支,必須不含有非線性激活算子,才能夠滿足結合律和分配率。
但問題又來了,如果構造出來的幾個分支都可以等價轉換為一個,那為什么不從一開始就只訓這一個分支呢?這不是快很多嗎?
最后的效果為什么會不一樣呢?
這從直覺上和數學上都是不大合理的事情。
這不就相當于小學數學分開算嗎?
2X拆成X+X去訓練,這怎么會有區別呢?
“我們不能這么去想,殘差鏈接的想法也沒有脫離線性變換,也只是加了一個相同形狀的張量x而已呀。”孟繁岐自己也不知道具體的原理,這個世界上沒人能解釋得清楚。
“但是殘差鏈接在你的實際應用當中,是跨越了非線性激活函數的,你的公式看上去很簡單,但代碼里卻很復雜?!贝髅芩篃o情地指出了這個說法的問題所在。
“那理論上說,是不是3x3的卷積核一定好過1x1的卷積?只要九宮格外面的八個數字都是0,那么3x3的卷積核其實就變成了一個1x1的卷積,因為外面8個數字不參與運算?!?/p>
孟繁岐想了想,又換了一個例子來嘗試證明。
“呃...好像確實是這個道理。”
就好像有某種物品,一定好過沒有,因為再不濟你也可以把它扔掉嘛,這樣你現在就也沒有這個東西,大家都一樣了。
“那為什么我這里結果顯示,同一個位置上面,1x1 + 3x3的性能卻明顯好于3x3 + 3x3,也就是說一個強結構加一個弱結構好于兩個強結構相加,這難道不奇怪嗎?”
“而且,批歸一化雖然推理時是線性的,但訓練時其實還是非線性的,也就是說即便沒有專門的非線性函數,這種可重構的結構設計,多個分支內在訓練的時候仍舊是具備非線性能力的?!?/p>
理論很美好,但實驗結果很骨感。
即便席爾瓦和戴密斯的數學再扎實,也終究沒法解釋孟繁岐獲得了提升的實驗結果。
兩個人能做的也只有喃喃自語同一句話。
這特么根本不數學??!