相對于計(jì)算機(jī)在國際象棋中的勝利,華國象棋的智能程序進(jìn)展一直落后。
這倒不是華國象棋要比國際象棋難之類的原因,而是因?yàn)槠孱愔悄軐τ诖蠊緛碚f畢竟只是一種公關(guān)手段,沒有實(shí)際上的營收價(jià)值。
“深藍(lán)”取得國際象棋的勝利之后,許多人都認(rèn)為計(jì)算機(jī)下棋這事已經(jīng)差不多到頭了,
繼續(xù)去搞難度差不多的華國象棋費(fèi)力不討好,IBM也解散了“深藍(lán)”團(tuán)隊(duì)。
唯有圍棋確實(shí)難度上要高很多,并且很具有挑戰(zhàn)性。
一般人們都認(rèn)為,計(jì)算機(jī)要在圍棋中取勝比在國際象棋等游戲中取勝要困難得多,因?yàn)閲宓钠灞P太大,下棋點(diǎn)極多,分支因子遠(yuǎn)多于其他游戲。
并且每次落子對情勢的好壞飄忽不定,天堂地獄就在一瞬之間,技術(shù)很成熟之后,人們經(jīng)常可以觀察到那種一手棋下掉AI系統(tǒng)百分之六七十勝率的情況。
可以說是“一著不慎滿盤皆輸”的最好演繹了。
諸如暴力搜索法、Alpha-beta剪枝、啟發(fā)式搜索的傳統(tǒng)人工智能方法在圍棋中很難奏效。
不過圍棋在西方?jīng)]什么受眾,主要熱度還是在東亞三國,因此很長一段時(shí)間內(nèi)沒有太多人愿意花時(shí)間在這件事情上,這十幾年的發(fā)展速度中規(guī)中矩。
DeepMind投入在這件事情上,很大程度也是機(jī)緣巧合。
一方面許多高層都熱愛棋類,另一方面可能更加關(guān)鍵,DeepMind的核心成員,兩位首席科學(xué)家之一的黃士杰在圍棋智能上有著很深的積淀和情懷。
黃士杰的碩士論文是《計(jì)算機(jī)圍棋的打劫策略》,博士論文是《應(yīng)用于電腦圍棋之蒙地卡羅樹搜尋法的新啟發(fā)式演算法》。
相比孟繁岐這種畢業(yè)了連本科專業(yè)知識都全忘了的人,黃博士可以說專業(yè)是非常對口了。
“其實(shí)現(xiàn)在的圍棋智能已經(jīng)有了一定的競爭力。”黃博士為孟繁岐介紹了一下現(xiàn)階段圍棋智能的棋力:“差不多最高才在業(yè)余五段左右的水平,如果不讓子的話,和真正的職業(yè)選手對弈,毫無勝算。”
基本的圍棋棋力劃分孟繁岐還是大概清楚的,業(yè)余六段大約可以與職業(yè)初段水平相比擬。
黃士杰博士本人就是寶島業(yè)余六段,算得上是職業(yè)水準(zhǔn)守門員了。
倘若自己造出的智能程式能夠穩(wěn)定占據(jù)上風(fēng),自己完全下不過的話,基本上象征著圍棋智能來到了真的職業(yè)水準(zhǔn)。
而不是只能通過受讓3-4子這樣的方式擊敗職業(yè)棋手。
并且,如果造出來的智能下不過自己,這件事情屬實(shí)沒什么意思。
“你們目前的想法和策略大概是什么樣的。”大概聊了一些情況之后,孟繁岐將話題切入了具體的算法部分。
從理論上來說,圍棋問題的輸入和孟繁岐非常擅長的圖像類其實(shí)很像。
彩色圖片在計(jì)算機(jī)中的形式就是多通道矩陣,通常為3通道,代表三原色。
比如,一張分辨率為224x224的圖片,就是以三個[224, 224]矩陣的形式進(jìn)行存儲。
一般來說,每個位置的取值在0~255之間。
對于圍棋這個情況來說,它的輸入就像是一個19x19的單通道圖片。
19x19表示棋盤上所有的落子地點(diǎn),而每個地點(diǎn)的取值就只有三種狀態(tài),黑,白,無子。
可以用[-1,0,1]三個數(shù)字來指代。
而圍棋智能的目標(biāo),所謂的下棋。
如果不考慮其中原理的話,它的外在反饋其實(shí)就是給定這樣一個[19,19]的棋盤,希望程序可以在上面僅改變一個無子的數(shù)字0到給定的棋子類型(數(shù)字-1或者1),同時(shí)使得該方獲勝的概率盡可能地變大。
“棋盤就是一副黑白的單通道分辨率為19的圖像。”這個事情在普通人看來比較不會想到。
不過對于比較熟悉圖像技術(shù)和深度神經(jīng)網(wǎng)絡(luò)的孟繁岐來說,是很自然的事情和概念。
“我們從深度神經(jīng)網(wǎng)絡(luò)的突破中獲得了靈感,在2012年底的AlexNet之前,瘋狂石頭這款圍棋智能提供的準(zhǔn)確率是最高的,達(dá)到35%左右。
目前主要是在研究,如何使用深度神經(jīng)網(wǎng)絡(luò)使得圍棋智能的判斷更加精準(zhǔn)。
Alex和你引領(lǐng)的深度神經(jīng)網(wǎng)絡(luò)在分類問題上有了驚人的突破,這是我們今年啟動這個項(xiàng)目的一大原因。
我們在嘗試收集大量的專業(yè)對弈棋譜,目前已經(jīng)有了十多萬場比賽的內(nèi)容。而從這十萬多場比賽當(dāng)中,又可以抽離出上百萬個單次落子。
通過這個數(shù)據(jù),我們現(xiàn)階段在確立合適的網(wǎng)絡(luò)結(jié)構(gòu),在這個方面,我想你是專家中的專家。”
“我大概了解了。”孟繁岐聽完之后基本明白了DeepMind現(xiàn)階段的想法和進(jìn)展情況。
雖然此前黃博士在圍棋AI項(xiàng)目上有過很多研究,但阿爾法圍棋項(xiàng)目畢竟才剛剛開始,同時(shí)也是基于全新的深度網(wǎng)絡(luò)技術(shù)。
目前為止,他們還沒有形成一整套的學(xué)習(xí)以及對抗的思路,那一套策略網(wǎng)絡(luò)-評估網(wǎng)絡(luò)-強(qiáng)化學(xué)習(xí)-蒙特卡洛搜索的總體結(jié)構(gòu)還沒有成型。
還停留在比較早期的階段,甚至還沒有最后決定到底使用怎樣的網(wǎng)絡(luò)結(jié)構(gòu)比較好,此時(shí)正在對模型本身的結(jié)構(gòu)進(jìn)行測試和設(shè)計(jì)。
“這方面確實(shí)是我比較擅長的方向,尤其最近,我在CPU和小模型的設(shè)計(jì)上有一些想法,這些內(nèi)容應(yīng)該會對你們有一定的幫助。”
要說各種設(shè)備和各種類型的任務(wù),網(wǎng)絡(luò)用什么算子比較好,速度和性能怎么取舍,即便再往后五年,孟繁岐都是當(dāng)之無愧的第一人。
因?yàn)樗熘哪切┤∩岷徒Y(jié)論,都是后來谷歌這樣的大平臺NAS(網(wǎng)絡(luò)結(jié)構(gòu)搜索)的實(shí)驗(yàn)結(jié)果。
所謂NAS,其實(shí)就是一種窮舉對比的方式。
在特定的數(shù)據(jù)集上,把所有想得到想不到的算子組合用窮舉的形式全都特么的測試一遍。
最后得出的網(wǎng)絡(luò)結(jié)構(gòu),當(dāng)然會比人類自己設(shè)計(jì)的要好要快,不過換一個差距很大的數(shù)據(jù)未必好用。
獲取這個答案的代價(jià)是相當(dāng)驚人的,隨著搜索空間的增大,顯然需要非常恐怖的計(jì)算資源去支撐。
好在孟繁岐已經(jīng)將幾個大公司上萬張顯卡,數(shù)年時(shí)間測試出來的主要結(jié)論全都白嫖了。
這個知識的價(jià)格成本,恐怕不止十?dāng)?shù)億美金。
“那實(shí)在太好了。”見孟繁岐一口答應(yīng)在阿爾法狗的網(wǎng)絡(luò)設(shè)計(jì)上提供幫助,黃博士喜笑顏開,“我們現(xiàn)階段除了需要快速迭代對比確定網(wǎng)絡(luò)結(jié)構(gòu)之外,沒有什么特別大的困難。”
“如果非要說的話,就是缺少一個職業(yè)守門員級別的人類棋手。”黃博士想了想,補(bǔ)充道。
他自己業(yè)余六段,其實(shí)可以擔(dān)當(dāng)此任。
可他畢竟太過了解圍棋AI,起到的測試效果可能不夠真實(shí),并且他也很忙,不可能一直負(fù)責(zé)對弈測試。
同時(shí),歐美那邊圍棋的熱度也并不高,樊麾二段就曾經(jīng)多次奪得歐美圍棋冠軍,職業(yè)守門員級別測試員不是那么好找。
“這個沒關(guān)系,我二月份會去一次英國,跟你們確認(rèn)一下效果和后續(xù)的思路。”孟繁岐聞言笑了笑:“到時(shí)候給你們找一個守門員中的守門員。”
要說職業(yè)守門員水平的棋手,想必沒有誰比已經(jīng)連續(xù)定段了七年,今年正在第八次對職業(yè)棋手這個身份發(fā)起沖擊的七定王戰(zhàn)鷹,更加適合的了吧?
這門都守了第八回了。