人機大戰結束之后,孟繁岐原本計劃分出一部分精力在自動駕駛相關的任務上,以履行此前與馬斯克和黃仁勛的三方協議。
可經歷了與馬斯克的這番對話之后,孟繁岐打消了這個念頭。
他感覺到,馬斯克顯然是一個控制欲極強的人,如果不先吃點虧的話,終究還是沒法真正理解自己技術的價值所在。
“既然他覺得創辦OpenAI比在自動駕駛上與我合作更加重要的話,那就讓他先去創辦吧。”
“這一次我必須實力說話,掌握關系當中的主導權。”時間越早,孟繁岐的技術優勢就越明顯,如果眼下不能提前拿捏住馬斯克這樣的日后大佬。
在以后的合作關系當中,只怕走勢會越來越糟糕。
“雖然在三方協議當中,我與黃仁勛馬斯克約定了要做自動駕駛,可既然馬斯克撕破了臉挖角谷歌,大半年之內我就不方便和他合作了。那就依著他去,讓他自己慢慢摸索,我完全可以先把這件事情放一放。”
“我繼續做T方法后續的GPT等技術,把語言大模型在今年初步推動起來,一樣是完成了和黃仁勛的合作。”
語言大模型也需要海量的顯卡,同樣是黃仁勛的核心訴求,走這一條路,相當于繞過馬斯克,達成了雙方協定。
不得不說硬件廠商就是牛,橫豎他老黃是一點不吃虧。
“等合作完全達成,我在英偉達的控股比例也會逐漸達到百分之二左右了。”
老黃的確橫豎不吃虧,他孟繁岐既然沒法擁有英偉達,就只能盡量多在英偉達和AMD之類的公司中持有股份了。
畢竟此時兩者的市值股價相比后來差了太遠,尤其英偉達,還不足后來市值的百分之一。
現在買的每一股,幾年后都是百倍的價值。
“T方法竟然開源了?怎么會這么快?”這天清晨,有領域內學者按照慣例開始了自己的一天,端一杯咖啡,看了看郵件。
隨后便打開了論文平臺arxiv和代碼平臺github,看看今天又有什么最新的進展,有什么新奇的大新聞。
旋即,他驚奇地發現,就在十幾天前剛剛震驚世界,爆刷二十幾個榜單的T方法竟然悄無聲息地就這么開源了。
沒有什么專門的預告、宣傳和造勢,核心作者孟繁岐連個推特都沒發,不聲不響地就上線公布了。
仔細一看時間,距離上傳還不到24小時,就已經有上千個點贊和兩百多個分支復制了。
這個數字在代碼平臺上,含金量可是相當之高的,并不是圍脖等社交平臺上那樣動輒幾百萬的點贊數據能夠相比擬的。
許多影響了世界的技術,可能也就大幾千,小幾萬個贊。
“我趕快點個贊,然后復制一下,再發個推特和臉書,這就算是我看過源碼了!”這是許多程序員佯裝自己很忙碌的好辦法。
雖然這個方法震驚了世界,不到一天時間就有千余人注意到了這份代碼,可真的會仔細地結合論文閱讀源碼,自己在這個基礎上做開發,做實驗去分析的人,其實還是沒有那么多的。
全世界能有個萬把人可能都說多了。
不錯,六月中旬,谷歌大腦結束了相關代碼的整理,低調地選擇了開源。
其實,在谷歌內部還是有許多人持不同觀點的,他們認為這項技術完全可以稍緩幾個月到半年再公開,以謀求更大的利益。
不過在孟繁岐的堅持之下,T方法論文的最終版和方法的代碼在整理結束后直接開源,干脆利落。
這個內部消息傳出,讓此前偏聽偏信了CNN那套說辭的人頓時覺得十分羞愧,這完全是小人之心度君子之腹了。
“畢竟就連阿爾法圍棋都還沒開源呢...那個工作都已經做完半年了,誰能想到他開源T方法如此干脆利落!”
阿爾法圍棋孟繁岐雖然是核心貢獻者,但撐死了也就只能占個三四成的功勞,還占不到一半。
主體控制權仍舊是DeepMind,孟繁岐不好越過戴密斯和席爾瓦等人去宣布開源。
約定在年底,也是幾人商討之后,權衡了利弊才最終決定的。
“這小子不會又在憋下一個大招了吧??”
“我怎么有種不祥的預感??”
“這情況好嚇人啊,我現在都不敢做研究了,生怕忙活大半年又被他直接掀翻了,全白干!”
孟繁岐此時的形象,已經差不多成為了領域終結者。
論文一發,生死難料。
誰都不知道哪個領域會是下一個受害者。
吃瓜群眾們沒有猜錯,既然馬斯克有自己的小算盤,孟繁岐已經轉移重心在緊鑼密鼓地繼續T方法的后續技術道路了。
初版的T方法并沒有那么成熟,取得發布會上的那些成績,需要大量的數據和計算資源才能做到,孟繁岐認為開源它并無大礙。
一般人根本玩不起這東西。
就在大家還在仔細琢磨論文,研究代碼的這段時間,就足夠孟繁岐準備好后續三大方向的框架了。
等這群人還忙于復現,調整參數,在訓練過程中持續踩坑階段的時候,孟繁岐后續的實驗都能做一半了。
等他們真的能夠有一些什么不夠成熟的發現時,孟繁岐基于T方法的后續:GPT、BERT和T5三大路線的論文,說不好都已經整裝待發了。
“我就是要故意漏出一些破綻,給學界一些希望和曙光,然后在他們覺得自己行了的時候,狠狠地掏出更強的方法,給他們致命一擊!”
不得不說,他實在有點惡趣味。
但另一方面,這也是為了孟繁岐私人的利益。
只有開源放出T方法,讓更多的人提前采用它、認可它,英偉達才能夠更早地對這個方法有充分的信心,對T方法做硬件的專門適配,雙方的合作關系更加緊密。
此舉能夠大大加深他與英偉達之間的羈絆,自然是需要大力推動的。
“BERT方法和GPT方法名字里面都有一個T,這個Transformer便是兩者的基礎。BERT的全稱是來自T方法的雙向編碼器表示,而GPT的全稱是預訓練生成式T方法。”
“這兩個名字雖然聽起來讓人覺得云里霧里的,但可以用一種很好記的方式去理解。基礎的T方法與此前經典的循環網絡一樣使用了編碼器和解碼器組合的結構,BERT專精于編碼器,而GPT專精于解碼器。”
T方法提出一段時間之后,學者們發現,這種全新的結構并不一定非要遵循原本的那種編碼器解碼器結合的模式,而是可以僅僅只使用一種格式就取得很優秀的結果。
“其實自然語言處理的任務,核心是一個有關概率的游戲。這些模型在大量的文本和數據上進行訓練之后,模型就會非常擅長做填空游戲。它會根據上下文,在文字的空白處填寫答案。比如:我今天股票【空格】了。AI就會發現,賺和賠這兩個字擁有極高的出現概率,因而會根據其他前后文,選擇一個概率更高的詞生成在空格位置。”
雖然比較不可思議,不符合人類對語言的理解,但事實的確是如此。
即便是GPT-4那樣檔次的語言模型,機器也沒有任何一點點理解了這個世界。
它只是特別擅長根據前后文,根據你的問題去生成最大概率讓你比較滿意的回答,這是根據海量文字數據得來的能力。
這點和我們猜謎語特別像,只是看過海量數據又精于計算的模型算得特別準。
“在T方法發布的技術路線之上,BERT和GPT是兩個最有人氣的語言模型,在原本的時間線上,谷歌和OpenAI選擇了不同的路線。”
孟繁岐大概回憶了一下技術路線,這兩者的共同點是都使用了大量的文本數據做了預訓練,即讓模型預先學習海量文本中的知識。
兩者最大的區別,是BERT采用了針對不同任務類型做細微專門調整的方式。
而GPT則是通過更加未來的形式,只需要用戶直接與其對話,提供指令,便可以去要求它做特定的任務。