AI制圖從谷歌深夢(mèng)的克系繪圖,到全民玩具,甚至由于出的澀圖太多,直接沖擊到了福利姬,其背后最主要的技術(shù)原因就是擴(kuò)散模型以及文本語言結(jié)合的Clip技術(shù)。
前者提供了更為多樣的高質(zhì)量出圖水平,而后者則提供給了用戶使用文本和關(guān)鍵詞來控制圖片內(nèi)容的簡便能力。
孟繁岐很早就推出了GAN生成對(duì)抗網(wǎng)絡(luò),這是深度學(xué)習(xí)時(shí)代AI繪圖的第一代技術(shù)。經(jīng)過這些年的發(fā)展有一些不錯(cuò)的效果,但其本身有不少問題非常難以克服。
“我在前兩年的時(shí)候就注意到了,GAN模型生成的內(nèi)容缺乏多樣性,比較單一,其對(duì)抗模式也比較玄學(xué),一旦判別器難以分辨之后就不再進(jìn)步,訓(xùn)練難度很高?!?/p>
“擴(kuò)散模型是一個(gè)非常好的思路,將噪點(diǎn)不斷地添加到原圖當(dāng)中,最終成為一個(gè)隨機(jī)噪聲圖像,然后讓訓(xùn)練神經(jīng)網(wǎng)絡(luò)把此過程逆轉(zhuǎn)過來,從隨機(jī)噪聲圖像逐漸還原成原圖,這樣神經(jīng)網(wǎng)絡(luò)就有了可以說是從無到有生成圖片的能力?!?/p>
“而文本生成圖片就是把描述文本處理后當(dāng)做噪聲不斷添加到原圖中,這樣就可以讓神經(jīng)網(wǎng)絡(luò)從文本生成圖片。這讓訓(xùn)練就變得非常簡單,只需大量的圖片就行了,其生成圖像的質(zhì)量也能達(dá)到很高的水平,并且生成結(jié)果能有很大的多樣性。”
不僅如此,孟繁岐采用的殘圖重構(gòu)預(yù)訓(xùn)練模式,也會(huì)極大地增強(qiáng)模型從無到有繪制圖像的能力。不過這部分內(nèi)容已經(jīng)完成,就沒必要再介紹給他們聽了。
對(duì)于他們來說,目前的這些東西已經(jīng)相當(dāng)難以消化了。
“先來看個(gè)示例吧,Clip模型雖然只是鏈接文本和圖像的一個(gè)橋梁,制圖能力可能不強(qiáng),但也已經(jīng)足以根據(jù)文本來產(chǎn)出一些圖像內(nèi)容了?!泵戏贬X得百聞不如一見,正好手上有Clip這個(gè)基礎(chǔ),不如演示給他們看看,這比自己一直說要來得直接。
基于Clip模型構(gòu)建的文本和圖像對(duì)應(yīng)關(guān)系,有一種最為樸素的圖像生成方式。
孟繁岐直接輸入了文字【一只玩滑板的泰迪熊】,這是人類對(duì)于圖像的語言描述。
“我的文字描述會(huì)首先經(jīng)過模型處理變成【文字特征】,然后通過Clip模型學(xué)到的對(duì)應(yīng)關(guān)系轉(zhuǎn)換成【圖像特征】,最后由解碼器進(jìn)行圖像的生成。這里的唯一難點(diǎn)就是,【文字特征】和【圖像特征】之間的轉(zhuǎn)化,到底是怎么一回事?!?/p>
“我們現(xiàn)在的Clip呢,沒有特別具體的策略,只是單純先廣泛學(xué)習(xí)了大量網(wǎng)絡(luò)上的圖像與文字,因此還處在一個(gè)非常粗糙的早期階段。我們的目標(biāo)是在這個(gè)基礎(chǔ)上持續(xù)推進(jìn)。”
有了孟繁岐的演示和介紹,幾人對(duì)于大致流程和幾個(gè)關(guān)鍵環(huán)節(jié)步驟,就有了比較明確的認(rèn)識(shí)。
不過...
“你這還是粗糙的早期階段呢?”
“老板你這也太謙虛了吧?”
“我來玩一下別的文本試試看行嗎?”
對(duì)于玩慣了成熟AI繪圖的孟繁岐來說,目前的輸出結(jié)果分辨率不高,與文字的對(duì)應(yīng)關(guān)系也不是那么明確,很難通過文字精準(zhǔn)地對(duì)圖像進(jìn)行調(diào)整,出圖全靠運(yùn)氣。
但這個(gè)效果對(duì)于其他人來說,已經(jīng)是革命性的了。
“山景油畫圖。”
“一只熟睡的小狗?!?/p>
這種比較明確的指令能夠得到不錯(cuò)的出圖結(jié)果,不過如果指令過于詳細(xì)之后,就很難如他們所愿了。
但夏彥等人仍舊玩得不亦樂乎:“唯一有點(diǎn)遺憾的事情是出來的圖只有256的分辨率,太小了。”
“Clip只是最基礎(chǔ)的文字和圖像對(duì)應(yīng)關(guān)系,我們要做的調(diào)整還有很多,等著吧,你們會(huì)因?yàn)锳I繪圖能力的提升速度而驚掉下巴的?!?/p>
這次討論之后,最初進(jìn)入視界的那一批人就被孟繁岐抽調(diào)走了。
也沒說為什么,這件事情在內(nèi)部引起了一陣討論,大家都在猜測到底是因?yàn)槭裁词虑椤?/p>
最大的聲音是這批人要去負(fù)責(zé)ChatGPT國內(nèi)的事宜了,畢竟ChatGPT的發(fā)布已經(jīng)迫在眉睫。
但沒想到,就在這個(gè)關(guān)口,孟繁岐卻突然地公開了Clip模型的參數(shù),并提供了一個(gè)試用頁面,讓大家可以自己玩玩看使用文字描述到底能夠生成怎樣的圖像。
“這是什么情況?怎么還有新東西??”網(wǎng)友們感到非常的詫異。
畢竟正常來說,一個(gè)人在要做一件大事的時(shí)候,很難有人想得到他竟然還在同時(shí)策劃著另一個(gè)大新聞。
網(wǎng)友們并沒有迷茫太久,孟繁岐的一舉一動(dòng)現(xiàn)在都有不少媒體盯著,一旦有什么風(fēng)吹草動(dòng),馬上就有各種解讀文章和短視頻。
“文本與圖像的界限被打破了,這是AI走向多模態(tài)的里程碑事件。”
“我們以往的系統(tǒng)都是一個(gè)部分處理圖像,一個(gè)部分處理文本。但從這次孟繁岐給出了由文字定向生成圖片的功能來看,大概率他已經(jīng)找到了讓AI模型同時(shí)理解這兩者的辦法?!?/p>
“這會(huì)不會(huì)是ChatGPT發(fā)布會(huì)的一個(gè)預(yù)熱和暗示?難道說ChatGPT在正式發(fā)布的時(shí)候,還會(huì)擁有理解圖像的能力?”
孟繁岐此前對(duì)ChatGPT的所有展示都是純文本的,唯一和圖像沾邊的內(nèi)容是表情包對(duì)話,但那本質(zhì)上是一種編碼,表情包在機(jī)器理解中只是另一種【語言】,而非是真正的圖像。
可他偏偏趕在ChatGPT發(fā)布前,展現(xiàn)了這種全新的能力,這使得大家很難不多想。
AI踏足繪圖這一全新的領(lǐng)域,再次引發(fā)了一個(gè)日經(jīng)的問題,那就是人工智能到底能否達(dá)到人類水準(zhǔn),又能否超越人類的頂級(jí)高手。
“不可能!絕對(duì)不可能?!边@是每次AI進(jìn)入新領(lǐng)域都會(huì)必然存在的聲音。
其論調(diào)也不新鮮了,是一個(gè)經(jīng)典的雖然....但是我們領(lǐng)域不一樣!
“雖然AI已經(jīng)在圍棋、自駕.....等領(lǐng)域超過了人類,但是!繪畫是不一樣的,AI以后或許會(huì)越來越強(qiáng)大,與相機(jī)相差無幾,但在藝術(shù)領(lǐng)域,絕不可能超過人類!”
這是人類藝術(shù)創(chuàng)作者的自信與尊嚴(yán)。
只不過...大家都覺得這話好像聽著有些耳熟了。
好像最開始下圍棋的時(shí)候,就曾經(jīng)聽過這番話。
隨著爭論越發(fā)激烈,谷歌與藝術(shù)院校合作的那篇基于GAN生成技術(shù)生成抽象畫的研究突然從默默無聞到家喻戶曉。
“誰說藝術(shù)繪畫就難的?我看這篇論文都說了,人類根本分不清哪些是藝術(shù)家畫的,哪些是AI畫的?!狈磳?duì)者找到了一個(gè)相當(dāng)充分的例證。
“那是你們不懂!你們門外漢知道什么???我們專業(yè)人士一看就知道哪些是AI哪些不是!”
“啥意思?咱們普通人就沒資格發(fā)表意見了?人家圍棋下贏了就是下贏了,到你們藝術(shù)領(lǐng)域沒有一個(gè)勝負(fù)的標(biāo)準(zhǔn),就全憑你們自己做裁判了唄?”
雙方爭論不休的同時(shí),的確引出了一個(gè)新的難題。
AI終究來到了一個(gè)文無第一的領(lǐng)域。