孟繁岐與任總約得很早,次日就進行了一次面談。
這次會面主要是想確認到底有沒有軟件與硬件結合的可能,這件事情確定之后,后面的一系列工作才好展開。
趕得緊一些也是正常的。
“孟先生,這還是我們第一次私下有機會交流。”孟繁岐趕到地方的時候,任總已經到了,身邊還帶了兩個中年人,估計是相關方面的負責人。
“誰說不是呢,主要還是沒想到能跟華為有合作的好機會。我以前基本上沒有想過能插手硬件領域,不過華國企業如果想要自己入局搏殺,我肯定幫幫場子。”孟繁岐確實有個主意,如果現在就開始準備,說不定能吃下不小的市場。
寒暄了兩輪之后,對話直接步入正題。
“這次我們就先聊聊大概的思路吧,你昨天電話里說的軟件思路是什么?我今天把相關的硬件負責人帶來了兩個,先聊個大概,看看我們硬件上有沒有能力支持。”任正非想要盡早確定技術路線、可行性和具體難度之類的事情。
這樣時間和資金上都比較好規劃。
“我的總體思路可以總結成簡單的兩個字,【稀疏】。”孟繁岐也不賣關子,直接就說了自己的核心思路。
“稀疏?你是指稀疏矩陣的那個稀疏嗎?”
我們小學二年級的時候就知道,在矩陣中,如果數值為0的元素遠遠多于數字不為0的元素,并且非0元素的分布沒有規律的時候,就稱該矩陣為稀疏矩陣。
反之,如果絕大多數元素都不為0,就稱之為稠密矩陣。
在此之上,稀疏率,就是指矩陣中有多少比例的元素為0。
“沒錯,就是稀疏矩陣的那個稀疏。目前為止,人工智能算法的絕大部分操作都是矩陣乘,這些矩陣乘法基本上是全稠密的,也就是說,所有的元素均參與了計算。倘若可以使用稀疏矩陣,這可能會是新時代人工智能推理卡的一大優勢競爭力。”
孟繁岐認為,既然想要盡快追趕,最好是只做人工智能推理卡。
想要直接支持AI模型的訓練,難度有些太大了。
不如先專注AI模型推理,把這件事情做得足夠快。
稀疏就是一種非常直接的加速,稀疏率做到百分之50,那就是加速2倍。
做到百分之75,就是加速四倍,以此類推,百分之875就是推理加速8倍,百分之9375就是十六倍。
“現在的AI推理為什么是稠密的?英偉達的顯卡不支持稀疏嗎?”任總覺得不能只知其然不知其所以然,因而直接提出了兩個靈魂問題。
“一般來說,AI模型參數當中是不會存在0的。這涉及到模型權重初始化的問題,就不展開細說了。它的初始化值不為0,學習的過程當中很難會找到某個梯度下降的方向可以使得較大規模的參數同時為0。”
孟繁岐頓了一下,然后如此比喻道:“這件事情的概率大概相當于同一個人連續中獎十次一千萬。”
“至于為什么英偉達的顯卡不支持...這個問題可能應該變成【為什么英偉達的顯卡要支持】會更加合理一些。目前稀疏只是一個非常小眾的領域,還沒有被關注到,所以英偉達沒有考慮到這方面內容才是正常的事情。”
“這么說吧,倘若存在一個高稀疏率的模型,英偉達的顯卡是無法針對其中的0進行加速運算的。稀疏的模型和稠密的模型在英偉達的顯卡上將會是同樣的推理速度,這是目前軟硬件結合的一個機會所在。”
稀疏本身就是人類大腦的固有屬性,人腦的參數復雜度要遠比GPT4高多了,但功耗卻非常之低。
若是按照AI模型全稠密運稀疏行的方式,人腦的溫度起碼得上升幾十度,早就燒壞了。
之所以能實現如此之低的功耗,便是【稀疏】特性的威力所在,針對不同的行為和需求,每次僅僅只有少部分神經元參與生理活動,
“你說的很有道理。過去幾十年里我們一直相信【摩爾定律】,高性能計算硬件每過十幾個月就會性能翻倍。但現在,所謂的摩爾定律已經稍微有些跟不上了。”任總的視角跟孟繁岐稍微有些不一樣。
“顯卡的運算性能可能每年能翻一倍,但人工智能模型的運算需求,這三年可漲了遠遠不止百倍。另辟蹊徑去減輕這方面壓力的確是個思路...”任正非聽了之后還在思索這方面的可能性。
從13年到現在,短短3年出頭的時間,深度學習模型大了何止百倍。
就拿孟繁岐來說,13年參賽自己組個單游戲旗艦顯卡就能訓練出谷歌都拿不出來的人工智能模型。
而現在,沒有上千張最新的專業級顯卡,GPT大模型這個領域根本就別想著來沾邊。
模型大了,算子也更復雜了,訓練的操作和流程也越來越繁復,各種奇技淫巧層出不窮。
“我覺得這個特型路子有說法,人工智能模型的訓練和推理本就是兩個分離的階段。稀疏推理無非是在推理這個領域中繼續特化,如果算力跟得上,或許沒有什么必要。但現在的局面,顯然算力是遠遠跟不上的。”不用孟繁岐仔細解釋,任總也很清楚目前ChatGPT的規模肯定是受制于顯卡的。
如果英偉達的顯卡算力能翻十倍,孟繁岐的這些AI技術可以操作的空間也會相應地擴大很多。
買顯卡的人,到底是買來做訓練和研究的多,還是買來做工業部署,做產業應用的多?
這是個答案非常顯而易見的問題。
有能力去做AI研發和訓練的,畢竟是極少數。更多的人也只是拿出最為經典的算法出來做點產品和應用。
對于這部分人來說,顯卡的訓練屬性是多余的。
至少有相當一大批設備,買來之后就會被裝進服務器集群里,然后一直運算各種AI模型的推理,直到報廢又或者是轉為礦卡。
它們的一生,或許都不會接觸一次訓練任務。
即便只是在這部分市場上有所斬獲,也已經是相當不錯的結局了。
哪怕硬件本身的速度落后兩倍,只要做到75比例的稀疏,速度就反而反超了兩倍。
對于只做推理的硬件需求來說,這顯然是便宜又劃算的。
只不過......
“孟先生,不知道你對稀疏算法到底有把握嗎?”任總覺得這方向聽起來不錯,但是很顯然有一個大前提,那就是模型參數大規模歸零之后,會不會影響算法模型本身的性能。
畢竟100個數字里有75個乃至87個都是0的話...這個比例聽起來還挺嚇人的。