吳恩達:AI是時候從大數據轉向「小數據」了


【導讀】AI大牛吳恩達不久前剛被檢測出新冠陽性,許多網友都向他表達了早日康復的祝愿。令人振奮的是近日吳恩達發推文稱:我現在幾乎沒有癥狀了,看起來病毒正在從我體中清除。新冠結果已由陽性轉為陰性。

吳恩達:AI是時候從大數據轉向「小數據」了的圖1

如今,他的工作重心放在了Landing 上。這是一家專門面向制造業廠商數字化轉型的初創公司,創立目標就是幫助制造業公司更快速、輕松地構建和部署人工智能系統。

對于傳統企業來說,預訓練好的模型都是基于公開數據,實際派不上用場。

但畢竟是傳統企業,上哪兒收集海量的特定數據來支撐訓練?

最近,吳恩達在接受IEEE Spectrum的一段專訪中,討論了人工智能領域下一個十年的風向,表達了“是時候從大數據轉向小數據、優質數據”的觀點。

或許我們能從中找到這個問題的答案。

吳恩達:AI是時候從大數據轉向「小數據」了的圖2

采訪原文整理(節選)


IEEE Spectrum: 得益于越來越大的模型和數據集,深度學習在過去十年間取得了巨大的進步。一些人認為這是一個不可持續發展的軌跡。你同意嗎?

吳: 這確實是個值得思考的問題。NLP領域已經有了基礎模型(foundation model),并正在繼續擴大規模。計算機視覺領域也有構建基礎模型的潛力,就是在視頻領域由于計算帶寬(算力)和處理成本的限制還有待開發。雖然擴展深度學習算法的引擎已經運行了大約15年,但它還有足夠的動力。不過,它只適用于某些問題,還有一系列場景需要小數據解決方案。

注:基礎模型是Percy Liang和吳在斯坦福大學的一些朋友創造的一個術語,指的是在非常大的數據集上訓練的巨大模型,這種模型可以針對特定的應用進行調整,例如GPT-3。

過去十年里,面向消費者的企業由于擁有大量用戶群(有時甚至高達數十億),因此獲得了非常大的數據集得以開展深度學習。這給它們帶來了不少經濟價值,但我發現這種法則不適用于其他行業。

IEEE Spectrum:你前面提到,一些公司或機構只有少量數據可供使用。以數據為中心的人工智能如何幫助他們?

吳: 像很多視覺模型都是用數百萬張圖像構建的,我也曾經花3.5億張圖像搭建了一個人臉識別系統。但這種模型在只有50張圖像的數據集上卻沒法運行。不過事實證明,如果你有 50個非常好的數據 ,你也可以做出有價值的東西,比如缺陷檢查系統。在許多根本不存在巨型數據集的行業,我認為重點必須 從大數據轉向優質數據 。有50個經過深思熟慮的實例就足以向神經網絡解釋你想要它學會什么。

IEEE Spectrum: 用50張圖像訓練一個模型的意思是在一個用大數據集訓練好的現有模型上對其進行微調嗎?還是說這是一個全新的模式,就從這個小數據集上學習?

吳: 我來講一下 Landing AI 是做什么的吧。在給制造商提供暇疵檢查服務時,我們一般就用帶有我們自己風格的RetinaNet。它是一個預訓練模型。話說過來,預訓練只是難題的一小部分,更大的難題是提供一個工具讓制造商能夠選擇正確的圖像集(用于微調),并用一致的方式對圖集進行標記。面對大數據集的應用時,我們的通常反應都是如果數據有噪音也沒關系,所有數據照單全收,算法會對其進行平均(average over)。但是,如果我們能夠開發出用來標記出數據不一致的地方的工具,為制造商提供一種非常有針對性的方法來提高數據質量,那這將是獲得高性能系統的更有效方法。

就比如你現在你有10000張圖像,其中30張屬于一個類別,但這30張的標簽不一致。我們要做的一件事就是構建工具 來吸引你注意到這個特殊的數據子集 ,使你能夠快速重新對它們進行標記,從而提高模型性能。

吳恩達:AI是時候從大數據轉向「小數據」了的圖3

畸形的深度學習


傳統觀點認為,模型的參數越多,它可以完成的任務就越復雜,性能也越好。在機器學習中,參數是模型在進行預測時使用的內部配置變量,通過不同的參數可以對不同的問題進行擬合。

筆者不認同上述傳統觀點,或者說對超大模型路線持批判看法。

深度學習從業者大都有這樣的困擾:
抱怨深度學習這畸形的研究發展路線,大公司才能玩得起sota,普通人連買張顯卡都要承受幾倍的溢價!

下一個模型究竟有多大?
  • 2018年,谷歌提出3億參數BERT模型驚艷四座,將自然語言處理推向了一個前所未有的新高度

  • OpenAI在2019年初推出GPT-2,15億參數

  • 英偉達威震天(Megatron-LM)83億參數

  • 谷歌T5模型110億參數

  • 微軟圖靈Turing-NLG模型170億參數

  • 2020年GPT-3,1750億參數,參數規模達到千億級別,直逼人類神經元的數量

  • 2021浪潮「源1.0」,2457億參數

  • 微軟和英偉達聯合發布MT-NLG,5300億個參數

  • 谷歌推出了1.6萬億參數的Switch Transformer

  • 智源「悟道2.0」1.75萬億參數再次刷新萬億參數規模的記錄

  • OpenAI寄予厚望的GPT-4預計將有大約100萬億個參數

  • .........


吳恩達:AI是時候從大數據轉向「小數據」了的圖4

好一副「百家爭鳴」之勢,大模型儼然成了是大勢所趨,巨頭們必爭的高地!

大模型究竟是否是一條正確的道路?
未必!

當AI模型參數與日俱增,達到千億量級,訓練模型的可行性面臨兩大挑戰:
  • 即使是最強大的GPU,也不再可能將模型參數擬合到單卡的顯存中
  • 如果不特別注意優化算法、軟件和硬件堆棧,那么超大計算會讓訓練時長變得不切實際

而現有的三大并行策略在計算效率方面存在妥協,難以做到魚與熊掌兼得。

這些大模型從學術角度來看,都令人印象深刻,但造價同樣令人印象深刻。

假設OpenAI在一組每秒可以進行28萬億次浮點運算的Nvidia V100 GPU上進行運算,那么單次訓練的成本就會達到460萬美元。一個擁有15萬億次算力的英偉達RTX 8000 GPU雖然便宜,但完成訓練需要665年。

要處理如此大模型的參數,對處理器的算力要求必然增加,根據OpenAI最新的測算,訓練一個大型AI模型的算力,從2012年開始計算已經翻了30萬倍,MIT一項研究表明,對于一個過參數化(即參數數量比訓練數據樣本多)的AI模型,其算力需求在理想情況下,大于等于性能需求的4次方。

MT-NLG是一個比GPT-3大兩倍的語言模型。在龐大的文本數據集上訓練一個5300億個參數模型,無疑需要龐大的基礎設施。每GPU每秒需要達到113到126萬億次運算,微軟和英偉達使用數 百臺DGX-A100的GPU服務器 ,每臺售價高達 19.9萬美元 ,再加上網絡設備、主機等成本,任何想要重復這個實驗的人都必須 花費大約1億美元 ,一般企業難以承受。

嚴謹地來看,哪些公司有業務例子可以證明在深度學習基礎設備上花費1億美元是合理的?或者1000萬美元?如果設計出來,那這些模型是為誰而設計的呢?

當處理萬億字節規模的數據集時,存儲成本也會迅速增加。OpenAI的GPT-3的訓練數據集大小為45TB,足以填滿90個500GB硬盤,在訓練過程中需要每秒3.1423^23次浮點運算(FLOPS)。舉一個極端的例子,根據CrowdStorage的數據,特斯拉自動駕駛團隊積累的1.5千兆字節的視頻片段在Azure中存儲三個月的成本將超過6.75萬美元。 

吳恩達:AI是時候從大數據轉向「小數據」了的圖5
 
對于預算較少的小企業來說,要想搞出最強大的人工智能模型是不可能的。
難怪有不少人發出疑問: 這到底是深度學習還是深度錢包?

巨頭們為何熱衷于大模型?


自從2018年谷歌推出BERT模型以來,語言模型做的越來越大,仿佛沒有終點。短短幾年,模型參數已經從最初的3億,擴張到萬億規模。那么,這些AI巨頭到底在爭什么,大模型背后是怎樣的畸形邏輯?

2021年,人工智能行業最大的新聞,就是頭部企業的上市。但上市過程的一波三折,透露著很多艱難。光環褪去,行業已經形成共識:AI做不了顛覆式創新,還是要走產業+AI的路。上市是面子,業績才是里子。

以“CV四小龍”為例,從財報看,雖發展多年,但收入結構方面,to G業務仍是營收主力。而在其他場景中,AI商業化并不樂觀。

比如醫療AI的潰?。喝藗冊泴I醫療抱有極大希望,巨頭紛紛重金入局,但2021年,醫療AI遇到很多挫折:依圖把醫療板塊賣給深睿醫療,IBM被曝將出售IBM Watson Health,而谷歌將關閉其醫療健康項目Google Health。

在其他場景中,也有同樣的難題。AI商業化為什么難?上有芯片等高利潤、標準化產品提供商,下有掌握場景、議價權強勢的客戶和合作伙伴,AI公司在中間,人力成本昂貴、項目交付辛苦、議價權卻不高,很容易做成“大外包”——商業模式始終是AI的困局。

頭部AI公司最喜歡的是這樣的機會: 有難度、難度大、但是能做到,而且標準化程度較高。而現實是:往往要么過難無法做到,要么難度沒有高到只有頭部AI公司才能做到,要么需要定制開發。

AI要跑通商業模式,必須找到一個巧妙的平衡地帶——“大模型”就是在這樣的背景下火起來的。

回顧2021年,我們不難看到,頭部AI公司陸續推出大模型、大裝置。大模型動輒千億萬億的參數量,讓大部分公司望而卻步,成為了頭部AI企業的專屬。

AI模型規模越做越大,訓練成本高居不下,小公司即使想用也往往有心無力。我們不禁要問:未來的AI創新真的只能靠巨頭了嗎?

利用最新技術的成本不斷上升,可能會將創新留給最大的公司和租賃工具和算力的公司,從而減緩創新的步伐。

當只有少數幾個地方才能研究這些大模型的內部結構時,出現創造性新成果的幾率一定會大大降低 。

專門研究人工智能和語言的斯坦福大學教授克里斯·曼寧說:在十年前,他的實驗室有足夠的計算資源來探索任何項目,一個努力工作的博士生就可能會做出最先進的工作,而現在,這個窗口已經關閉了。

吳恩達:AI是時候從大數據轉向「小數據」了的圖6

大模型路線,吃力不討好


筆者身處科技圈,有一個明顯的感受:2021年大模型的會議與討論越來越多。預訓練大模型本身的優勢我們在很多新聞中都感受到了。然而打造大模型并不是一件輕松容易的事情,需要耗費大量的數據、算力資源等,大模型的意義是為了讓算法模型集中化,但是市場中有條件的企業和機構都開始耗費大量資源自研大模型。大模型算法模型的集中化優勢,經過這些機構對集中資源的分化,又有種煙囪式的割裂。

一些機構和產業界對大模型的參與到角逐,使得其呈現出一種宣傳炫技般的畫面感受。這樣的發展模式很可能會給行業帶來一些不好的影響:

  • 大模型成為一些機構和企業秀肌肉的軍備競賽,開始比拼各自參數集數量級。你百億級,我就千億級。數據集本身就有限,標榜自己的數據集越大,水分可能就比較多,而在真實落地使用的情況方面,也并不不一定理想


  • 算力資源和訓練時間消耗過大,且也只限于部分行業的部分問題,普適性差


  • 國內預訓練模型的玩家們可用的中文數據集有限,就是我們知道的幾種主流常用數據來源。在有限的數據集里,大家使用的數據未免重復,而因此研究出來的大模型能力就比較接近


  • 大模型是否優秀,不僅依賴數據的精度與網絡結構,也是對其與行業結合軟硬件協同能力的比拼。單純只強調低頭研發高參數集、強算力模型等的方向,輕視一些與行業的協同二次調試等問題,就會陷入閉門造車的局面,限制了落地的路,走不遠


  • 一些預訓練大模型經過極致化(數據、模型、算力)的發展后,也有可能面臨小眾、泛用性差的情形,比如一些高校研發的預訓練大模型只能在小眾的學術圈子里使用,無法工程化使用,最終淪為一次性的模型,浪費大量資源


吳恩達:AI是時候從大數據轉向「小數據」了的圖7


更令人擔憂的是:通常認為,模型的參數越多,它可以完成的任務就越復雜,性能也越好。但是越來越多的研究對這個概念提出了質疑。也就是說 參數越多,性能未必就好 。
 
例如,谷歌的研究人員開發了一個參數量遠小于GPT-3的模型——微調語言網絡 (fine-tuned language net, FLAN),并且在許多有難度的基準測試中性能都大幅超過 GPT-3。

吳恩達:AI是時候從大數據轉向「小數據」了的圖8
https://arxiv.org/pdf/2109.01652.pdf

與 GPT-3 的 1750 億個參數相比,FLAN 擁有 1370 億個參數,在研究人員對其進行測試的25項任務中,有19項超過了zero-shot175B GPT-3。FLAN甚至在ANLI、RTE、BoolQ、AI2-ARC、OpenbookQA和StoryCloze上的表現都大大超過了few-shot GPT-3。

寫在最后


如果深度學習沿著「模型巨大化」的路走下去,路可能會越走越窄。收益遞減、成本增加、復雜度增加,這些可以預見的問題,可能會在不遠的未來,把自己逼進死胡同。
 
這就是人工智能未來的樣子嗎?
希望不是!

在接受IEEE Spectrum的采訪中,吳恩達探討了人工智能領域 下一個十年的風向,并提出了是時候從大數據轉向小數據、優質數據的觀點。
 
吳恩達:AI是時候從大數據轉向「小數據」了的圖9
 
關于小數據,吳恩達認為,「它同樣能夠有威力,只要擁有50個好數據(examples),就足以向神經網絡解釋你想讓它學習什么?!?/span>

吳恩達表示,「過去十年,代碼——神經網絡的架構已經非常成熟。保持神經網絡架構固定,尋找改進數據的方法,才會更有效率。」

以數據為中心的AI是一個系統的學科,旨在將關注點放在構建AI系統所需的數據上。對于AI系統來說,你必須用代碼實現一些算法,然后在數據集上進行訓練。

過去十年里,人們一直在遵循「下載數據集,改進代碼」這一范式。多虧了這種范式,深度學習獲得了巨大的成功。而目前,對于許多實際應用來說,現在更有效的方法是固定神經網絡架構,找到改進數據的方法。
 
吳恩達:AI是時候從大數據轉向「小數據」了的圖10
 
吳恩達最后總結道:

在過去十年中,人工智能的最大轉變是向深度學習的轉變,未來十年,我認為會轉向以數據為中心。
 
隨著神經網絡架構的成熟,對于許多實際應用來說,瓶頸將是我們能否有效地獲取讓模型運行良好所需的數據。
 
而以數據為中心的人工智能運動在整個社區擁有巨大的能量和動力。我希望更多的研究人員和開發人員能夠加入。

與其追逐萬億參數的巨大模型,不如把更多精力放在構建解決現實世界問題的、實用且高效的解決,不更好么?
登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP