
來源 | 技術大院
知圈 | 進“域控制器群”請加微13636581676,備注域
【導讀】近年來,AI 在大數據、大模型的深度學習之路上一路狂奔,但很多核心問題依然沒有解決,比如如何讓模型具備真正的理解能力。在很多問題上,繼續擴大數據和模型規模所帶來的收益似乎已經沒有那么明顯了。
在 Robust.AI 創始人、紐約大學名譽教授 Gary Marcus 看來,這預示著深度學習(準確地說是純粹的端到端深度學習)可能就要「撞到南墻」了。整個 AI 領域需要尋找新的出路。
言過其實的AI十年
縱觀技術發展史,鮮有哪個方向像 AI 這樣充滿了炒作與虛張聲勢。十年、又十年,AI 雖然偶爾也能出點振奮人心的成果,但總體來講還是言過其實。
剛開始是“專家系統”、后來是“貝葉斯網絡”,接下來是“支持向量機”。2011 年,IBM 打造的 Watson 曾被宣傳為醫學領域的一場革命,但相關部門如今已經被這家藍色巨人拆分出售。
而自 2012 年以來,深度學習成為人們心目中的最新正確路線、創造出價值數十億美元的新市場,也讓 Hinton 這位當代 AI 先驅成功晉升為科學明星。他的論文被引用了驚人的 50 萬次,而且與 Yoshua Bengio 和 Yann LeCun 一起獲得 2018 年的圖靈獎。
跟之前的 AI 先驅們一樣,Hinton 經常強調 AI 掀起的顛覆性變革很快就會到來,而放射學只是其中的一部分。2015 年,就在 Hinton 加入谷歌后不久,英國《衛報》就報道稱該公司即將開發出“具有邏輯、自然對話甚至是調情能力的算法”。2020 年 11 月,Hinton 在 MIT Technology Review 的專訪中還提到,“深度學習將無所不能。”
在 2016 年多倫多舉行的一場人工智能會議上,深度學習「教父」Geoffrey Hinton 曾說過,「如果你是一名放射科醫生,那你的處境就像一只已經在懸崖邊緣但還沒有往下看的郊狼。」他認為,深度學習非常適合讀取核磁共振(MRIs)和 CT 掃描圖像,因此人們應該「停止培訓放射科醫生」,而且在五年內,深度學習明顯會做得更好。
時間快進到 2022 年,我們并沒有看到哪位放射科醫生被取代。相反,現在的共識是:機器學習在放射學中的應用比看起來要困難,至少到目前為止,人和機器的優勢還是互補的關系。
很少有哪個領域比 AI 更充滿炒作和虛張聲勢。它在十年又十年的潮流中不斷變身,還給出各種承諾,但只有很少的承諾能夠兌現。前一分鐘是它還是專家系統,下一分鐘就成了貝葉斯網絡,然后又成了支持向量機。2011 年,IBM 的沃森曾被宣揚為醫學革命,但最近卻被分拆出售。
2012 年以來,AI 領域最火的是深度學習。這項價值數十億美元的技術極大地推動了當代人工智能的發展。Hinton 是這項技術的先驅,他的被引量達到令人驚嘆的 50 多萬次,并與 Yoshua Bengio 和 Yann Lecun 一起獲得了 2018 年的圖靈獎。
就像在他之前的人工智能先驅一樣,Hinton 經常談論即將到來的偉大革命。放射學只是其中的一部分。2015 年,Hinton 加入谷歌后不久,《衛報》報道稱,該公司即將開發出具有邏輯、自然對話甚至調情能力的算法。2020 年 11 月,Hinton 告訴 MIT Technology Review,「深度學習將能夠做任何事情」。
我對此深表懷疑。事實上,我們還沒有辦法造出能夠真正理解人類語言的機器。馬斯克最近表示,他希望建造的新人形機器人 Optimus 所形成的產業有一天會比汽車行業還大。但截至 2021 年「特斯拉 AI 日」,Optimus 還只是一個穿著機器人服裝的人。
實際上,我們距離真正能理解人類語言的機器還有很長的路要走。Elon Musk 最近倒是加入戰團,表示他希望自家人形機器人 Optimus 能夠催生出比整個汽車工業還大的商業新形態。不過很遺憾,特斯拉在 2021 年 AI 演示日上能夠拿出的成果,還只是一個套著機器外殼的人類演員。
從本質上講,深度學習是一種用于識別模式的技術。如果我們需要的只是“大概齊”的結果,那深度學習確實表現不錯;但再往上就不行了。
沒錯,現有深度學習系統經常會犯這樣愚蠢的錯誤。它們有時候會被圖像上的污跡迷惑,但人類放射科醫師卻能輕松意識到這跟圖像內容無關。
另一大缺陷在于,目前的 AI 醫學影像解析工具往往只閱讀圖像本身,對患者的病史信息幾乎或者完全沒有任何認知,所以往往會忽略掉關鍵性影響信息。
深度學習系統會錯誤把一只擺在寫有“iPod”字樣的紙張上的蘋果,識別成 iPod 隨身聽;還會把翻倒在雪地上的公共汽車錯認為掃雪機。目前,機器學習已經衍生出專門的子學科、專門研究如何克服這類錯誤,但暫時還拿不出任何成果。
以 GPT-3 為例,它能夠將輸入文本轉化和延展為流暢且語法連續的文章。看起來很美,但這一切一旦離開人工編輯的修正,GPT-3 同樣是各種不靠譜。
另有團隊曾經考慮過用 GPT-3 構建 自殺勸解聊天機器人,但發現這套系統很容易把對話往下面這個方向引:
還有人發現 GPT-3 容易生成負面言論,并傳播錯誤信息。
由 GPT-3 驅動的聊天機器人 Replika 就宣稱 COVID-19 病毒是 Bill Gates 搞出來的,而且現在的疫苗“沒啥效果”。OpenAI 為了解決這些問題投入不少心力,但最終得到的也就是一組“正確的廢話”,比如“有專家認為,把襪子含在嘴里能讓頭腦快速清醒過來。”DeepMind 及其他多家機構的研究人員都在拼命修復這些負面言論和錯誤信息,但截至仍無結果。
大模型問題日益突出
傳統觀點認為,模型的參數越多,它可以完成的任務就越復雜,性能也越好。在機器學習中,參數是模型在進行預測時使用的內部配置變量,通過不同的參數可以對不同的問題進行擬合。
筆者不認同上述傳統觀點,或者說對超大模型路線持批判看法。
抱怨深度學習這畸形的研究發展路線,大公司才能玩得起sota,普通人連買張顯卡都要承受幾倍的溢價!
2018年,谷歌提出3億參數BERT模型驚艷四座,將自然語言處理推向了一個前所未有的新高度
OpenAI在2019年初推出GPT-2,15億參數
英偉達威震天(Megatron-LM)83億參數
谷歌T5模型110億參數
微軟圖靈Turing-NLG模型170億參數
2020年GPT-3,1750億參數,參數規模達到千億級別,直逼人類神經元的數量
2021浪潮「源1.0」,2457億參數
微軟和英偉達聯合發布MT-NLG,5300億個參數
谷歌推出了1.6萬億參數的Switch Transformer
智源「悟道2.0」1.75萬億參數再次刷新萬億參數規模的記錄
OpenAI寄予厚望的GPT-4預計將有大約100萬億個參數
.........
好一副「百家爭鳴」之勢,大模型儼然成了是大勢所趨,巨頭們必爭的高地!
當AI模型參數與日俱增,達到千億量級,訓練模型的可行性面臨兩大挑戰:
-
即使是最強大的GPU,也不再可能將模型參數擬合到單卡的顯存中
-
如果不特別注意優化算法、軟件和硬件堆棧,那么超大計算會讓訓練時長變得不切實際
而現有的三大并行策略在計算效率方面存在妥協,難以做到魚與熊掌兼得。
這些大模型從學術角度來看,都令人印象深刻,但造價同樣令人印象深刻。
假設OpenAI在一組每秒可以進行28萬億次浮點運算的Nvidia V100 GPU上進行運算,那么單次訓練的成本就會達到460萬美元。一個擁有15萬億次算力的英偉達RTX 8000 GPU雖然便宜,但完成訓練需要665年。
要處理如此大模型的參數,對處理器的算力要求必然增加,根據OpenAI最新的測算,訓練一個大型AI模型的算力,從2012年開始計算已經翻了30萬倍,MIT一項研究表明,對于一個過參數化(即參數數量比訓練數據樣本多)的AI模型,其算力需求在理想情況下,大于等于性能需求的4次方。
MT-NLG是一個比GPT-3大兩倍的語言模型。在龐大的文本數據集上訓練一個5300億個參數模型,無疑需要龐大的基礎設施。每GPU每秒需要達到113到126萬億次運算,微軟和英偉達使用數百臺DGX-A100的GPU服務器,每臺售價高達19.9萬美元,再加上網絡設備、主機等成本,任何想要重復這個實驗的人都必須花費大約1億美元,一般企業難以承受。
對于預算較少的小企業來說,要想搞出最強大的人工智能模型是不可能的。
難怪有不少人發出疑問:
這到底是深度學習還是深度錢包?
自從2018年谷歌推出BERT模型以來,語言模型做的越來越大,仿佛沒有終點。短短幾年,模型參數已經從最初的3億,擴張到萬億規模。那么,這些AI巨頭到底在爭什么,大模型背后是怎樣的畸形邏輯?
2021年,人工智能行業最大的新聞,就是頭部企業的上市。但上市過程的一波三折,透露著很多艱難。光環褪去,行業已經形成共識:AI做不了顛覆式創新,還是要走產業+AI的路。上市是面子,業績才是里子。
以“CV四小龍”為例,從財報看,雖發展多年,但收入結構方面,to G業務仍是營收主力。而在其他場景中,AI商業化并不樂觀。
比如醫療AI的潰敗:人們曾經對AI醫療抱有極大希望,巨頭紛紛重金入局,但2021年,醫療AI遇到很多挫折:依圖把醫療板塊賣給深睿醫療,IBM被曝將出售IBM Watson Health,而谷歌將關閉其醫療健康項目Google Health。
在其他場景中,也有同樣的難題。AI商業化為什么難?上有芯片等高利潤、標準化產品提供商,下有掌握場景、議價權強勢的客戶和合作伙伴,AI公司在中間,人力成本昂貴、項目交付辛苦、議價權卻不高,很容易做成“大外包”——商業模式始終是AI的困局。
頭部AI公司最喜歡的是這樣的機會:
有難度、難度大、但是能做到,而且標準化程度較高。而現實是:往往要么過難無法做到,要么難度沒有高到只有頭部AI公司才能做到,要么需要定制開發。
AI要跑通商業模式,必須找到一個巧妙的平衡地帶——“大模型”就是在這樣的背景下火起來的。
回顧2021年,我們不難看到,頭部AI公司陸續推出大模型、大裝置。大模型動輒千億萬億的參數量,讓大部分公司望而卻步,成為了頭部AI企業的專屬。
利用最新技術的成本不斷上升,可能會將創新留給最大的公司和租賃工具和算力的公司,從而減緩創新的步伐。
AI模型規模越做越大,訓練成本高居不下,小公司即使想用也往往有心無力。我們不禁要問:未來的AI創新真的只能靠巨頭了嗎?
當只有少數幾個地方才能研究這些大模型的內部結構時,出現創造性新成果的幾率一定會大大降低。
專門研究人工智能和語言的斯坦福大學教授克里斯·曼寧說:在十年前,他的實驗室有足夠的計算資源來探索任何項目,一個努力工作的博士生就可能會做出最先進的工作,而現在,這個窗口已經關閉了。
小數據,大魅力
在接受IEEE Spectrum的采訪中,吳恩達探討了人工智能領域下一個十年的風向,并提出了是時候從大數據轉向小數據、優質數據的觀點。
關于小數據,吳恩達認為,「它同樣能夠有威力,只要擁有50個好數據(examples),就足以向神經網絡解釋你想讓它學習什么。」
吳恩達表示,「過去十年,代碼——神經網絡的架構已經非常成熟。保持神經網絡架構固定,尋找改進數據的方法,才會更有效率。」
以數據為中心的AI是一個系統的學科,旨在將關注點放在構建AI系統所需的數據上。對于AI系統來說,你必須用代碼實現一些算法,然后在數據集上進行訓練。
過去十年里,人們一直在遵循「下載數據集,改進代碼」這一范式。多虧了這種范式,深度學習獲得了巨大的成功。而目前,對于許多實際應用來說,現在更有效的方法是固定神經網絡架構,找到改進數據的方法。
深度學習和符號處理融合
2021 年底,Facebook 團隊(現在是 Meta)發起了一場名為「NetHack 挑戰」的大型比賽,這一事件給我們敲響了警鐘。《NetHack》是早前游戲《Rogue》的延伸,也是《塞爾達傳說》的前身,是一款發行于 1987 年的單人地下城探索游戲。游戲圖像在原始版本中是純 ASCII 字符,不需要 3D 感知。與《塞爾達傳說 曠野之息》不同,這款游戲沒有復雜的物理機制需要理解。玩家選擇一個角色(如騎士、巫師或考古學家),然后去探索地牢,收集物品并殺死怪物以尋找 Yendor 護身符。2020 年提出的挑戰是讓 AI 玩好游戲。
在許多人看來,深度學習已經掌握了從 Pong 到 Breakout 所有內容,游戲 NetHack 對它來說應該也很容易。但在 12 月的一場比賽中,一個純基于符號處理的系統以 3 比 1 的比分擊敗了最好的深度學習系統——這令人震驚。
MetaAI 的一位研究者認為,Marcus 舉的 NetHack 的例子不太恰當,因為這只是 NeurIPS 大會上一個比較有趣的競賽,放在這里當論據有些薄弱
最終勝者為:《NetHack》——沒錯,符號 AI 能輕易打通的游戲,卻著實給深度學習當頭一棒。
符號處理 AI 怎么就逆襲成功了?我懷疑答案在于這游戲每次重開都會生成新的地城結構,所以深度學習根本記不住游戲版面。要想獲勝,AI 就必須真正理解游戲中各實體的含義和彼此之間的抽象關系。所以,AI 需要推理自己在這個復雜的環境中能做什么、不能做什么。特定的移動順序(比如 向左、向前、再向右)就太膚淺了,每項操作都得跟新的情境結合起來。深度學習系統最擅長的就是在之前見過的示例間進行插值,但遇到新鮮事物就容易拉胯。
這種“以弱勝強”絕非偶然,背后一定有著值得深思的理由。
那“處理符號”到底是什么意思?其實這里包含兩層含義:
-
-
以一種特定的代數(也可以叫邏輯或者計算機程序)方式處理(或者叫操縱)符號
什么是符號?它們其實是一些代碼。符號提供了一種原則性的推斷機制:符合規定的、可以普遍應用的代數程序,與已知的例子沒有任何相似之處。它們(目前)仍然是人工處理知識、在新情況下穩健地處理抽象的最佳方式。在 ASCII 碼中,二進制數 01000001 代表(是符號)字母 A,二進制數 01000010 代表字母 B,依此類推。
混合人工智能(而不僅僅是深度學習或符號處理)似乎是最好的前進方向
:
-
世界上的許多知識,從歷史到技術,目前主要以符號形式出現。試圖在沒有這些知識的情況下構建 AGI(Artificial General Intelligence),而不是像純粹的深度學習那樣從頭開始重新學習所有東西,這似乎是一種過度而魯莽的負擔
-
即使在像算術這樣有序的領域中,深度學習本身也在繼續掙扎,混合系統可能比任何一個系統都具有更大的潛力
-
-
更有能力通過復雜的場景進行推理,可以更系統、更可靠地進行算術等基本運算
-
-
它們在表示和查詢大型數據庫的能力方面更加魯棒和靈活
-
符號也更有利于形式驗證技術,這對于安全的某些方面至關重要,并且在現代微處理器的設計中無處不在
-
將深度學習的學習能力與符號明確、語義豐富性聯系起來的混合體可能具有變革性
-
深度學習系統是黑盒子,我們可以查看其輸入和輸出,但我們在研究其內部運作時遇到了很多麻煩,我們不能確切了解為什么模型會做出這種決定,而且如果模型給出錯誤的答案,我們通常不知道該怎么處理(除了收集更多數據)。這使得深度學習笨拙且難以解釋,并且在許多方面不適合與人類一起進行增強認知
將神經和符號結合在一起的探索一直都沒有停止,而且正在積聚力量:
-
Artur Garcez 和 Luis Lamb 在 2009 年為混合模型寫了一篇文章,叫做神經符號認知推理 (Neural-Symbolic Cognitive Reasoning)。最近在棋類游戲(圍棋、國際象棋等) 方面取得的一些著名成果都是混合模型
-
AlphaGo 使用符號樹搜索(symbolic-tree search) ,這是 20 世紀 50 年代末的一個想法(并在 20 世紀 90 年代得到了更加豐富的統計基礎) ,與深度學習并行
-
DeepMind 的 AlphaFold2 也是一個混合模型,它利用核苷酸來預測蛋白質的結構。這個模型將一些精心構建的代表分子的三維物理結構的符號方法,與深度學習的可怕的數據搜索能力結合在一起
-
像 Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 這樣的研究人員現在也正朝著神經符號的方向發展
-
包括 IBM、英特爾、谷歌、 Facebook 和微軟在內的眾多公司已經開始認真投資神經符號方法
-
Swarat Chaudhuri 和他的同事們正在研究一個叫做「神經符號編程(neurosymbolic programming)」的領域,
面對倫理學和計算科學的所有挑戰,AI 領域需要的不僅僅是數學、計算機科學方面的知識,還需要語言學、心理學、人類學和神經科學等多個領域的組合知識。
只有匯聚巨大的力量,AI 領域才可能繼續前進。我們不應該忘記,人類的大腦可能是已知宇宙中最復雜的系統,如果我們要建立一個大致相似的系統,開放式的協作將是關鍵。