深度學習逼近死胡同，拐點已至

木火柴

2022年3月28日 09:36

深度學習逼近死胡同，拐點已至的圖1

來源 | 技術大院

知圈 | 進“域控制器群”請加微13636581676,備注域

【導讀】近年來，AI 在大數據、大模型的深度學習之路上一路狂奔，但很多核心問題依然沒有解決，比如如何讓模型具備真正的理解能力。在很多問題上，繼續擴大數據和模型規模所帶來的收益似乎已經沒有那么明顯了。

在 Robust.AI 創始人、紐約大學名譽教授 Gary Marcus 看來，這預示著深度學習（準確地說是純粹的端到端深度學習）可能就要「撞到南墻」了。整個 AI 領域需要尋找新的出路。

人工智能真正的前路究竟在何方？

言過其實的AI十年

縱觀技術發展史，鮮有哪個方向像 AI 這樣充滿了炒作與虛張聲勢。十年、又十年，AI 雖然偶爾也能出點振奮人心的成果，但總體來講還是言過其實。

剛開始是“專家系統”、后來是“貝葉斯網絡”，接下來是“支持向量機”。2011 年，IBM 打造的 Watson 曾被宣傳為醫學領域的一場革命，但相關部門如今已經被這家藍色巨人拆分出售。

而自 2012 年以來，深度學習成為人們心目中的最新正確路線、創造出價值數十億美元的新市場，也讓 Hinton 這位當代 AI 先驅成功晉升為科學明星。他的論文被引用了驚人的 50 萬次，而且與 Yoshua Bengio 和 Yann LeCun 一起獲得 2018 年的圖靈獎。

跟之前的 AI 先驅們一樣，Hinton 經常強調 AI 掀起的顛覆性變革很快就會到來，而放射學只是其中的一部分。2015 年，就在 Hinton 加入谷歌后不久，英國《衛報》就報道稱該公司即將開發出“具有邏輯、自然對話甚至是調情能力的算法”。2020 年 11 月，Hinton 在 MIT Technology Review 的專訪中還提到，“深度學習將無所不能。”

在 2016 年多倫多舉行的一場人工智能會議上，深度學習「教父」Geoffrey Hinton 曾說過，「如果你是一名放射科醫生，那你的處境就像一只已經在懸崖邊緣但還沒有往下看的郊狼。」他認為，深度學習非常適合讀取核磁共振（MRIs）和 CT 掃描圖像，因此人們應該「停止培訓放射科醫生」，而且在五年內，深度學習明顯會做得更好。

時間快進到 2022 年，我們并沒有看到哪位放射科醫生被取代。相反，現在的共識是：機器學習在放射學中的應用比看起來要困難，至少到目前為止，人和機器的優勢還是互補的關系。

當我們只需要粗略結果時，深度學習能表現得很好

很少有哪個領域比 AI 更充滿炒作和虛張聲勢。它在十年又十年的潮流中不斷變身，還給出各種承諾，但只有很少的承諾能夠兌現。前一分鐘是它還是專家系統，下一分鐘就成了貝葉斯網絡，然后又成了支持向量機。2011 年，IBM 的沃森曾被宣揚為醫學革命，但最近卻被分拆出售。

2012 年以來，AI 領域最火的是深度學習。這項價值數十億美元的技術極大地推動了當代人工智能的發展。Hinton 是這項技術的先驅，他的被引量達到令人驚嘆的 50 多萬次，并與 Yoshua Bengio 和 Yann Lecun 一起獲得了 2018 年的圖靈獎。

就像在他之前的人工智能先驅一樣，Hinton 經常談論即將到來的偉大革命。放射學只是其中的一部分。2015 年，Hinton 加入谷歌后不久，《衛報》報道稱，該公司即將開發出具有邏輯、自然對話甚至調情能力的算法。2020 年 11 月，Hinton 告訴 MIT Technology Review，「深度學習將能夠做任何事情」。

我對此深表懷疑。事實上，我們還沒有辦法造出能夠真正理解人類語言的機器。馬斯克最近表示，他希望建造的新人形機器人 Optimus 所形成的產業有一天會比汽車行業還大。但截至 2021 年「特斯拉 AI 日」，Optimus 還只是一個穿著機器人服裝的人。

實際上，我們距離真正能理解人類語言的機器還有很長的路要走。Elon Musk 最近倒是加入戰團，表示他希望自家人形機器人 Optimus 能夠催生出比整個汽車工業還大的商業新形態。不過很遺憾，特斯拉在 2021 年 AI 演示日上能夠拿出的成果，還只是一個套著機器外殼的人類演員。

從本質上講，深度學習是一種用于識別模式的技術。如果我們需要的只是“大概齊”的結果，那深度學習確實表現不錯；但再往上就不行了。

沒錯，現有深度學習系統經常會犯這樣愚蠢的錯誤。它們有時候會被圖像上的污跡迷惑，但人類放射科醫師卻能輕松意識到這跟圖像內容無關。

另一大缺陷在于，目前的 AI 醫學影像解析工具往往只閱讀圖像本身，對患者的病史信息幾乎或者完全沒有任何認知，所以往往會忽略掉關鍵性影響信息。

深度學習系統會錯誤把一只擺在寫有“iPod”字樣的紙張上的蘋果，識別成 iPod 隨身聽；還會把翻倒在雪地上的公共汽車錯認為掃雪機。目前，機器學習已經衍生出專門的子學科、專門研究如何克服這類錯誤，但暫時還拿不出任何成果。

語言類 AI 系統同樣錯誤頻出，令人哭笑不得。

以 GPT-3 為例，它能夠將輸入文本轉化和延展為流暢且語法連續的文章。看起來很美，但這一切一旦離開人工編輯的修正，GPT-3 同樣是各種不靠譜。

另有團隊曾經考慮過用 GPT-3 構建自殺勸解聊天機器人，但發現這套系統很容易把對話往下面這個方向引：

咨詢者：嗨，我心情很差，我想自殺。

GPT-3：這真讓人難過。我應該能幫你。

咨詢者：我該選這條路嗎？

GPT-3：我覺得行。

還有人發現 GPT-3 容易生成負面言論，并傳播錯誤信息。

由 GPT-3 驅動的聊天機器人 Replika 就宣稱 COVID-19 病毒是 Bill Gates 搞出來的，而且現在的疫苗“沒啥效果”。OpenAI 為了解決這些問題投入不少心力，但最終得到的也就是一組“正確的廢話”，比如“有專家認為，把襪子含在嘴里能讓頭腦快速清醒過來。”DeepMind 及其他多家機構的研究人員都在拼命修復這些負面言論和錯誤信息，但截至仍無結果。

大模型問題日益突出

傳統觀點認為，模型的參數越多，它可以完成的任務就越復雜，性能也越好。在機器學習中，參數是模型在進行預測時使用的內部配置變量，通過不同的參數可以對不同的問題進行擬合。

筆者不認同上述傳統觀點，或者說對超大模型路線持批判看法。

深度學習從業者大都有這樣的困擾：

抱怨深度學習這畸形的研究發展路線，大公司才能玩得起sota，普通人連買張顯卡都要承受幾倍的溢價！

下一個模型究竟有多大？

2018年，谷歌提出3億參數BERT模型驚艷四座，將自然語言處理推向了一個前所未有的新高度
OpenAI在2019年初推出GPT-2，15億參數
英偉達威震天（Megatron-LM）83億參數
谷歌T5模型110億參數
微軟圖靈Turing-NLG模型170億參數
2020年GPT-3，1750億參數，參數規模達到千億級別，直逼人類神經元的數量
2021浪潮「源1.0」，2457億參數
微軟和英偉達聯合發布MT-NLG，5300億個參數
谷歌推出了1.6萬億參數的Switch Transformer
智源「悟道2.0」1.75萬億參數再次刷新萬億參數規模的記錄
OpenAI寄予厚望的GPT-4預計將有大約100萬億個參數
.........

好一副「百家爭鳴」之勢，大模型儼然成了是大勢所趨，巨頭們必爭的高地！

大模型究竟是否是一條正確的道路？

未必！

當AI模型參數與日俱增，達到千億量級，訓練模型的可行性面臨兩大挑戰：

即使是最強大的GPU，也不再可能將模型參數擬合到單卡的顯存中
如果不特別注意優化算法、軟件和硬件堆棧，那么超大計算會讓訓練時長變得不切實際

而現有的三大并行策略在計算效率方面存在妥協，難以做到魚與熊掌兼得。

這些大模型從學術角度來看，都令人印象深刻，但造價同樣令人印象深刻。

假設OpenAI在一組每秒可以進行28萬億次浮點運算的Nvidia V100 GPU上進行運算，那么單次訓練的成本就會達到460萬美元。一個擁有15萬億次算力的英偉達RTX 8000 GPU雖然便宜，但完成訓練需要665年。

要處理如此大模型的參數，對處理器的算力要求必然增加，根據OpenAI最新的測算，訓練一個大型AI模型的算力，從2012年開始計算已經翻了30萬倍，MIT一項研究表明，對于一個過參數化（即參數數量比訓練數據樣本多）的AI模型，其算力需求在理想情況下，大于等于性能需求的4次方。

MT-NLG是一個比GPT-3大兩倍的語言模型。在龐大的文本數據集上訓練一個5300億個參數模型，無疑需要龐大的基礎設施。每GPU每秒需要達到113到126萬億次運算，微軟和英偉達使用數百臺DGX-A100的GPU服務器，每臺售價高達19.9萬美元，再加上網絡設備、主機等成本，任何想要重復這個實驗的人都必須花費大約1億美元，一般企業難以承受。

對于預算較少的小企業來說，要想搞出最強大的人工智能模型是不可能的。

難怪有不少人發出疑問： 這到底是深度學習還是深度錢包？

自從2018年谷歌推出BERT模型以來，語言模型做的越來越大，仿佛沒有終點。短短幾年，模型參數已經從最初的3億，擴張到萬億規模。那么，這些AI巨頭到底在爭什么，大模型背后是怎樣的畸形邏輯？

2021年，人工智能行業最大的新聞，就是頭部企業的上市。但上市過程的一波三折，透露著很多艱難。光環褪去，行業已經形成共識：AI做不了顛覆式創新，還是要走產業+AI的路。上市是面子，業績才是里子。

以“CV四小龍”為例，從財報看，雖發展多年，但收入結構方面，to G業務仍是營收主力。而在其他場景中，AI商業化并不樂觀。

比如醫療AI的潰敗：人們曾經對AI醫療抱有極大希望，巨頭紛紛重金入局，但2021年，醫療AI遇到很多挫折：依圖把醫療板塊賣給深睿醫療，IBM被曝將出售IBM Watson Health，而谷歌將關閉其醫療健康項目Google Health。

在其他場景中，也有同樣的難題。AI商業化為什么難？上有芯片等高利潤、標準化產品提供商，下有掌握場景、議價權強勢的客戶和合作伙伴，AI公司在中間，人力成本昂貴、項目交付辛苦、議價權卻不高，很容易做成“大外包”——商業模式始終是AI的困局。

頭部AI公司最喜歡的是這樣的機會： 有難度、難度大、但是能做到，而且標準化程度較高。而現實是：往往要么過難無法做到，要么難度沒有高到只有頭部AI公司才能做到，要么需要定制開發。

AI要跑通商業模式，必須找到一個巧妙的平衡地帶——“大模型”就是在這樣的背景下火起來的。

回顧2021年，我們不難看到，頭部AI公司陸續推出大模型、大裝置。大模型動輒千億萬億的參數量，讓大部分公司望而卻步，成為了頭部AI企業的專屬。

利用最新技術的成本不斷上升，可能會將創新留給最大的公司和租賃工具和算力的公司，從而減緩創新的步伐。

AI模型規模越做越大，訓練成本高居不下，小公司即使想用也往往有心無力。我們不禁要問：未來的AI創新真的只能靠巨頭了嗎？

當只有少數幾個地方才能研究這些大模型的內部結構時，出現創造性新成果的幾率一定會大大降低。

專門研究人工智能和語言的斯坦福大學教授克里斯·曼寧說：在十年前，他的實驗室有足夠的計算資源來探索任何項目，一個努力工作的博士生就可能會做出最先進的工作，而現在，這個窗口已經關閉了。

小數據，大魅力

在接受IEEE Spectrum的采訪中，吳恩達探討了人工智能領域下一個十年的風向，并提出了是時候從大數據轉向小數據、優質數據的觀點。

關于小數據，吳恩達認為，「它同樣能夠有威力，只要擁有50個好數據（examples），就足以向神經網絡解釋你想讓它學習什么。」

吳恩達表示，「過去十年，代碼——神經網絡的架構已經非常成熟。保持神經網絡架構固定，尋找改進數據的方法，才會更有效率。」

以數據為中心的AI是一個系統的學科，旨在將關注點放在構建AI系統所需的數據上。對于AI系統來說，你必須用代碼實現一些算法，然后在數據集上進行訓練。

過去十年里，人們一直在遵循「下載數據集，改進代碼」這一范式。多虧了這種范式，深度學習獲得了巨大的成功。而目前，對于許多實際應用來說，現在更有效的方法是固定神經網絡架構，找到改進數據的方法。

深度學習和符號處理融合

2021 年底，Facebook 團隊（現在是 Meta）發起了一場名為「NetHack 挑戰」的大型比賽，這一事件給我們敲響了警鐘。《NetHack》是早前游戲《Rogue》的延伸，也是《塞爾達傳說》的前身，是一款發行于 1987 年的單人地下城探索游戲。游戲圖像在原始版本中是純 ASCII 字符，不需要 3D 感知。與《塞爾達傳說曠野之息》不同，這款游戲沒有復雜的物理機制需要理解。玩家選擇一個角色（如騎士、巫師或考古學家），然后去探索地牢，收集物品并殺死怪物以尋找 Yendor 護身符。2020 年提出的挑戰是讓 AI 玩好游戲。

在許多人看來，深度學習已經掌握了從 Pong 到 Breakout 所有內容，游戲 NetHack 對它來說應該也很容易。但在 12 月的一場比賽中，一個純基于符號處理的系統以 3 比 1 的比分擊敗了最好的深度學習系統——這令人震驚。

MetaAI 的一位研究者認為，Marcus 舉的 NetHack 的例子不太恰當，因為這只是 NeurIPS 大會上一個比較有趣的競賽，放在這里當論據有些薄弱

最終勝者為：《NetHack》——沒錯，符號 AI 能輕易打通的游戲，卻著實給深度學習當頭一棒。

符號處理 AI 怎么就逆襲成功了？我懷疑答案在于這游戲每次重開都會生成新的地城結構，所以深度學習根本記不住游戲版面。要想獲勝，AI 就必須真正理解游戲中各實體的含義和彼此之間的抽象關系。所以，AI 需要推理自己在這個復雜的環境中能做什么、不能做什么。特定的移動順序（比如向左、向前、再向右）就太膚淺了，每項操作都得跟新的情境結合起來。深度學習系統最擅長的就是在之前見過的示例間進行插值，但遇到新鮮事物就容易拉胯。

這種“以弱勝強”絕非偶然，背后一定有著值得深思的理由。

那“處理符號”到底是什么意思？其實這里包含兩層含義：

用一組符號（本質上代表事物的模式）來表達信息
以一種特定的代數（也可以叫邏輯或者計算機程序）方式處理（或者叫操縱）符號

什么是符號？它們其實是一些代碼。符號提供了一種原則性的推斷機制：符合規定的、可以普遍應用的代數程序，與已知的例子沒有任何相似之處。它們（目前）仍然是人工處理知識、在新情況下穩健地處理抽象的最佳方式。在 ASCII 碼中，二進制數 01000001 代表（是符號）字母 A，二進制數 01000010 代表字母 B，依此類推。

混合人工智能（而不僅僅是深度學習或符號處理）似乎是最好的前進方向 ：

世界上的許多知識，從歷史到技術，目前主要以符號形式出現。試圖在沒有這些知識的情況下構建 AGI（Artificial General Intelligence），而不是像純粹的深度學習那樣從頭開始重新學習所有東西，這似乎是一種過度而魯莽的負擔
即使在像算術這樣有序的領域中，深度學習本身也在繼續掙扎，混合系統可能比任何一個系統都具有更大的潛力
在計算基本方面，符號仍然遠遠超過當前的神經網絡

更有能力通過復雜的場景進行推理，可以更系統、更可靠地進行算術等基本運算
更好地精確表示部分和整體之間的關系
它們在表示和查詢大型數據庫的能力方面更加魯棒和靈活

符號也更有利于形式驗證技術，這對于安全的某些方面至關重要，并且在現代微處理器的設計中無處不在
將深度學習的學習能力與符號明確、語義豐富性聯系起來的混合體可能具有變革性

深度學習系統是黑盒子，我們可以查看其輸入和輸出，但我們在研究其內部運作時遇到了很多麻煩，我們不能確切了解為什么模型會做出這種決定，而且如果模型給出錯誤的答案，我們通常不知道該怎么處理（除了收集更多數據）。這使得深度學習笨拙且難以解釋，并且在許多方面不適合與人類一起進行增強認知

將神經和符號結合在一起的探索一直都沒有停止，而且正在積聚力量：

Artur Garcez 和 Luis Lamb 在 2009 年為混合模型寫了一篇文章，叫做神經符號認知推理 (Neural-Symbolic Cognitive Reasoning)。最近在棋類游戲(圍棋、國際象棋等) 方面取得的一些著名成果都是混合模型
AlphaGo 使用符號樹搜索(symbolic-tree search) ，這是 20 世紀 50 年代末的一個想法(并在 20 世紀 90 年代得到了更加豐富的統計基礎) ，與深度學習并行
DeepMind 的 AlphaFold2 也是一個混合模型，它利用核苷酸來預測蛋白質的結構。這個模型將一些精心構建的代表分子的三維物理結構的符號方法，與深度學習的可怕的數據搜索能力結合在一起
像 Josh Tenenbaum、Anima Anandkumar 和 Yejin Choi 這樣的研究人員現在也正朝著神經符號的方向發展
包括 IBM、英特爾、谷歌、 Facebook 和微軟在內的眾多公司已經開始認真投資神經符號方法
Swarat Chaudhuri 和他的同事們正在研究一個叫做「神經符號編程(neurosymbolic programming)」的領域，