來源 | 知乎—機器學習小談 在科學研究中,從方法論上來講,都應“先見森林,再見樹木”。當前,人工智能學術研究方興未艾,技術迅猛發展,可謂萬木爭榮,日新月異。對于AI從業者來說,在廣袤的知識森林中,系統梳理脈絡,才能更好地把握趨勢。 本文按照以下章節進行組織:1. 背景意義2. 基于路徑的方法3. 基于嵌入的方法4. 總結與展望 01、背景意義 1.1 什么是可解釋性? 首先,什么是可解釋性。由于可解釋性人工智能、機器學習、神經網絡等方興未艾,可解釋性的定義依舊沒有準確的確定。目前較為受到認可的解釋應該論文[1]提供解釋Interpretability as the ability to explain or to present in understandable terms to a human,翻譯過來的意識就是:可解釋性是一種以人類認識的語言(術語)給人類提供解釋的能力。 當然實際上人類也是高度進化的生物,不需要完整的解釋,人類可以根據現有的知識自動進行腦補。所以這里引入可解釋的邊界。例如:為什么你這么聰明?因為我喜歡吃魚。為什么吃魚會聰明?因為魚類富含DHA。為什么DHA聰明?因為 ...我們不可能無窮無盡地解釋下去。根據不同的人群,我們的可解釋的工作也不一樣。例如給大眾解釋吃魚能夠聰明就行了,因為吃魚能夠聰明我們很多人已經從小到大耳熟能詳了。如果我們給專業人士解釋DHA為什么會是大腦聰明,我們身邊很多人也答不出來,這可能就需要外部知識去解決了(例如知識圖譜)。當然,可解釋的這種邊界越深,這個模型的能力也越強。 1.2 當前可解釋性方法 XAI總結了一些可解釋性的方法。例如比較著名的可視化[2]方法,這種方法在計算機視覺上使用較多。又例如模仿模型[3],這種方法比較簡單,例如用一些可解釋性的模型去模仿深層黑盒模型,從模仿者的結構來來研究可解釋性。有例如特征相關,這些是研究顯著性特征的方向,區分特征的重要性來提供可解釋性,但是這種解釋一般比較弱。還有很多的方法,我在上一篇文章的神經網絡的可解釋性綜述討論比較多,歡迎大家可以參考我的這篇文章或者其他的資料。 經典可解釋性方法分類 1.3 知識圖譜對比其他知識表示的優勢 2012年,Google推出了一款從Metaweb中衍生而來的產品,名字叫做Knowledge Graph(知識圖譜),彼時其功能在于,搜索內容時提供附加的衍生結果。隨著人工智能的發展,知識圖譜開始應用于更多的場景,關注度不斷攀升,成為認知智能領域的核心技術之一。最重要的是,知識圖譜逐漸成為人工智能應用的強大助力。
知識圖譜的優勢 1.4 決策樹模型 vs 基于知識圖譜的解釋 在可解釋性角度看來,由于知識圖譜大多數屬于異構圖結構,對比其他的數據結構有更強的表達能力以及對應的更多用途的圖算法。基于知識圖譜的可解釋性通常比之前的解釋方法更有深度更容易讓人類理解。如左圖,是決策樹中抽出的規則,總結食物的健康原因。對比右圖,人工智能模型借助醫療生物領域知識圖譜,例如基于路徑得出的解釋,顯然比左圖更容易理解、更有說服力。 決策樹解釋vs知識圖譜解釋 對于知識圖譜在可解釋人工智能上帶來的優勢,以及它們當前方法理論、限制以及機遇,Freddy Lecue博士在2020年的論文On the role of knowledge graphs in explainable AI[4]。給我們從人工智能的Machine Learning、Knowledge Representation and Reasoning(KRR)、Game Theory、Uncertainty in AI(UAI)、Robotics、Computer Vision 和 Natural Language Processing等分支分析了研究方法、可解釋性面對的挑戰、限制以及機遇。而本文主要從兩個方法-基于路徑的方法以及基于嵌入的方法對知識圖譜在人工智能中的研究進行一個概述。 02 基于路徑的方法 基于路徑的解釋方法主要應用在推薦系統上較多。下面主要介紹一個KPRN-基于知識圖譜路徑推理的可解釋性推薦方法。這是我們在做綜述的時候注意到的一篇論文Explainable Reasoning over Knowledge Graphs for Recommendation[5],在2019年發表于AAAI。 通過用戶-物品的異構知識圖譜,可以通過找到的關聯路徑作解釋。這類關聯路徑不僅表述了知識圖譜中實體和關系的語義,還能夠幫助我們理解用戶的興趣偏好,賦予推薦系統推理能力和可解釋性。 該論文提出了一種基于循環神經網絡的方法KPRN,建模用戶和物品對在知識圖譜中存在的關聯路徑,按照路徑的解釋分數對路徑進行排序后輸出。它的訓練數據主要來源于用戶的歷史記錄CTR,其標簽是用戶最后對該項目(音樂歌曲)的評分或者是其他評價方式。例如有數據記錄用戶最終點擊了Castle on the hill之前有哪些操作以及用戶對該歌曲的最終評分。 Explainable Reasoning over Knowledge Graphs for Recommendation 我們先看一下模型,模型分為三層:嵌入層,將知識圖譜的實體以及對應的關系映射到一個向量作為輸入。再上一層是解碼層,這里用了LSTM單元,這一步的作用主要是根據這些路徑對下游任務進行解碼,學習這些路徑的時序依賴。最后經過池化層的處理后,根據不同的路徑分數對物品進行一個打分。 KPRN訓練 當這種模型訓練好之后,我們可以使用這種模型對用戶進行物品推薦的同時,追溯推薦的原因。例如這里路徑S3最高分。 這條路徑得出的一個解釋是,“有很多觀看該電影的用戶,都喜歡The Incredible Journey;而這部電影剛好也是由你喜歡的電影Fantasia的導演Jams Algar指導的;不妨你可以試試。”當然這個解釋可以用生成模型生成。 我們甚至還能從其他的高分路徑得到這個用戶感興趣的導演James等。 KPRN的一個解釋案例 除了KPRN之中方法之外,我們統計到了不少其他方法,例如這是一篇同一年發表在ACM的論文Reinforcement knowledge graph reasoning for explainable recommendation[6],它的思路用強化學習的方法去代替有監督學習,通過一個智能體自動在圖上探索解釋的路徑,使得這種方法得到的解釋更加靈活。具體細節大家可以自行去看這一篇論文。 關于KPRN收到的一個主要問題:關于剛剛基于路徑的算法,在預測的時候,是怎樣挑選路徑的。一個點到另外一個點的路徑數量隨著長度限制應該是指數級別的,這篇文章是如何解決這種問題的呢?同時,我也注意到,它的訓練數據是用戶的CTR,模型學習這種CTR路徑來為用戶提供可解釋性,你覺得真的有那么高的解釋性嗎?也許用戶的一次點擊是隨心所欲的呢? 答復:這個問題問的很細節。我也曾經好奇過,但是我發現,作者挑選路徑僅僅基于路徑的長度來篩選,譬如篩選路徑長度少于6跳的。但是我同時也會疑問,解釋一定就跟長度有關嗎?難道長路徑的解釋就一定比短路徑要差?我發現很多讀者也提出不同的想法,例如用隨機游走之類的算法,收斂的時候對路徑的概率進行排序,最后選擇topk之類,這些也我們可以深挖的方向。 關于第二個問題,其實我也覺得單單依據用戶CTR歷史信息,作為可解釋性的一種訓練,也是不靠譜的。因為用戶點擊或者進行其他行為例如評論或者收藏之類的,不一定是有意的,有時候就是隨心所欲。我認為這里確實可以過濾的,就是過濾掉一些可能是用戶隨心所欲的行為,例如看點擊的時間頻率之類的,或者甚至人工打標記來訓練一個過濾器之類的。不過我認為作者的初心只是想提出有這樣的一種基于路徑的方向,后面的例如強化學習的方法,要比種方法強不少,我覺得讀者有興趣可以探究一下。 03 基于嵌入的方法 下面我再給大家分享另一種方法-基于嵌入的方法,以QUERY2BOX為例。首先簡單介紹一下嵌入-embedding。知識圖譜的表示學習受自然語言處理關于詞向量研究的啟發,因為在word2vec的結果中發現了一些詞向量具有空間平移性,如圖: embedding vec(king)?vec(queen)≈vec(man)?vec(woman) 同理,我們是否可以參考word2vec,將知識圖譜中包括實體和關系的元素映射到一個連續的向量空間中,為每個元素學習在向量空間中表示,向量空間中的表示可以是一個或多個向量或矩陣。這些方法有很多,之前也有很多文章提過,大家可以參考參考。 而當前的一些嵌入,也就是用把實體映射成向量或者高維度空間中的一個點,有不少缺點:例如對于人工智能系統其中的對話機器人,面對復雜的問題:例如有魚類食物富含的物質對身體哪些部位有好處?這種帶有更深的邏輯推理問題,往往都有不止一個的答案,蘊含很多集合與集合之間的操作,因此用單個點或者向量是難以表示的。同時這些單點進行(合取/析取)也就是并集和交集操作也是不自然的。 “魚類食物富含的物質對身體哪些部位有好處?”邏輯依賴圖 所以小結當前方法:將復雜問題建模成向量空間的一個點。其普遍缺點是: 1.一個復雜的問題可能代表著一個很大的答案實體集合,用一個點(類比一個典型實體)表示是不合理的;2.向量空間中定義兩個點的邏輯操作符(合取/析取)也是不合理的。 QUERY2BOX:Reasoning over Knowledge Graphs in Vector Space using Box Embeddings[7]發表在2020年的ICLR會議上。那么QUERY2BOX是思路是什么呢?大家也可以從主題猜到,QUERY2BOX是用“箱子”不再是一個點來進行嵌入。它的目標是想融入一階邏輯推理EPFO能力到這些嵌入之中。大家可以看到右圖,這些一個一個的box嵌入,看起來是適合集合之間的操作的,而且這些操作都是產生一個個新的box,因此它的操作也是封閉,一種閉包。從論文的總結看,box-embeddings有以下優勢: 1.Box-embeddings更適合復雜而且答案多組合的推理問題;2.Box之間依然可以進行一階邏輯操作EPFO(Existenial Positive First-order);3.Box操作的結果是產生新的box,因此操作符是封閉的。 那么QUERY2BOX是如何實現這種box-embedings?還是剛剛那個問題“魚類食物富含的物質對身體哪些部位有好處?“。我們看一下具體的細節。圖A,我們首先將復雜的抽象問題分解為依賴圖,這是一種DAG。如果直接回答這些邏輯問題對于人工智能來說非常吃力,那么這種依賴分解對于人工智能則輕松得多,因此將查詢轉換為DAG依賴圖是容易實現的一個環節。從人類的角度看,我們分析了問題的邏輯后,我們就可以借助外部知識(知識圖譜)尋找答案。 對于下圖C,我們可以找到魚類和食物的交集“三文魚和鰱魚”,從該交集,我們可以繼續找到其成分EPA、DHA等,從而可以繼續找到對身體有益部分(橙色的實體)。從計算機的角度,根據DAG,可以編譯為計算機理解的運算-計算圖(如圖B)。計算機可以根據這些操作,圖C,例如對魚類進行Projection得到新的box,與食物的box進行交集(Intersection)就得到了魚類食物,諸如此類地一步一步推導出答案,橙色的箱子。 QUERY2BOX 關于箱子的定義,這里箱子是一個虛擬的中心點和偏移定義的,p是箱子里面的實體的坐標,off函數根據不同的實體計算一個偏移量。其中off函數,查看源代碼,是一個神經網絡實現的動態計算偏移量的函數,可以根據不同的實體p估計其偏移量。 而論文提出是這樣訓練的:訓練的時候,有實體在箱子外面的,也有實體在箱子里面的,因此他們分為兩個距離度量,dist-outside和dist-inside;dist-outside的在箱子外的實體距離有多遠,目的是想把屬于這個箱子的實體“拉扯”到箱子里面;而dist-inside是想讓箱子內部的實體更加接近箱子的中心。 關于參數 ∈[0,1],如果 =0,意味著優化目標是把所有的答案實體控制在box內部即可。如果 =1,距離則變成原始L1距離,將會把所有實體向中心拉扯。 對于剛剛的計算圖,Projection的定義是實體集合和他們對應的關系集合在集合層面上進行,投影操作,這一步跟TransE很相似。 Prohection定義 對于合取操作(Intersection),它們的設計會復雜一點。它們在交集時候,交集的箱子會分配不同的權重(類似注意力機制),并且交集后的箱子的大小也會由一個MLP進行大小調整,這里用了sigmoid這里對箱子進行一定大小衰減。 Intersection定義 對于析取操作(就是并集),大家可以想到,并集后的元素或者空間一般都是越來越大的。這樣的話,如果后面再有其他的操作,計算成本就會更很多。而他們想出了一種優化方法。根據邏輯命題的范式存在定理,其實對應任何的公式,都能夠找到等值的CNF和DNF。這里轉換為DNF,也就是說所有的析取操作(并集操作將推到最后才進行)。如下圖,這里就進行DNF轉換,讓并集操作在最后計算。 Union定義 通常在模型中,這一層會放在中間作為可解釋層展示給用戶。在18年提出的VRN網絡,用于語音識別,就是這種架構。不過當時box-embedding還沒有提出來,它們這一層使用一種基于路徑的方式進行推理。可能有同學就想到了,這一層換成Box-embedding,后面編碼器改成box-embedings的編碼器,那不就是可以采用這個最新的技術呢?這個也是我們的一個機會。 拓展問題:關于box-embeddings部分,為什么就用這樣的箱子的結構?有很多數據也不一定是規規矩矩按照超立方體來分布的,用球體是否可以?甚至是一些其他的復雜形狀。 答復:首先這篇論文也沒有拓展過其他的形狀的embeddings。但是,根據我自己的想法,我覺得他們用box-embeddings是有道理的。因為超立方體的邏輯運算肯定是要比其他形狀的運算是要快的,它只需要確定一個中心和長寬之類就可以了。 當然,你也許會說,那球體也應該很快呀,不就確定一個中心和半徑就可以了嗎?但是我覺得這樣會有第二個問題,就是球體的交集或者并集就很可能不再是球體了,可能是一些其他形狀的空間了,這樣子就引起了運算不封閉的問題,box進行EPFO之后,依舊是box,但是球體和其他形狀就不一樣了。當然了,在極坐標或者其他坐標系下也是可能的,這種情況類似TransE和RotaE。 04 總結和展望 一些總結: Hete-CF[8],LTN[9],NTP[10] 拓展問題:既然基于圖結構的知識圖譜,有強于其他數據結構的可解釋能力以及算法。那么可以問問除了基于路徑或者基于嵌入的提供解釋性之外,還有哪一些類型嗎? 答復:當然是有其他類型的。例如,混合型的,如漣漪神經網絡RippleNet,這種網絡是既有基于路徑的也有基于嵌入的。有例如,比較火的是圖神經網絡,譬如自然語言處理里面就有與圖神經網絡相結合搞可解釋性的。大概原理首先將文本進行圖表示(例如語法解釋樹也是一種圖結構,這種解釋可以用一些語法相關的圖譜去完成) 一些展望: 這里引用Freddy Lecue論文中的圖(對計算機視覺): 以及我的構想圖(對自然語言處理中的命名實體抽取): 參考1. Towards a rigorous science of interpretable machine learning F Doshi-Velez, B Kim - arXiv preprint arXiv:1702.08608, 2017 - arxiv.org https://arxiv.org/abs/1702.086082. K. Simonyan, A. Vedaldi, and A. Zisserman, “Deep inside convolutional networks: Visualising image classification models and saliency maps,” arXiv preprint arXiv:1312.6034, 2013. https://arxiv.org/abs/1312.60343“Extracting Decision Trees From Trained Neural Networks”. SIGKDD. July 23-26,2002 https://www.sciencedirect.com/science/article/pii/S00313203980018124. On the role of knowledge graphs in explainable AI F Lecue - Semantic Web, 2020 - content.iospress.com https://content.iospress.com/articles/semantic-web/sw1903745. Explainable reasoning over knowledge graphs for recommendation X Wang, D Wang, C Xu, X He, Y Cao… - Proceedings of the AAAI …, 2019 - ojs.aaai.org https://ojs.aaai.org/index.php/AAAI/article/view/44706. Since 2021 Since 2020 Since 2017 Custom range... Sort by relevance Sort by date [PDF] arxiv.org Reinforcement knowledge graph reasoning for explainable recommendation Y Xian, Z Fu, S Muthukrishnan, G De Melo… - Proceedings of the 42nd …, 2019 - dl.acm.org https://dl.acm.org/doi/abs/10.1145/3331184.33312037. Query2box: Reasoning over knowledge graphs in vector space using box embeddings H Ren, W Hu, J Leskovec - arXiv preprint arXiv:2002.05969, 2020 - arxiv.org https://arxiv.org/abs/2002.059698. hete-cf: social-based collaborative filtering recommendation using heterogeneous relations c luo, w pang, z wang, c lin - 2014 ieee international …, 2014 - ieeexplore.ieee.org https://arxiv.org/pdf/1412.7610.pdf9. Luciano Serafini and Artur d’Avila Garcez. Logic tensor networks: Deep learning and logical reasoning from data and knowledge. arXiv preprint arXiv:1606.04422, 2016. https://arxiv.org/abs/1606.0442210. Tim Rocktaschel and Sebastian Riedel. End-to-end differentiable proving. In ¨ NIPS, pages 3788–3800, 2017. https://arxiv.org/pdf/1705.11040