
發布
注冊
/
登錄知識圖譜構建
關注創建者:匿名 創建時間:2026-01-05

知識圖譜構建的實例教程
無人系統在執行任務的飛行及停機維修過程中,積累了大量的結構化數據(狀態監控數據)、半結構化數據(日志文件)和非結構化數據(圖片、文檔、視頻),知識圖譜技術可以有效利用這些數據構建高質量的知識庫。借鑒通用知識圖譜構建的一般流程,給出了無人系統知識圖譜體系構架,構建流程如圖3所示。
圖3 無人系統知識圖譜體系構架
由圖3可知,無人系統知識圖譜主要由知識抽取、知識融合和知識加工三大部分組成。無人系統的知識抽取,通過無人系統飛行時的狀態參數、運動參數的結構化、半結構化或非結構化信息抽取實體、屬性及其關系,并且將這些信息以三元組的形式存儲到知識庫中。無人系統知識融合,對無人系統知識庫的冗余和錯誤信息通過實體消歧、實體對齊等方法進行整合、消歧,進而提升無人系統知識庫的質量。無人系統知識加工,借助知識推理,推斷出缺失事實,構建本體關系,通過質量評估,確保知識庫的知識不會產生矛盾和不一致性。
2 無人系統故障知識圖譜的關鍵技術
無人系統知識圖譜構建方式主要有自底向上(bottom-up)和自頂向下(top-down)兩種。自底向上是通過知識抽取得到實體、屬性及其關系,并通過數據驅動的自動化方式構建本體,進而構建知識圖譜;自頂向下是先構建頂層本體與數據模式,然后通過實體將其豐富,進而形成知識庫。目前,知識圖譜的構建大多采用自底向上的方式,但無人系統故障知識圖譜是領域知識圖譜,涉及知識范圍較窄,本文采用自底向上和自頂向下相結合的方式構建無人系統知識圖譜。
2.1 知識抽取
知識抽取(knowledge extraction)是從開放的無人系統數據(半結構化數據、非結構化數據)自動化或人工抽取知識單元,知識單元包括實體、關系及其屬性,顯然,知識抽取由實體抽取、關系抽取和屬性抽取三部分組成。
展開 需重點評估兩方面:
(1)知識圖譜本身的管理擴展性;
(2)加載/轉換/查詢圖中所有可用數據的擴展性。
企業數據規模龐大且持續增長,軟件需具備處理數十億節點與關系的能力。同時需關注:數據加載速度有多快、是否采用并行計算提升性能、面對復雜查詢時能否在企業規模擴張情況下保持低延遲等問題。
建議要求供應商:務必確保評估的系統為企業級架構設計,可支撐高性能分析和快速復雜查詢。
3. 平臺如何實現知識圖譜的自動化構建?
知識圖譜的構建不應以手動流程為主,工具需依托現有元數據、數據模型與治理信息實現自動化。例如,是否能自動復用關系數據庫的 schema,還是需手動操作導入系統?
建議要求供應商:說明并演示構建知識圖譜所需的步驟,最好使用企業自身數據展示自動化工具的實際效果。
4. 生成的知識圖譜易用性如何?
若昂貴的知識圖譜系統僅能被資深數據科學家使用,其普及率將大打折扣。需確保高管、產品經理、研發負責人等非技術人員能理解系統邏輯、自主查詢并獲取有效答案,無需依賴IT支持。
可要求供應商:演示知識圖譜的構建與訪問流程:操作是否直觀?技術團隊能否快速掌握管理方法?能否像管理現有云數據平臺中的表、數據集、數據產品一樣輕松維護知識圖譜?業務用戶能否通過熟悉的工具訪問系統?
5. 系統如何應對安全、隱私與合規性要求?
知識圖譜整合多源數據的特性可能引發安全風險。在各行業應用中,敏感數據必須具備嚴格的訪問控制、審計跟蹤,并符合GDPR、HIPAA等法規要求。
需要向供應商確認其解決措施:如何延續現有安全協議?如何支撐內部治理與合規要求?是否提供業務所需的數據安全與合規工具?
6. 平臺如何應用本體論?
展開 國雙數據科學團隊劉燕
對比 2020 和 2019 年 Gartner 發布的人工智能領域的技術“成熟度曲線”(Hype Cycle),在短短 1 年時間,知識圖譜的成熟度由創新觸發階段一躍達到預期膨脹高峰階段且非常接近最高點。
知識圖譜逐漸成為人工智能應用的強大助力。
曲線表示,知識圖譜的發展還需要 5 - 10 年時間才能到達成熟的階段,知識圖譜依然有很大的發展空間。
本文將從知識抽取、知識融合、知識推理的角度探索過去一年知識圖譜在自動構建領域的技術突破,并結合圖機器學習、圖數據庫探討相關領域的技術發展。
而在應用上,知識圖譜在 2020 年與產業互聯的結合更加緊密,除了在數據治理、搜索與推薦、問答等通用領域有所突破之外,在智能生產、智慧城市、智能管理、智能運維等眾多領域,以及工業、金融、司法、公安、醫療、教育等眾多行業也都有進一步的場景化落地的突破。
一、 重要的技術發展
知識圖譜構建
2020 年,利用自然語言處理、機器學習等技術從多源異構的數據資源中自動構建知識圖譜的技術取得長足進展。
主要涉及到兩種方法:一種是基于語言規則的方法,另一種是基于統計分析的機器學習方法。自動構建的過程中,如果數據是結構化的 ( 例如圖表數據 ),已知屬性名稱、屬性間的層次結構等,構建知識圖譜相對較為容易。
如果缺乏以上信息,則只能通過文本信息等非結構化數據中提煉知識構建知識圖譜,技術上將面臨很多挑戰。
下面,我們從知識抽取、知識融合、知識推理這三方面來說明。
1. 知識抽取
2020 年以來,更多知識抽取的研究工作被用來支撐更加復雜的應用場景。多學科多領域交叉研究成為一個新的特點。小樣本學習在業界逐漸為人所關注。整體來看呈現以下趨勢:
(1)多模態(Multimodal)。
展開 作者: cooldream2009?
我們構建知識圖譜的目的,在于利用知識圖譜來做一些事情。有效利用知識圖譜,就是要考慮知識圖譜的具備的能力,知識圖譜具有哪些能力呢,首先我們知道知識圖譜包含了海量的數據,是一個超級知識庫,所以我們可以依賴它進行搜索一些內容,由于知識圖譜的數據組織方式是計算機能理解的,具有語義,這種搜索可以定義為語義搜索。第二,對搜索進行延伸,搜索的結果可能會有很多,按照一定的規則排序,如果只取最可能的答案,就變成了問答系統,這也是知識圖譜的典型應用。第三,將知識圖譜與其它技術進行結合,可以充分利用知識圖譜的知識,比如將用戶的個性化特征與知識圖譜結合,能夠得到個性化推薦系統。第四,將知識圖譜的數據進行深度分析,按照一定的規則進行推斷,還可以得到輔助決策。
1 語義搜索
知識圖譜的概念,最早就是由谷歌提出,大家知道,谷歌是做搜索引擎的,它提出知識圖譜的概念,就是為了優化搜索。語義搜索作為一個概念,起源于常被稱為互聯網之父的Tim Berners-Lee 在2001 年《科學美國人》(Scientific American)上發表的一篇文章。其中,他解釋了語義搜索的本質。
語義搜索的本質是通過數學來擺脫當今搜索中使用的猜測和近似,并為詞語的含義以及它們如何關聯到我們在搜索引擎輸入框中所找的東西引進一種清晰的理解方式。
百科給出了更明確地定義,也更容易理解。
所謂語義搜索,是指搜索引擎的工作不再拘泥于用戶所輸入請求語句的字面本身,而是透過現象看本質,準確地捕捉到用戶所輸入語句后面的真正意圖,并以此來進行搜索,從而更準確地向用戶返回最符合其需求的搜索結果。
舉例來說,我們用百度來搜索“現任美國總統的夫人”的圖片,搜出來的多數是美國總統特朗普的夫人,還有少量克林頓和奧巴馬夫人的圖片,說明搜索引擎理解了我們的搜索內容,給我們找到了我們想要的答案。
展開 除了屬性圖,知識圖譜也可以用RDF來表示,它是由很多的三元組(Triples)來組成。RDF在設計上的主要特點是易于發布和分享數據,但不支持實體或關系擁有屬性,如果非要加上屬性,則在設計上需要做一些修改。目前來看,RDF主要還是用于學術的場景,在工業界我們更多的還是采用圖數據庫(比如用來存儲屬性圖)的方式。感興趣的讀者可以參考RDF的相關文獻,在文本里不多做解釋。
知識抽取
知識圖譜的構建是后續應用的基礎,而且構建的前提是需要把數據從不同的數據源中抽取出來。對于垂直領域的知識圖譜來說,它們的數據源主要來自兩種渠道:一種是業務本身的數據,這部分數據通常包含在公司內的數據庫表并以結構化的方式存儲;另一種是網絡上公開、抓取的數據,這些數據通常是以網頁的形式存在所以是非結構化的數據。
前者一般只需要簡單預處理即可以作為后續AI系統的輸入,但后者一般需要借助于自然語言處理等技術來提取出結構化信息。比如在上面的搜索例子里,Bill Gates和Malinda Gate的關系就可以從非結構化數據中提煉出來,比如維基百科等數據源。
信息抽取的難點在于處理非結構化數據。在下面的圖中,我們給出了一個實例。左邊是一段非結構化的英文文本,右邊是從這些文本中抽取出來的實體和關系。在構建類似的圖譜過程當中,主要涉及以下幾個方面的自然語言處理技術:
a. 實體命名識別(Name Entity Recognition)
b. 關系抽取(Relation Extraction)
c. 實體統一(Entity Resolution)
d. 指代消解(Coreference Resolution)
知識圖譜的存儲
知識圖譜主要有兩種存儲方式:一種是基于RDF的存儲;另一種是基于圖數據庫的存儲。它們之間的區別如下圖所示。
展開 
知識圖譜構建的相關專題、標簽、搜索
知識圖譜構建的最新內容
小份數GEO服務助力中小企業8個月前
知識圖譜構建和智能問答訓練正在改變企業知識管理方式,將分散的數據轉化為結構化知識資產,能提升內部協作效率,提高AI回答客戶問題的準確率。隨著相關政策推動技術創新,地理信息與北斗導航、5G的融合應用正在物流選址、應急響應等領域創造新價值。我們的產品能助力中小型企業實現知識圖譜構建和智能問答訓練,通過地理信息與其他技術的融合應用,為企業在各領域創造新價值。
其中:
Altair Monarch 是通用的數據準備工具,能連接多種數據源,將半結構化數據轉換為結構化數據,并自動清洗同類數據;
Altair Graph Studio 可用于語義建模與圖計算,適用于構建知識圖譜與因果分析;
Altair AI Studio 與 AI Hub 是無代碼建模與部署平臺,支持自動建模、API部署與本地化運行
平臺如何實現知識圖譜的自動化構建?
知識圖譜的構建不應以手動流程為主,工具需依托現有元數據、數據模型與治理信息實現自動化。例如,是否能自動復用關系數據庫的 schema,還是需手動操作導入系統?
建議要求供應商:說明并演示構建知識圖譜所需的步驟,最好使用企業自身數據展示自動化工具的實際效果。
4. 生成的知識圖譜易用性如何?
wx_fmt=png&from=appmsg"></p><p class="ql-align-justify">如果企業希望構建知識圖譜,該平臺也可用于本地部署,保障企業數據的安全性。構建完成的數據可繼續通過 AI Studio 和 AI Hub 進行機器學習建模,整個過程強調“無代碼”和“自動化”特性。
全球研討會|知識圖譜賦能數據平臺價值升級10個月前
wx_fmt=png&from=appmsg" width="223"></p><p>* 溫馨提示:因服務器地域問題,掃碼后需等待5秒,請耐心等待自動跳轉至報名頁哦~</p><h3><strong>核心議題:</strong></h3><p><strong>1、知識圖譜的底層價值:</strong></p><p>分享知識圖譜為何是構建現代數據架構(Data Fabric)的核心基礎;</p>
Altair RapidMiner 的另一個顯著差異化優勢在于其大規模并行處理(MPP)知識圖譜引擎,該引擎專為企業級知識圖譜構建、數據結構及本體建模而設計。
魔力象限報告指出:
“該市場的領導者擁有成熟、完善且具有針對性的公司和平臺戰略,結合并運用生成式 AI(GenAI)和 AI 代理(AI agent)來提升客戶的業務價值。
通過融合 AI、機器學習和知識圖譜技術,構建高價值模型,為團隊提供深度洞察,輔助制定更優決策,提升運營效果。
可持續性
跟蹤整條生產線的能源使用情況,是提升效率與實現可持續發展的重要環節。通過測量與報告多維度環境數據,企業能夠精準定位需改進的領域,如及早發現效率瓶頸、減少資源浪費與能源消耗、優化產量、最大限度降低廢料產生等。
本文提出一種基于#圖數據庫(Graph Database)與#大語言模型(LLM)深度融合的新型數據分析架構,通過引入#語義增強技術(RDFS/OWL)與動態關系建模能力,實現從靜態報表到智能推理的范式躍遷,為企業在供應鏈優化、知識圖譜構建等場景提供可落地的解決方案。</p><p><strong>文章將從以下幾個方面展開介紹:</strong></p><p>1.
基于 Databricks 數據構建知識圖譜與數據結構
Altair RapidMiner 的核心差異化優勢在于其大規模并行處理(MPP)知識圖譜技術 - 專為企業級知識圖譜構建、數據結構及本體建模而設計。
通過與 Databricks 集成,客戶可使用 Altair RapidMiner 知識圖譜引擎連接、關聯并激活所有數據類型(包括結構化、非結構化及流數據)。
</strong></p><p><br></p><p>Gartner 分析師指出,<strong>知識圖譜是企業構建更先進 GenAI 解決方案的關鍵基礎設施。</strong>知識圖譜包含語義層,即ontology(本體論),它能賦予企業特有數據在專業領域的清晰、全面業務含義。這一本體可作為基礎上下文,為分析處理及數據建立終端用戶問題與數據之間的映射關系。