
發布
注冊
/
登錄自然語言查詢的案例
人工智能 |自然語言生成
?
人工智能 |自然語言生成
人工智能,定義為機器表現出的智能,在當今社會有許多應用。它應用最廣泛的應用之一是自然語言生成。
什么是自然語言生成 (NLG)?
自然語言生成 (NLG) 簡單地意味著從計算機數據生成文本。它充當翻譯并將計算機化數據轉換為自然語言表示。在這種情況下,根據收集的數據和用戶提供的輸入生成結論或文本。它是從機器表示系統生成自然語言的自然語言處理任務。自然語言生成在某種程度上與自然語言理解相反。在自然語言理解中,系統需要消除輸入句子的歧義以產生機器表示語言,而在自然語言生成中,系統需要決定如何將概念轉化為文字。
生成文本的過程可以像保留復制和粘貼的現成文本列表一樣簡單。在簡單的應用程序中,例如星座運勢機或個性化商業信函的生成器,后果可能是令人滿意的。但是,需要一個復雜的 NLG 系統來包括規劃和合并信息的各個階段,以生成看起來自然且不會變得重復的文本。
簡單 NLG 系統的一個例子是 Pollen Forecast for Scotland 系統,它本質上可以是一個模板。NLG 系統以六個數字作為輸入,這些數字預測蘇格蘭不同地區的花粉水平。根據這些數字,系統生成花粉水平的簡短文本摘要作為其輸出。
例如,使用 2005 年 7 月 1 日的歷史數據,該軟件生成了星期五的草花粉水平已從昨天的中等水平增加到高水平,該國大部分地區的值約為 6 到 7。然而,在北部地區,花粉水平將是中等的,值為 4。
展開 自然語言處理(NLP)的歷史及其發展方向
自然語言處理 (NLP) 的局限性是什么?
其中之一是改進交互式對話系統中的自然語言處理,其中包括基于知識的對話和對話代理,例如 Siri 或 Alexa —— 我們每天使用的這些助手。然而,在它們能夠像人類一樣做出反應之前,還有很長的路要走。
另一個限制是,大多數機器學習算法并不打算用于聊天機器人等實時情況,而是用于離線處理具有大量輸入變量和訓練數據集的數據集 —— 這意味著仍然沒有辦法預測未來事件或每種可能的情況。
我們想通過自然語言處理 (NLP) 實現什么?
科學家們希望創建能夠理解句子的含義和意圖的算法,并且盡可能少地使用單詞。他們打算創建一套算法,能夠掌握句子的含義和意圖,以便從中提取信息。這就是為什么我們想要通過自然語言處理實現的目標仍然沒有限制,只要它支持人類日常生活中的活動。他們說,開發 NLP 對日常生活中的人類有很大幫助。NLP 的發展背后有一些威脅,但也有很多機會。
自然語言處理幫助人們在日常生活中更流利地說話和閱讀,并讓他們打字的速度比在鍵盤上寫句子的速度更快。但主要威脅之一是,一些專家表示,開發自然語言處理將使人類失業,因為他們將被機器取代。
然而,也有人說自然語言處理會給人類帶來前所未有的新工作和機會,因為它太復雜了。
展開 [譯] 自然語言處理真是有趣!
原文作者:Adam Geitgey
譯文出自:掘金翻譯計劃
本文永久鏈接:github.com/xitu/gold-m…
譯者:lihanxiang
校對者:FesonX、leviding、sakila1012
計算機如何理解人類的語言
計算機擅長處理結構化的數據,像電子表格和數據庫表之類的。但是我們人類的日常溝通是用詞匯來表達的,而不是表格,對計算機而言,這真是件棘手的事。
遺憾的是,我們并不是生活在處處都是結構化數據的時代。
這個世界上的許多信息都是非結構化的 —— 不僅僅是英語或者其他人類語言的原始文本。我們該如何讓一臺計算機去理解這些非結構化的文本并且從中提取信息呢?
自然語言處理,簡稱 NLP,是人工智能領域的一個子集,目的是為了讓計算機理解并處理人類語言。讓我們來看看 NLP 是如何工作的,并且學習一下如何用 Python 寫出能夠從原始文本中提取信息的程序。
注意:如果你不關心 NLP 是如何工作的,只想剪切和粘貼一些代碼,直接跳過至“用 Python 處理 NLP 管道”部分。
計算機能理解語言嗎?
自從計算機誕生以來,程序員們就一直嘗試去寫出能夠理解像英語這樣的語言的程序。這其中的原因顯而易見 —— 幾千年來,人類都是用寫的方式來記錄事件,如果計算機能夠讀取并理解這些數據將會對人類大有好處。
目前,計算機還不能像人類那樣完全了解英語 —— 但它們已經能做許多事了!在某些特定領域,你能用 NLP 做到的事看上去就像魔法一樣。將 NLP 技術應用到你的項目上能夠為你節約大量時間。
展開 基于python的神經網絡在圖像識別和自然語言處理上的應用
隨著計算機算力的不斷增長,基于機器學習(神經網絡)的方法成為了自然語言處理以及計算機圖像識別的新范式。在自然語言處理方面,RNN、LSTM等方法能夠有效提取語言之間的前后順序和相互關系,在機器翻譯、語言生成等任務取得了非常好的效果。在圖像識別、圖像檢測等方面,CNN等方法能夠有效提取圖像之中的模式,刷新了傳統圖像識別方法的效果。
針對自然語言處理(NLP),最常用的是長短期記憶網絡,通常被稱為 LSTM,是一種特殊的 RNN,能夠學習長期依賴性。LSTM 的關鍵是細胞狀態,細胞狀態有點像傳送帶。它貫穿整個鏈條,只有一些次要的線性作用。信息很容易以不變的方式流過。圖示如下所示:
根據常用數據集,通過編程實現,這里通常使用pytorch進行實現,部分代碼如下所示:
訓練過程中,loss不斷降低,如下圖所示:
可以看出啦,與RNN相比,LSTM的loss值更低,能夠有效有效處理長序列等類型的數據,廣泛應用在機器翻譯,語言生成等方面的應用。
在圖像處理方面,最常用的是卷積神經網絡(CNN),它受到人類視覺神經系統的啟發。能夠有效的將大數據量的圖片降維成小數據量、能夠有效的保留圖片特征,符合圖片處理的原則。普通卷積神經網絡如下所示:
同樣編程實現,部分代碼如下所示:
在訓練過程中可以得到以下結果:
可以看出,訓練過程中,loss值不斷下降,圖像識別率不斷上升,進一步對結果進行可視化,可以加深對卷積神經網絡的理解。首先對卷積神經網絡學習到的權重進行可視化,可以得到如下圖像:
不難看出,卷積神經網絡能夠準確識別出物體,并賦以較高的權重,以影響識別結果。目前卷積神經網絡已廣泛應用于圖片分類、檢索、目標定位檢測等領域。
由以上結果可以看出,神經網絡逐漸成為了人工智能的代名詞,并在各個領域中取得良好的結果。
展開 
本地部署 DeepSeek 私有助手:從零到上線的完整方案
引言
人工智能(AI)正在迅速發展,借助 DeepSeek 等強大的開源模型,您可以在本地運行尖端的大型語言模型(LLM)。
本指南將引導您使用輕量級推理框架 Ollama 部署 DeepSeek,并結合 Dify 平臺構建可視化 AI 助手。
完成部署后,您將能夠通過 Python API 調用模型,快速開展人工智能驅動的實驗,并實現完全私有化的數據處理。
第一部分:為什么選擇 DeepSeek?
快速高效 — 針對本地推理優化,輕量且響應迅速。
開源 — 無限制訪問,無廠商鎖定。
Python API 集成 — 方便在 Python 應用中調用。
可定制 — 支持根據業務需求進行微調與修改。
第二部分:Ollama 本地部署 DeepSeek
步驟 1:安裝 Ollama
Ollama 是一個輕量級運行時,可簡化本地 LLM 部署。安裝命令:
curl -fsSL https://ollama.ai/install.sh | sh
按 Enter 鍵或單擊以查看大圖
安裝后,驗證它是否正常工作:
ollama --version
步驟 2:下載 DeepSeek 模型
建議先下載 15 億參數的小型模型,節省系統資源:
ollama pull deepseek-r1:1.5b
步驟 3:運行 DeepSeek
此命令初始化 DeepSeek 模型,并使其準備好處理自然語言查詢:
ollama run deepseek-r1:1.5b
步驟 4:安裝 Python 包并調用 API
第三部分:Dify 集成與可視化 AI 助手
1.
展開 行業分享丨虛擬原型技術如何革新重型裝備設計?
其他AI能力同樣蓄勢待發:現代數據分析平臺可無縫集成AI實施工具的最佳功能,構建支持自然語言查詢的企業級知識圖譜,這些知識圖譜使不同專業背景的用戶都能對離散數據進行關聯映射、可視化與分析。基于知識圖譜的多樣化AI代理可優化工作流程,在供應鏈管理、車隊監控等領域提升決策質量與運營效率。
數字孿生平臺通過整合AI仿真與物聯網(IoT)技術,正在實現設備性能最大化與成本節約。借助降階模型(ROMs),這些數字孿生能提供實時預測與洞察,顯著減少停機時間與保修支出。
這僅僅是技術變革的開端。數據、AI與數字孿生領域的創新速度令人矚目,且將持續加速。隨著更多企業掌握這些工具的部署與應用,其產生的復合效應將徹底改變行業格局。
4邁向高效產業的新征程
盡管新技術的應用與發展始終伴隨著挑戰——無論對個人、企業還是整個行業——但歷史證明,虛擬原型技術已為重型裝備領域開創了更優質、更快速、更高效的新格局。如今工程團隊能夠:
以創新方式解決更復雜的工程難題
顯著降低資源浪費、風險與成本
設計、仿真并優化更具突破性的結構
獲得物理原型時代無法企及的實驗自由度
最顯著的優勢在于,現代虛擬原型工具使團隊能夠全局掌控:不再局限于單一組件或系統的仿真,而是可以在統一的技術環境中,同步分析電子、機械與熱力學性能的完整系統行為。
虛擬原型技術將持續推動重型裝備向更強韌、更輕量、更經濟、更可持續的方向發展。短短數十年間,行業已實現跨越式進步——而未來數十年的發展前景更令人充滿期待。
近期會議推薦
Altair 今年分別在北京、上海、成都、深圳舉辦 “AI驅動,仿真未來” 2025 Altair 區域技術交流會。
展開 數據分析與AI丨AI Fabric:數據和人工智能架構的未來
得益于清晰易懂的語義層,如今企業能夠使用自然語言查詢數據,操作更為便捷。</p><p><br></p><p>Buckner進一步闡述道:“AI Fabric 為低代碼甚至無代碼工具、聊天機器人、代碼操作界面、數據儀表盤,以及驅動企業業務運轉的各類工具,創造了廣闊的應用空間。”</p><p><br></p><p><strong>模塊化、可擴展、面向未來</strong></p><p><br></p><p>AI Fabric 架構具備一項極為顯著的優勢,如同它所支撐的強大模型一般,<strong>擁有能夠伴隨企業發展進程,靈活進行適應性調整與規模拓展的特性。</strong></p><p><br></p><p>AI Fabric 能夠與企業現有的各類系統實現無縫對接,這就使得團隊在實施相關解決方案時,可以循序漸進地推進,既不會對當前正在開展的業務造成中斷,也無需摒棄過往數十年投入構建的設施與基礎架構。相反,它<strong>宛如一座模塊化的橋梁,成功連接起過去與未來的技術。</strong></p><p><br></p><p>在實施 AI Fabric 的過程中,并不需要一開始就將其視作覆蓋整個企業的宏大項目。</p><p><br></p><p>正如 Buckner 所提及的:“眾多企業往往從部門層面著手啟動。負責實施的部門可以向其他部門展示成果,宣稱‘瞧,我們完成了一個相當出色的項目’。通過這種方式,<strong>能夠逐步積累起繼續推進的動力,而無需一次性全面鋪開</strong>。”</p><p><br></p><p>總體而言,<strong>AI Fabric 堪稱助力全球企業達成下一代 AI 能力的核心要素</strong>。在理想狀況下,AI Fabric 能夠解決企業底層數據中潛藏多年的棘手難題,為企業提供工具,使企業能夠在同一平臺上直接將 AI 應用于日常運營。
展開 數據分析與AI丨如何選擇合適的知識圖譜軟件,CTO/CIO 必問10個關鍵點
云數據平臺雖能在高治理標準與數據清潔度基礎上整合數據,但難以實現跨數據域或原始系統的自然關聯,部分企業數據甚至無法在平臺中體現。
此外,云數據平臺擅長聚合、存儲與清洗多源數據,卻難以支持跨源數據的協同使用(除非為特定場景定制開發),而新場景的適配往往需要大量人力投入開發、測試與部署。
非結構化數據(如郵件、聊天記錄、PDF、圖像等)的處理需更先進的技術支撐,不僅連接數據源存在挑戰,在缺乏工具的情況下,數據語義理解更是難上加難。
建議向供應商確認:其知識圖譜解決方案是否需要將數據復制至獨立存儲庫,還是可以通過內存/高性能緩存直接調用。
2. 解決方案的可擴展性與性能表現如何?
需重點評估兩方面:
(1)知識圖譜本身的管理擴展性;
(2)加載/轉換/查詢圖中所有可用數據的擴展性。
企業數據規模龐大且持續增長,軟件需具備處理數十億節點與關系的能力。同時需關注:數據加載速度有多快、是否采用并行計算提升性能、面對復雜查詢時能否在企業規模擴張情況下保持低延遲等問題。
建議要求供應商:務必確保評估的系統為企業級架構設計,可支撐高性能分析和快速復雜查詢。
3. 平臺如何實現知識圖譜的自動化構建?
知識圖譜的構建不應以手動流程為主,工具需依托現有元數據、數據模型與治理信息實現自動化。例如,是否能自動復用關系數據庫的 schema,還是需手動操作導入系統?
建議要求供應商:說明并演示構建知識圖譜所需的步驟,最好使用企業自身數據展示自動化工具的實際效果。
4. 生成的知識圖譜易用性如何?
若昂貴的知識圖譜系統僅能被資深數據科學家使用,其普及率將大打折扣。需確保高管、產品經理、研發負責人等非技術人員能理解系統邏輯、自主查詢并獲取有效答案,無需依賴IT支持。
展開 數據分析與AI丨Graph+LLM 如何重塑傳統 BI 的未來
通過這種映射,用戶問題被轉化為圖數據庫可理解的查詢語言。</li><li><br></li><li class="ql-align-justify">生成查詢并獲取結果。基于映射結果,大模型生成針對知識圖譜的查詢語句,并將其傳遞給圖數據庫執行查詢。這一過程確保返回的結果精確且無誤。</li><li><br></li><li class="ql-align-justify">生成答案。大模型基于查詢結果組織語言,形成自然流暢的回答,直接回應用戶的原始問題。
展開 數據分析與AI丨從傳感器到智能決策:數據驅動企業發展與 ESG 創新的全鏈路實踐
利用大語言模型進行實體關系抽取,比傳統 NLP 技術(如 NER)在中文場景下更為高效。舉例來說,我們可以抽取出“三元組”:如“壁厚產品”關聯“保壓時間大于 5 秒”、“飛邊缺陷”對應“鎖模力不足”、“材料 ABS”對應“最佳熔融溫度為 220-240°C”等。這些三元組可通過圖數據庫進行存儲與檢索。</p><p class="ql-align-justify">后續我們可基于這些三元組做實體消歧、描述標準化與參數噪聲過濾,并將清洗后的數據存入知識圖譜中,構建成 Graph RAG 系統的知識基礎。用戶可以通過自然語言提問,系統會在圖譜中查詢相應信息并結合大語言模型生成答案,實現智能問答。例如,當用戶問:“ABS 背后掛件出現流痕,應如何調整參數?”系統會抽取“ABS”“背后掛件”“流痕”等關鍵詞,匹配知識圖譜,抓取相關關系鏈,并用LLM生成優化建議,滿足大部分搜索場景。</p><p class="ql-align-justify">整個流程不僅支持文本信息的查詢,也可以接入生產數據、銷售數據等多源數據查詢。用戶可自然語言提問,除了產品質量問題,還例如“去年各廠商銷售數據如何?哪些是前五名?如何提升銷售業績?有沒有數據支撐?”系統都能做出有效回答。因此,“圖+大語言模型”的組合真正能夠輔助企業進行智能決策,在很多工業場景中大有可為。</p><h3 class="ql-align-justify"><strong>四、Altair 能提供什么?
展開