
發(fā)布
注冊
/
登錄自然語言處理NLP
關(guān)注創(chuàng)建者:匿名 創(chuàng)建時間:2021-08-09

自然語言處理NLP的實例教程
自然語言處理 (NLP) 的局限性是什么?
其中之一是改進交互式對話系統(tǒng)中的自然語言處理,其中包括基于知識的對話和對話代理,例如 Siri 或 Alexa —— 我們每天使用的這些助手。然而,在它們能夠像人類一樣做出反應(yīng)之前,還有很長的路要走。
另一個限制是,大多數(shù)機器學習算法并不打算用于聊天機器人等實時情況,而是用于離線處理具有大量輸入變量和訓練數(shù)據(jù)集的數(shù)據(jù)集 —— 這意味著仍然沒有辦法預(yù)測未來事件或每種可能的情況。
我們想通過自然語言處理 (NLP) 實現(xiàn)什么?
科學家們希望創(chuàng)建能夠理解句子的含義和意圖的算法,并且盡可能少地使用單詞。他們打算創(chuàng)建一套算法,能夠掌握句子的含義和意圖,以便從中提取信息。這就是為什么我們想要通過自然語言處理實現(xiàn)的目標仍然沒有限制,只要它支持人類日常生活中的活動。他們說,開發(fā) NLP 對日常生活中的人類有很大幫助。NLP 的發(fā)展背后有一些威脅,但也有很多機會。
自然語言處理幫助人們在日常生活中更流利地說話和閱讀,并讓他們打字的速度比在鍵盤上寫句子的速度更快。但主要威脅之一是,一些專家表示,開發(fā)自然語言處理將使人類失業(yè),因為他們將被機器取代。
然而,也有人說自然語言處理會給人類帶來前所未有的新工作和機會,因為它太復雜了。
展開 隨著計算機算力的不斷增長,基于機器學習(神經(jīng)網(wǎng)絡(luò))的方法成為了自然語言處理以及計算機圖像識別的新范式。在自然語言處理方面,RNN、LSTM等方法能夠有效提取語言之間的前后順序和相互關(guān)系,在機器翻譯、語言生成等任務(wù)取得了非常好的效果。在圖像識別、圖像檢測等方面,CNN等方法能夠有效提取圖像之中的模式,刷新了傳統(tǒng)圖像識別方法的效果。
針對自然語言處理(NLP),最常用的是長短期記憶網(wǎng)絡(luò),通常被稱為 LSTM,是一種特殊的 RNN,能夠?qū)W習長期依賴性。LSTM 的關(guān)鍵是細胞狀態(tài),細胞狀態(tài)有點像傳送帶。它貫穿整個鏈條,只有一些次要的線性作用。信息很容易以不變的方式流過。圖示如下所示:
根據(jù)常用數(shù)據(jù)集,通過編程實現(xiàn),這里通常使用pytorch進行實現(xiàn),部分代碼如下所示:
訓練過程中,loss不斷降低,如下圖所示:
可以看出啦,與RNN相比,LSTM的loss值更低,能夠有效有效處理長序列等類型的數(shù)據(jù),廣泛應(yīng)用在機器翻譯,語言生成等方面的應(yīng)用。
在圖像處理方面,最常用的是卷積神經(jīng)網(wǎng)絡(luò)(CNN),它受到人類視覺神經(jīng)系統(tǒng)的啟發(fā)。能夠有效的將大數(shù)據(jù)量的圖片降維成小數(shù)據(jù)量、能夠有效的保留圖片特征,符合圖片處理的原則。普通卷積神經(jīng)網(wǎng)絡(luò)如下所示:
同樣編程實現(xiàn),部分代碼如下所示:
在訓練過程中可以得到以下結(jié)果:
可以看出,訓練過程中,loss值不斷下降,圖像識別率不斷上升,進一步對結(jié)果進行可視化,可以加深對卷積神經(jīng)網(wǎng)絡(luò)的理解。首先對卷積神經(jīng)網(wǎng)絡(luò)學習到的權(quán)重進行可視化,可以得到如下圖像:
不難看出,卷積神經(jīng)網(wǎng)絡(luò)能夠準確識別出物體,并賦以較高的權(quán)重,以影響識別結(jié)果。目前卷積神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于圖片分類、檢索、目標定位檢測等領(lǐng)域。
由以上結(jié)果可以看出,神經(jīng)網(wǎng)絡(luò)逐漸成為了人工智能的代名詞,并在各個領(lǐng)域中取得良好的結(jié)果。
展開 原文作者:Adam Geitgey
譯文出自:掘金翻譯計劃
本文永久鏈接:github.com/xitu/gold-m…
譯者:lihanxiang
校對者:FesonX、leviding、sakila1012
計算機如何理解人類的語言
計算機擅長處理結(jié)構(gòu)化的數(shù)據(jù),像電子表格和數(shù)據(jù)庫表之類的。但是我們?nèi)祟惖娜粘贤ㄊ怯迷~匯來表達的,而不是表格,對計算機而言,這真是件棘手的事。
遺憾的是,我們并不是生活在處處都是結(jié)構(gòu)化數(shù)據(jù)的時代。
這個世界上的許多信息都是非結(jié)構(gòu)化的 —— 不僅僅是英語或者其他人類語言的原始文本。我們該如何讓一臺計算機去理解這些非結(jié)構(gòu)化的文本并且從中提取信息呢?
自然語言處理,簡稱 NLP,是人工智能領(lǐng)域的一個子集,目的是為了讓計算機理解并處理人類語言。讓我們來看看 NLP 是如何工作的,并且學習一下如何用 Python 寫出能夠從原始文本中提取信息的程序。
注意:如果你不關(guān)心 NLP 是如何工作的,只想剪切和粘貼一些代碼,直接跳過至“用 Python 處理 NLP 管道”部分。
計算機能理解語言嗎?
自從計算機誕生以來,程序員們就一直嘗試去寫出能夠理解像英語這樣的語言的程序。這其中的原因顯而易見 —— 幾千年來,人類都是用寫的方式來記錄事件,如果計算機能夠讀取并理解這些數(shù)據(jù)將會對人類大有好處。
目前,計算機還不能像人類那樣完全了解英語 —— 但它們已經(jīng)能做許多事了!在某些特定領(lǐng)域,你能用 NLP 做到的事看上去就像魔法一樣。將 NLP 技術(shù)應(yīng)用到你的項目上能夠為你節(jié)約大量時間。
展開 1 引言
從文本中抽取出關(guān)鍵字是自然語言處理NLP的一個重要應(yīng)用領(lǐng)域。在《文本摘要生成的確定過程和隨機過程》中曾經(jīng)討論過兩種摘要的產(chǎn)生方法。不幸的是, Gensim從4.0版本開始,移除了summarization模塊(目前的安裝版本是V4.0.1),因此不能再使用gensim產(chǎn)生摘要和關(guān)鍵字。作為一種代替,我們使用PyTextRank庫來取出關(guān)鍵字。
2 PyTextRank簡介
PyTextRank是TextRank的一個Python實現(xiàn),而TextRank是一種基于圖的關(guān)鍵詞和句子的提取算法, 它類似于谷歌的頁面排名算法。作為spaCy管道的擴展,用于基于圖的自然語言處理以及相關(guān)知識圖譜實踐以及文本提取短語和簡要總結(jié)。PyTextRank目前安裝的版本是V3.1.1. 這個庫的主要用途包括:短語提取---即關(guān)鍵字提取, 從文本文件中獲取排名靠前的短語; 對文本文件進行低成本的提取總結(jié), 即產(chǎn)生摘要; 幫助從非結(jié)構(gòu)化的文本中推斷出概念,使之成為更多的結(jié)構(gòu)化表述, 即生成有意義的核心句子.
3 提取關(guān)鍵字
下面的例子顯示如何使用PyTextRank從一段文本中提取關(guān)鍵字. 這段文本取自Mandalawi M.A.等人(2019)的論文摘要. 該論文的題目是: Modelling and Analyses of Rock Bridge Fracture and Step-Path Failure in Open-Pit Mine Rock Slope(露天礦邊坡巖橋斷裂和階梯狀破壞的模擬與分析). 在原始的論文中, 作者給出的關(guān)鍵字有: Rock bridges, Rock slope stability, Tensile cracks, Shear cracks.
展開 NLP、NLG 和 NLU 之間的差異
自然語言處理 (NLP)、自然語言生成 (NLG) 和自然語言理解 (NLU) 是自然語言處理的三個不同但相互關(guān)聯(lián)的領(lǐng)域。以下是它們之間差異的簡要概述:
自然語言處理
自然語言生成
自然語言理解
定義
自然語言處理 (NLP) 是一個研究人類語言和計算機如何交互的大型科學領(lǐng)域。它包括有關(guān)口語的理解、解釋和生產(chǎn)的所有活動。
NLG 是 NLP 的一個子集,專注于計算機生成的類似于人類的語言。它需要將信息或結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為以自然語言編寫的文本。
NLU 是 NLP 的一個子集,主要關(guān)注計算機如何理解和解釋人類語言。它需要從文本信息中獲得意義。
目標
自然語言處理 (NLP) 的目標是使計算機能夠理解、解釋和生成有意義的、與上下文相關(guān)的人類語言。
自然語言生成 (NLG) 的目標是生成合乎邏輯、適合上下文且聽起來像人類語音的文本。目標是生成人類可讀的報告、摘要或內(nèi)容的應(yīng)用程序經(jīng)常使用它。
NLU 旨在賦予機器理解人類語言的含義、上下文和意圖的能力。這包括情感分析、語言理解和實體識別等任務(wù)。
應(yīng)用
自然語言處理 (NLP) 應(yīng)用于多個領(lǐng)域,例如語音識別、機器翻譯、情感分析和信息檢索。
展開 
自然語言處理NLP的相關(guān)專題、標簽、搜索
自然語言處理NLP的最新內(nèi)容
AI輔助評審:集成自然語言處理(NLP)技術(shù),可自動解析評審意見中的關(guān)鍵術(shù)語(如“阻抗不匹配”“時序違規(guī)”),并關(guān)聯(lián)至設(shè)計文件的對應(yīng)區(qū)域。實測顯示,該功能使評審報告生成時間從4小時/版縮短至0.5小時/版。
2、行業(yè)應(yīng)用案例
汽車電子功能安全評審:在ISO 26262 ASIL D級項目中,ERS支持故障注入分析(FIA)及安全機制驗證(如看門狗定時器、冗余設(shè)計)。
通過了解這些 AI 驅(qū)動的工具,學習者將能夠?qū)?em>自然語言處理 (NLP)、機器學習和生成式 AI 功能整合到他們的應(yīng)用程序中,使其更加智能和高效。隨著課程的進行,學生將學習如何使用 Spring Boot 構(gòu)建 AI 驅(qū)動的 REST API。本模塊強調(diào)動手開發(fā),指導學習者完成創(chuàng)建、配置和部署 AI 增強型 API 的過程。
**非結(jié)構(gòu)化數(shù)據(jù)治理**:
- 對設(shè)計文檔中的注釋、版本記錄等非結(jié)構(gòu)化數(shù)據(jù),應(yīng)用自然語言處理(NLP)識別敏感信息。
- 某航空企業(yè)通過NLP脫敏,使技術(shù)文檔共享合規(guī)率提升至99.2%。
簡單的像正則表達式,<strong>能快速定位符合特定合規(guī)格式的數(shù)據(jù)</strong>;復雜的如前沿的自然語言處理(NLP)技術(shù),可<strong>精準識別數(shù)據(jù)里的合規(guī)相關(guān)實體(如具體法規(guī)條款、合規(guī)流程中的關(guān)鍵步驟)以及它們之間的關(guān)聯(lián)。</strong></p><p><br></p><p>比如,從企業(yè)業(yè)務(wù)流程數(shù)據(jù)里,解析工具能提煉出“接觸客戶敏感信息前需完成三級安全認證”這類關(guān)鍵合規(guī)準則。
NLP、NLG 和 NLU 之間的差異
自然語言處理 (NLP)、自然語言生成 (NLG) 和自然語言理解 (NLU) 是自然語言處理的三個不同但相互關(guān)聯(lián)的領(lǐng)域。
這主要是通過自然語言處理 (NLP) 實現(xiàn)的,其中包括:
文本分析:使用 NLP 進行主要文本分析,例如情感分析和主題建模。
機器翻譯:傾向于提出一種解決方案,當機器系統(tǒng)嘗試將文本從一種語言翻譯成另一種語言(如 Google 翻譯)時,由機器系統(tǒng)完成。
自然語言處理 (NLP) 中的機器翻譯有幾個好處,包括:
改善溝通:機器翻譯使說不同語言的人更容易相互交流,打破語言障礙并促進國際合作。
節(jié)省成本:機器翻譯通常比人工翻譯更快、更便宜,對于需要翻譯大量文本的企業(yè)和組織來說,機器翻譯是一種經(jīng)濟高效的解決方案。
本文探討了 LLM 的演變、架構(gòu)、應(yīng)用和挑戰(zhàn),重點介紹了它們在自然語言處理 (NLP) 領(lǐng)域的影響。
什么是大型語言模型 (LLM)?
大型語言模型是一種人工智能算法,它應(yīng)用具有大量參數(shù)的神經(jīng)網(wǎng)絡(luò)技術(shù),使用自我監(jiān)督學習技術(shù)來處理和理解人類語言或文本。文本生成、機器翻譯、摘要編寫、從文本生成圖像、機器編碼、聊天機器人或?qū)υ捠?AI 等任務(wù)都是大型 Languag.e 模型的應(yīng)用程序。
這些模型以龐大的參數(shù)規(guī)模為特點,并利用了現(xiàn)代神經(jīng)網(wǎng)絡(luò)架構(gòu),尤其是變換器(Transformer)架構(gòu),使得它們在自然語言處理(NLP)任務(wù)中表現(xiàn)出色。
大語言模型通常由數(shù)十億甚至上千億個參數(shù)構(gòu)成。這些參數(shù)是在大量的文本資料上訓練得到的,通過深度學習算法來優(yōu)化。訓練一個大語言模型需要巨大的計算資源,通常使用數(shù)百個GPU或TPU并行處理,以處理海量的資料集。
Transformer架構(gòu)最初是基于自然語言處理(NLP)任務(wù)的注意力機制開發(fā)的,但其建模長期依賴性和捕獲全局上下文的能力使其對自動駕駛中的感知任務(wù)具有吸引力。它旨在處理和捕獲輸入數(shù)據(jù)中的依賴性,從而消除了對遞歸或卷積層的需求,從而實現(xiàn)高度并行化的計算。
典型的Transformer由編碼器-解碼器結(jié)構(gòu)組成。