
發布
注冊
/
登錄自然語言處理
關注創建者:匿名 創建時間:2021-07-26

自然語言處理的實例教程
自然語言處理 (NLP) 的局限性是什么?
其中之一是改進交互式對話系統中的自然語言處理,其中包括基于知識的對話和對話代理,例如 Siri 或 Alexa —— 我們每天使用的這些助手。然而,在它們能夠像人類一樣做出反應之前,還有很長的路要走。
另一個限制是,大多數機器學習算法并不打算用于聊天機器人等實時情況,而是用于離線處理具有大量輸入變量和訓練數據集的數據集 —— 這意味著仍然沒有辦法預測未來事件或每種可能的情況。
我們想通過自然語言處理 (NLP) 實現什么?
科學家們希望創建能夠理解句子的含義和意圖的算法,并且盡可能少地使用單詞。他們打算創建一套算法,能夠掌握句子的含義和意圖,以便從中提取信息。這就是為什么我們想要通過自然語言處理實現的目標仍然沒有限制,只要它支持人類日常生活中的活動。他們說,開發 NLP 對日常生活中的人類有很大幫助。NLP 的發展背后有一些威脅,但也有很多機會。
自然語言處理幫助人們在日常生活中更流利地說話和閱讀,并讓他們打字的速度比在鍵盤上寫句子的速度更快。但主要威脅之一是,一些專家表示,開發自然語言處理將使人類失業,因為他們將被機器取代。
然而,也有人說自然語言處理會給人類帶來前所未有的新工作和機會,因為它太復雜了。
展開 隨著計算機算力的不斷增長,基于機器學習(神經網絡)的方法成為了自然語言處理以及計算機圖像識別的新范式。在自然語言處理方面,RNN、LSTM等方法能夠有效提取語言之間的前后順序和相互關系,在機器翻譯、語言生成等任務取得了非常好的效果。在圖像識別、圖像檢測等方面,CNN等方法能夠有效提取圖像之中的模式,刷新了傳統圖像識別方法的效果。
針對自然語言處理(NLP),最常用的是長短期記憶網絡,通常被稱為 LSTM,是一種特殊的 RNN,能夠學習長期依賴性。LSTM 的關鍵是細胞狀態,細胞狀態有點像傳送帶。它貫穿整個鏈條,只有一些次要的線性作用。信息很容易以不變的方式流過。圖示如下所示:
根據常用數據集,通過編程實現,這里通常使用pytorch進行實現,部分代碼如下所示:
訓練過程中,loss不斷降低,如下圖所示:
可以看出啦,與RNN相比,LSTM的loss值更低,能夠有效有效處理長序列等類型的數據,廣泛應用在機器翻譯,語言生成等方面的應用。
在圖像處理方面,最常用的是卷積神經網絡(CNN),它受到人類視覺神經系統的啟發。能夠有效的將大數據量的圖片降維成小數據量、能夠有效的保留圖片特征,符合圖片處理的原則。普通卷積神經網絡如下所示:
同樣編程實現,部分代碼如下所示:
在訓練過程中可以得到以下結果:
可以看出,訓練過程中,loss值不斷下降,圖像識別率不斷上升,進一步對結果進行可視化,可以加深對卷積神經網絡的理解。首先對卷積神經網絡學習到的權重進行可視化,可以得到如下圖像:
不難看出,卷積神經網絡能夠準確識別出物體,并賦以較高的權重,以影響識別結果。目前卷積神經網絡已廣泛應用于圖片分類、檢索、目標定位檢測等領域。
由以上結果可以看出,神經網絡逐漸成為了人工智能的代名詞,并在各個領域中取得良好的結果。
展開 NLP、NLG 和 NLU 之間的差異
自然語言處理 (NLP)、自然語言生成 (NLG) 和自然語言理解 (NLU) 是自然語言處理的三個不同但相互關聯的領域。以下是它們之間差異的簡要概述:
自然語言處理
自然語言生成
自然語言理解
定義
自然語言處理 (NLP) 是一個研究人類語言和計算機如何交互的大型科學領域。它包括有關口語的理解、解釋和生產的所有活動。
NLG 是 NLP 的一個子集,專注于計算機生成的類似于人類的語言。它需要將信息或結構化數據轉換為以自然語言編寫的文本。
NLU 是 NLP 的一個子集,主要關注計算機如何理解和解釋人類語言。它需要從文本信息中獲得意義。
目標
自然語言處理 (NLP) 的目標是使計算機能夠理解、解釋和生成有意義的、與上下文相關的人類語言。
自然語言生成 (NLG) 的目標是生成合乎邏輯、適合上下文且聽起來像人類語音的文本。目標是生成人類可讀的報告、摘要或內容的應用程序經常使用它。
NLU 旨在賦予機器理解人類語言的含義、上下文和意圖的能力。這包括情感分析、語言理解和實體識別等任務。
應用
自然語言處理 (NLP) 應用于多個領域,例如語音識別、機器翻譯、情感分析和信息檢索。
展開 原文作者:Adam Geitgey
譯文出自:掘金翻譯計劃
本文永久鏈接:github.com/xitu/gold-m…
譯者:lihanxiang
校對者:FesonX、leviding、sakila1012
計算機如何理解人類的語言
計算機擅長處理結構化的數據,像電子表格和數據庫表之類的。但是我們人類的日常溝通是用詞匯來表達的,而不是表格,對計算機而言,這真是件棘手的事。
遺憾的是,我們并不是生活在處處都是結構化數據的時代。
這個世界上的許多信息都是非結構化的 —— 不僅僅是英語或者其他人類語言的原始文本。我們該如何讓一臺計算機去理解這些非結構化的文本并且從中提取信息呢?
自然語言處理,簡稱 NLP,是人工智能領域的一個子集,目的是為了讓計算機理解并處理人類語言。讓我們來看看 NLP 是如何工作的,并且學習一下如何用 Python 寫出能夠從原始文本中提取信息的程序。
注意:如果你不關心 NLP 是如何工作的,只想剪切和粘貼一些代碼,直接跳過至“用 Python 處理 NLP 管道”部分。
計算機能理解語言嗎?
自從計算機誕生以來,程序員們就一直嘗試去寫出能夠理解像英語這樣的語言的程序。這其中的原因顯而易見 —— 幾千年來,人類都是用寫的方式來記錄事件,如果計算機能夠讀取并理解這些數據將會對人類大有好處。
目前,計算機還不能像人類那樣完全了解英語 —— 但它們已經能做許多事了!在某些特定領域,你能用 NLP 做到的事看上去就像魔法一樣。將 NLP 技術應用到你的項目上能夠為你節約大量時間。
展開 可即便如此,有這樣幾項技術的使用仍然潛移默化地改變著人們的生活,比如:人臉識別、自然語言處理等等。
前者不在本文的討論范圍內,我們重點來聊一聊后者。
自然語言處理(Natural Language Processing),簡稱“NLP”,一種研究人與計算機交互的語言問題的一門學科。
其實在人工智能發展的初期,自然語言處理技術就被認為在未來可堪大用。比如,1966年,麻省理工學院的一名教授就創造了一款“準智能”對話機器人Eliza,來作為心理治療的輔助工具。
之所以稱其為“準智能”,是因為從原理上來說,Eliza的功能實現非常簡單,就是根據來訪者輸入的關鍵字匹配回答,就像是連線題一樣。
舉個例子,來訪者問:“我心情不好怎么辦?”Eliza就會根據“心情不好”這樣的詞語,匹配對應的回答,比如:“你今天經歷什么糟糕事了嗎?”
這種引導式、開放型的回應常常讓來訪者感覺在與真人對話,要知道但那可是在1966年,Eliza能夠做到這樣,已經足以讓世界驚嘆。
隨著技術的進步,自然語言處理技術已經能夠應對一些復雜的內容,也正因如此,這項技術被用在了更加廣泛的場景,客服就是其中之一。
早期的“智能客服”其實并不智能,大多數的原理與Eliza并無二至,都是通過關鍵字匹配,實現所謂的“問答”;直到深度學習技術的出現,智能客服才有了新的進展。
二、能理解人話的“高智能”客服
深度學習技術的發展離不開三個要素:算法、算力、數據。
其中算法在無數科研人員的努力下已經有了長足的進展,算力因為有了GPU這樣的產品而得到了保障,只有數據是隨著世界進入大數據時代才能夠大量提供的。
展開 
自然語言處理的相關專題、標簽、搜索
自然語言處理的最新內容
人工智能:基礎、模型與應用23天前
課程從人工智能的基礎知識開始,包括其含義、特征、類型、核心組件,以及機器學習、深度學習、自然語言處理、計算機視覺和機器人等主要分支。它解釋了人工智能系統如何從數據中學習、識別模式、做出預測,并支持跨領域智能決策。學習者還將理解人工智能中使用的不同類型的數據,包括結構化、非結構化、半結構化和合成數據。
Start Guide: Learn to train and deploy neural network models in Python
2018年12月24日 |ISBN:1789534092 |英文 |160頁 |真實(PDF,EPUB)+代碼 |40 MB
通過構建卷積神經網絡和循環神經網絡,深入了解深度學習和PyTorch,適用于圖像分類、遷移學習和自然語言處理等實際應用場景
參展范圍
人工智能基礎層展區
AI芯片、IC芯片、算法架構、計算機語言、傳感器、大數據、云計算等;智能傳感終端、語音識別、計算機視覺、自然語言處理、知識圖譜、云計算、大數據、5G等。
其中,人工智能基礎層展區集中展示AI芯片、算力中心、傳感器等核心硬件,彰顯國產算力生態的優化完善;技術層展區聚焦多模態大模型、計算機視覺、自然語言處理等前沿算法,呈現從“會說話”到“會干活”的技術迭代;應用層展區則全方位覆蓋AI+工業、醫療、教育、政務、智慧城市等全場景落地案例,打破實驗室與產業場景的邊界,讓科技賦能看得見、摸得著。
作為展會的核心亮點,智能機器人展區可謂星光熠熠。
參展范圍
人工智能基礎層展區
AI芯片、IC芯片、算法架構、計算機語言、傳感器、大數據、云計算等;智能傳感終端、語音識別、計算機視覺、自然語言處理、知識圖譜、云計算、大數據、5G等。
國內外知名科技企業將展示其最新研發的AI大模型,這些模型在自然語言處理、圖像識別、語音交互等領域展現出驚人的能力。從智能客服到醫療診斷,從金融分析到教育輔助,AI大模型正在深刻改變著各行各業的面貌。展會期間,觀眾可以親身體驗這些AI大模型的實際應用,感受科技帶來的便捷與高效。
人形機器人展區無疑是本屆博覽會最具吸引力的部分之一。
屆時將設立AI芯片與算法、計算機視覺、自然語言處理、智能傳感器等專業展區。來自硅谷的深度學習框架開發商NeuralMind已確認參展,將首發其新一代自適應神經網絡系統;日本機器人巨頭安川電機將展示其最新研發的協作機器人系列,該產品線搭載了突破性的觸覺反饋系統。
秋季展定檔11月26日至28日,選址新落成的深圳國際展覽中心。
深度學習框架、自然語言處理系統、計算機視覺算法等基礎技術的最新進展將以互動演示的形式亮相。值得一提的是,多家企業將首次公開展示其“多模態大模型”的行業應用,涵蓋醫療診斷、金融風控、智能制造等場景。例如,某國內頭部AI企業計劃發布一款具備自主進化能力的工業質檢系統,其誤檢率已降至0.01%以下,遠超人工標準。
展會的籌備工作早已緊鑼密鼓地展開。
2026 深圳國際人工智能與機器人展覽會,聚焦人工智能全產業鏈核心環節,展品覆蓋智能機器人、機器學習與深度學習技術、計算機視覺、自然語言處理、智能傳感器、AI 芯片、自動駕駛、智慧醫療、工業智能、智慧城市解決方案等多個熱門領域。
- 理解機器學習中的回歸
- 簡單線性回歸與多元線性回歸
- 邏輯回歸與決策樹
- 模型評估與交叉驗證
- 深度學習與神經網絡入門
- 構建用于圖像分類的卷積神經網絡(CNN)
- 目標檢測與圖像分割
- 理解序列數據與時間序列
- 自然語言處理
