
發(fā)布
注冊
/
登錄NLP的案例
自然語言處理(NLP)的歷史及其發(fā)展方向
自然語言處理 (NLP) 的局限性是什么?
其中之一是改進(jìn)交互式對話系統(tǒng)中的自然語言處理,其中包括基于知識的對話和對話代理,例如 Siri 或 Alexa —— 我們每天使用的這些助手。然而,在它們能夠像人類一樣做出反應(yīng)之前,還有很長的路要走。
另一個限制是,大多數(shù)機(jī)器學(xué)習(xí)算法并不打算用于聊天機(jī)器人等實(shí)時(shí)情況,而是用于離線處理具有大量輸入變量和訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)集 —— 這意味著仍然沒有辦法預(yù)測未來事件或每種可能的情況。
我們想通過自然語言處理 (NLP) 實(shí)現(xiàn)什么?
科學(xué)家們希望創(chuàng)建能夠理解句子的含義和意圖的算法,并且盡可能少地使用單詞。他們打算創(chuàng)建一套算法,能夠掌握句子的含義和意圖,以便從中提取信息。這就是為什么我們想要通過自然語言處理實(shí)現(xiàn)的目標(biāo)仍然沒有限制,只要它支持人類日常生活中的活動。他們說,開發(fā) NLP 對日常生活中的人類有很大幫助。NLP 的發(fā)展背后有一些威脅,但也有很多機(jī)會。
自然語言處理幫助人們在日常生活中更流利地說話和閱讀,并讓他們打字的速度比在鍵盤上寫句子的速度更快。但主要威脅之一是,一些專家表示,開發(fā)自然語言處理將使人類失業(yè),因?yàn)樗麄儗⒈粰C(jī)器取代。
然而,也有人說自然語言處理會給人類帶來前所未有的新工作和機(jī)會,因?yàn)樗珡?fù)雜了。
展開 ANSYS中的ADRAG命令——沿路徑掃描一組線生成面
1.命令格式
ADRAG, NL1, NL2, NL3, NL4, NL5, NL6, NLP1, NLP2, NLP3, NLP4, NLP5, NLP6
其中,
NL1, NL2, NL3, NL4, NL5, NL6:待掃描線的線號,這些線必須是不間斷的。如果NL1=P,則激活圖形拾取功能,忽略命令的其它內(nèi)容。如果NL1=ALL,則沿路徑掃描所有的線(除定義掃描路徑的線外)。此外,NL1也可以是組件名。
NLP1, NLP2, NLP3, NLP4, NLP5, NLP6:定義掃描路徑的線號,這些線必須是不間斷的。
2.操作路徑
Main Menu >Preprocessor >Modeling >Operate >Extrude >Lines >Along Lines
3.實(shí)例
輸入命令:
/PREP7
K,1,1,0,0
K,2,0,0,0
K,3,0,1,0
K,4,1,1,0
LSTR,1,2
LSTR,2,3
LSTR,3,4
K,5,0,0,1
K,6,0,0,3
LSTR,5,6
ADRAG,1,2,3,,,,4
則生成的圖形如圖1所示
圖1 生成的圖形
展開 [譯] 自然語言處理真是有趣!
自然語言處理,簡稱 NLP,是人工智能領(lǐng)域的一個子集,目的是為了讓計(jì)算機(jī)理解并處理人類語言。讓我們來看看 NLP 是如何工作的,并且學(xué)習(xí)一下如何用 Python 寫出能夠從原始文本中提取信息的程序。
注意:如果你不關(guān)心 NLP 是如何工作的,只想剪切和粘貼一些代碼,直接跳過至“用 Python 處理 NLP 管道”部分。
計(jì)算機(jī)能理解語言嗎?
自從計(jì)算機(jī)誕生以來,程序員們就一直嘗試去寫出能夠理解像英語這樣的語言的程序。這其中的原因顯而易見 —— 幾千年來,人類都是用寫的方式來記錄事件,如果計(jì)算機(jī)能夠讀取并理解這些數(shù)據(jù)將會對人類大有好處。
目前,計(jì)算機(jī)還不能像人類那樣完全了解英語 —— 但它們已經(jīng)能做許多事了!在某些特定領(lǐng)域,你能用 NLP 做到的事看上去就像魔法一樣。將 NLP 技術(shù)應(yīng)用到你的項(xiàng)目上能夠?yàn)槟愎?jié)約大量時(shí)間。
更好的是,在 NLP 方面取得的最新進(jìn)展就是可以輕松地通過開源的 Python 庫比如 spaCy、textacy 和 neuralcoref 來進(jìn)行使用。你需要做的只是寫幾行代碼。
從文本中提取含義是很難的
讀取和理解英語的過程是很復(fù)雜的 —— 即使在不考慮英語中的邏輯性和一致性的情況下。比如,這個新聞的標(biāo)題是什么意思呢?
環(huán)境監(jiān)管機(jī)構(gòu)盤問了非法燒烤的業(yè)主。(“Environmental regulators grill business owner over illegal coal fires.”)
環(huán)境監(jiān)管機(jī)構(gòu)就非法燃燒煤炭問題對業(yè)主進(jìn)行了詢問?或者按照字面意思,監(jiān)管機(jī)構(gòu)把業(yè)主烤了?正如你所見,用計(jì)算機(jī)來解析英語是非常復(fù)雜的一件事。
在機(jī)器學(xué)習(xí)中做一件復(fù)雜的事通常意味著建一條管道。這個辦法就是將你的問題分成細(xì)小的部分,然后用機(jī)器學(xué)習(xí)來單獨(dú)解決每一個細(xì)小的部分。
展開 NLP劃分句子的正則改進(jìn)(tokenize)方法
1 引言
在自然語言處理NLP中,我們需要把一個段落劃分為單句。英語中單句的劃分是以句號"."為界的,也就是說,只要遇到"."就開始斷句。但如果句子中包含有Mr., Ph.D., Jr. 這樣的單詞時(shí), 句子就不應(yīng)該在此斷開。幸運(yùn)的是,nltk的tokenize已經(jīng)考慮了這些特殊詞匯。例如這樣一個段落:mytext ="Mr. Johnson Jr. got his Ph.D. in U.S.A but he worked for ABCD Associatess Ltd. in Canada. He had wide reaserch interests in geotechnical engineering, e.g. slope stability, underground excavation, machine foundation, earthquake engineering, etc. " .
from nltk import tokenizemytext = tokenize.sent_tokenize(mytext)
不過,tokenize把這個段落劃分成了三個句子,它未能正確處理"e.g."后的斷句問題.
(1) Mr. Johnson Jr. got his Ph.D. in U.S.A but he worked for ABCD Associatess Ltd. in Canada.
(2) He had wide reaserch interests in geotechnical engineering, e.g.
展開 
人工智能 |自然語言生成
NLP、NLG 和 NLU 之間的差異
自然語言處理 (NLP)、自然語言生成 (NLG) 和自然語言理解 (NLU) 是自然語言處理的三個不同但相互關(guān)聯(lián)的領(lǐng)域。以下是它們之間差異的簡要概述:
自然語言處理
自然語言生成
自然語言理解
定義
自然語言處理 (NLP) 是一個研究人類語言和計(jì)算機(jī)如何交互的大型科學(xué)領(lǐng)域。它包括有關(guān)口語的理解、解釋和生產(chǎn)的所有活動。
NLG 是 NLP 的一個子集,專注于計(jì)算機(jī)生成的類似于人類的語言。它需要將信息或結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為以自然語言編寫的文本。
NLU 是 NLP 的一個子集,主要關(guān)注計(jì)算機(jī)如何理解和解釋人類語言。它需要從文本信息中獲得意義。
目標(biāo)
自然語言處理 (NLP) 的目標(biāo)是使計(jì)算機(jī)能夠理解、解釋和生成有意義的、與上下文相關(guān)的人類語言。
自然語言生成 (NLG) 的目標(biāo)是生成合乎邏輯、適合上下文且聽起來像人類語音的文本。目標(biāo)是生成人類可讀的報(bào)告、摘要或內(nèi)容的應(yīng)用程序經(jīng)常使用它。
NLU 旨在賦予機(jī)器理解人類語言的含義、上下文和意圖的能力。這包括情感分析、語言理解和實(shí)體識別等任務(wù)。
應(yīng)用
自然語言處理 (NLP) 應(yīng)用于多個領(lǐng)域,例如語音識別、機(jī)器翻譯、情感分析和信息檢索。
展開 干貨:機(jī)器人如何在與客戶的互動中表達(dá)共鳴
自然語言處理
由于自然語言處理(NLP)的發(fā)展,聊天機(jī)器人不再需要被描述為機(jī)器人。這項(xiàng)技術(shù)使得聊天機(jī)器人能夠通過一組詳細(xì)的基于文本的命令來理解語言工作的細(xì)微差別,幫助它們理解被詢問的內(nèi)容并生成相關(guān)的答案。
簡而言之,NLP將人類語言組織為聊天機(jī)器人系統(tǒng)可以理解的結(jié)構(gòu)。這種結(jié)構(gòu)在短語、語法和句法分析的基礎(chǔ)上發(fā)生。
在理解了一個句子之后,NLP計(jì)劃并給出語言上正確的短語作為回應(yīng)。
NLP還使用文本解析來理解的情感共鳴結(jié)果。它們被分為消極的、積極的、混合的和中性的,以識別用戶的行為以及如何在將來回應(yīng)客戶的詢問。這種技術(shù)還可以幫助品牌識別客戶最喜歡的特性,以及哪些是關(guān)鍵的問題點(diǎn)。
深度學(xué)習(xí)
深度學(xué)習(xí)是NLP和機(jī)器學(xué)習(xí)的混合體。它使用神經(jīng)網(wǎng)絡(luò)讓機(jī)器通過視覺記憶來學(xué)習(xí)所需的特征。例如,區(qū)分火車和汽車的圖片。
深度學(xué)習(xí)已被用于聊天機(jī)器人,并已成功地映射出客戶的情緒并做出相應(yīng)反應(yīng)。
清華大學(xué)的研究學(xué)者提供了23000個短語的數(shù)據(jù),每個短語都與情緒基調(diào)有關(guān)。聊天機(jī)器人不僅能夠分析與人類的對話,探測對話的情緒,還能夠給出相關(guān)的、適當(dāng)?shù)拇鸢浮?人工智能
人工智能是一個超越聊天機(jī)器人的領(lǐng)域。人工智能情感主要使用面部識別和語音識別來理解情緒。研究人員利用身體語言、面部表情、語氣和手勢來解讀人的感受。事實(shí)上,科學(xué)家已經(jīng)能夠在機(jī)器中模擬冷熱的感覺。
在聊天機(jī)器人中,當(dāng)機(jī)器人需要識別相關(guān)性和緊迫性問題時(shí),情感人工智能非常方便。例如,當(dāng)一個人說“我要尿尿!”,一個擁有情感裝備的人工智能將能夠識別情況的緊迫性,并做出實(shí)時(shí)決定。因此,即使沒有人提問,一個人工智能聊天機(jī)器人也會回答去洗手間的方向。
聊天機(jī)器人最終會取代人類對話嗎?
我們都遇到過那些關(guān)于人工智能將如何跨越人類的陰謀論。但在現(xiàn)實(shí)中,人工智能只能以比過去更好的速度幫助人類。
展開 狹窄環(huán)境下帶有多拖車的牽引車軌跡規(guī)劃的統(tǒng)一方法
通常,數(shù)值求解(8)包括兩個步驟:(i)離散化所有的狀態(tài)空間,建立一個NLP問題;(ii)求解轉(zhuǎn)換后的NLP問題。本文采用一階顯式龍格-庫塔法進(jìn)行離散化,采用內(nèi)點(diǎn)法[21]求解NLP解。
4 NLP的簡化解法
(一)動機(jī)
簡單地應(yīng)用第三節(jié)中的方法并不能得到通用情況的最優(yōu)解,因?yàn)閺?fù)雜的避免碰撞約束(5)很難由IPM或其他基于梯度的優(yōu)化器直接處理。簡化計(jì)算負(fù)擔(dān)的一種常用方法是找到一個接近最優(yōu)或甚至接近可行的初始解,從這個初始解開始求解nlp過程[17]。根據(jù)這個想法,我們可以定義一個子問題序列,使第i個NLP解總是比第(i-1)個子問題復(fù)雜,最后一個子問題是原問題,即離散化問題(8)。由于第i個子問題比(i-1)個子問題復(fù)雜,因此子問題(i-1)的最優(yōu)值是子問題i的一個接近可行的初始解。如果我們找到子問題1的最優(yōu)解,那么序列過程將在有限周期后得到原問題的最優(yōu)解。前面提到的順序過程本質(zhì)上是為了避免一次性處理所有的困難。相反,整個困難分散在子問題中,然后逐步解決。理想情況下,離散應(yīng)該保證每個子問題的遞增的難度是相同的。然而,在順序計(jì)算過程真正開始之前,幾乎不可能做到這樣的離散度。
為了解決上述問題,一個自然的想法是在順序過程中自適應(yīng)地調(diào)整子問題的分散水平。例如,當(dāng)子問題k無法解決時(shí)(即優(yōu)化過程收斂到不可行或不收斂),則表示子問題k與k-1之間增加的難度太大,因此進(jìn)一步的難度分散需要施加。這使得更多的子問題將在子問題k與k-1之間被創(chuàng)建并求解。
展開 各種常見OPTIMIZATION方法之簡單比較
Answer
========
我之前曾貼過,在此再重復(fù)一下,也就是將nonlinear programming (NLP)應(yīng)用在design optimization的觀念.也就是我們將設(shè)計(jì)優(yōu)化(最佳化)的題目,將之?dāng)?shù)學(xué)化(formulate)成以下的NLP標(biāo)準(zhǔn)數(shù)學(xué)式(這只是眾多慣用標(biāo)準(zhǔn)式的-一個)
find : X={x1, x2, ……xn} (design variables)
to minimize : f(X) (objective function)
subjected to G_i(X) < 0.0 i=1,…NINEQC (inequality constraints)
H_i(X)=< 0.0 i=1,…NEQC (equality constraints)
XU < X < XL (design variables bounds or side constraints)
我想優(yōu)化設(shè)計(jì),各派有各派的方法,也很難定論哪一種最好.我因?yàn)椤睅煶小钡年P(guān)系,所以早期用的是nonlinear programming (NLP)中的Method of Feasible Directions (MFD).后來念博士時(shí),因?yàn)楫?dāng)時(shí)很流行topology optimization, 我們又碰到一個很棘手的案子,那個topology design不是玩玩或是畫出大概樣子就可以,而是一定要有確切的結(jié)果,所以就只好用Genetic Algorithms
(GA).后來在工作上有需求多半是GA及MFD都有用到.
展開 中英文機(jī)器翻譯模型(Machine Translation)
本筆記測試了Transformers專門的機(jī)器翻譯數(shù)據(jù)集Helsinki-NLP。
2 Helsinki-NLP
測試虛擬環(huán)境為tfs4,具體參數(shù)見《生成摘要(Summarization)的新方法》。2020年5月,赫爾辛基大學(xué)(University of Helsinki)的語言技術(shù)研究小組(Helsinki-NLP)向Transformers庫發(fā)布了一套大的翻譯模型數(shù)據(jù)集。這些模型使用MarianNMT框架和開放平行語料庫(OPUS)數(shù)據(jù)集進(jìn)行了訓(xùn)練。該模型集包括超過1000個語言對,以及169個源語言或語系對英語的翻譯,當(dāng)然其中包括中英文的互譯。每個模型的權(quán)重和標(biāo)記器文件約為310MB)。
3 中文->英文
測試代碼: translation-zh-to-en.py. 測試目的是把中文翻譯成英文。測試使用的句子為: "智利北部的丘基卡馬塔礦是世界上最大的露天礦之一,長約4公里,寬3公里,深1公里。" 翻譯出來的結(jié)果為"The Chuquicamata mine in northern Chile is one of the largest open-air mines in the world, some 4 km long, 3 km wide and 1 km deep."
這個句子基本上表達(dá)出原中文的意思,但把“露天礦(open pits mine)”翻譯錯了,此外這個句子也存在著明顯的語法錯誤,some前面缺少動詞引導(dǎo)語,沒有翻譯出“約(about, approximately)這個詞的真實(shí)含義 ”。
展開 什么是大型語言模型 (LLM)?
NLP 和 LLM 之間的區(qū)別
NLP 是自然語言處理,是人工智能 (AI) 的一個領(lǐng)域。它包括算法的開發(fā)。NLP 是一個比 LLM 更廣泛的領(lǐng)域,它由算法和技術(shù)組成。NLP 規(guī)定了兩種方法,即機(jī)器學(xué)習(xí)和分析語言數(shù)據(jù)。NLP 的應(yīng)用是 -
汽車常規(guī)任務(wù)
改進(jìn)搜索
搜索引擎優(yōu)化
分析和組織大型文檔
社交媒體分析。
而另一方面,LLM 是一種大型語言模型,更特定于類人文本,提供內(nèi)容生成和個性化推薦。
大型語言模型有哪些優(yōu)勢?
大型語言模型 (LLM) 具有多個優(yōu)勢,有助于它們在各種應(yīng)用程序中得到廣泛采用和成功:
LLM 可以執(zhí)行零樣本學(xué)習(xí),這意味著他們可以推廣到他們沒有明確訓(xùn)練的任務(wù)。此功能允許適應(yīng)新的應(yīng)用程序和場景,而無需額外的培訓(xùn)。
LLM 可以有效地處理大量數(shù)據(jù),使其適用于需要深入了解大量文本語料庫的任務(wù),例如語言翻譯和文檔摘要。
LLM 可以 針對特定數(shù)據(jù)集或域進(jìn)行微調(diào),從而允許持續(xù)學(xué)習(xí)和適應(yīng)特定的使用案例或行業(yè)。
LLM 支持各種與語言相關(guān)的任務(wù)的自動化,從代碼生成到內(nèi)容創(chuàng)建,從而將人力資源釋放到項(xiàng)目中更具戰(zhàn)略性和更復(fù)雜的方面。
大型語言模型訓(xùn)練的挑戰(zhàn)
LLM 在未來的能力是毋庸置疑的,這項(xiàng)技術(shù)是大多數(shù)人工智能應(yīng)用程序的一部分,這些應(yīng)用程序?qū)⒂啥鄠€用戶每天使用。但是 LLM 也有一些缺點(diǎn)。
要成功訓(xùn)練大型語言模型,需要數(shù)百萬美元來建立可以利用并行性能訓(xùn)練模型的強(qiáng)大計(jì)算能力。
它需要數(shù)月的訓(xùn)練,然后人工在循環(huán)中對模型進(jìn)行微調(diào),以實(shí)現(xiàn)更好的性能。
展開 AI 中的機(jī)器翻譯
為什么我們需要 NLP 中的機(jī)器翻譯?
機(jī)器翻譯有什么應(yīng)用?
人工翻譯可以被 AI 取代嗎?
?
什么是機(jī)器翻譯?
是計(jì)算語言學(xué)的一個子領(lǐng)域,專注于開發(fā)能夠自動將文本或語音從一種語言翻譯成另一種語言的系統(tǒng)。在自然語言處理 (NLP) 中,機(jī)器翻譯的目標(biāo)是生成不僅語法正確而且準(zhǔn)確傳達(dá)原始內(nèi)容含義的翻譯。
?
編輯
機(jī)器翻譯模型
機(jī)器翻譯的歷史
將文本從一種自然語言(源)自動翻譯成另一種自然語言稱為機(jī)器翻譯(目標(biāo))。它是最早被想象的計(jì)算機(jī)應(yīng)用程序之一(Weaver,1949 年)。
過去,機(jī)器翻譯有三種主要用途:
粗略的翻譯,例如免費(fèi)互聯(lián)網(wǎng)服務(wù)提供的翻譯,傳達(dá)了外國聲明或文件的“要點(diǎn)”,但充斥著不準(zhǔn)確之處。公司利用預(yù)先編輯的翻譯以多種語言發(fā)布文檔和銷售材料。
原始源內(nèi)容是用有限的語言編寫的,這使得機(jī)器翻譯更容易,并且輸出通常由一個人編輯以糾正任何缺陷。
受限來源翻譯是完全自動化的,但僅適用于高度刻板的語言,例如天氣預(yù)報(bào)。
機(jī)器翻譯的主要方法有哪些?
在機(jī)器翻譯中,原始文本被解碼,然后通過兩個步驟編碼為目標(biāo)語言,該過程涉及語言翻譯技術(shù)采用的各種方法,以促進(jìn)翻譯機(jī)制。
1. 基于規(guī)則的機(jī)器翻譯
基于規(guī)則的機(jī)器翻譯依靠這些資源來確保對特定內(nèi)容的精確翻譯。該過程涉及軟件解析輸入文本,生成過渡表示,然后參考語法規(guī)則和詞典將其轉(zhuǎn)換為目標(biāo)語言。
2. 統(tǒng)計(jì)機(jī)器翻譯
不依賴于語言規(guī)則,而是 利用機(jī)器學(xué)習(xí)進(jìn)行文本翻譯。機(jī)器學(xué)習(xí)算法檢查廣泛的人工翻譯,識別統(tǒng)計(jì)模式。
展開 
關(guān)于這一行,你想知道的這里都有。
盤古NLP大模型是全球最大的千億參數(shù)中文語言預(yù)訓(xùn)練模型,由華為云、循環(huán)智能和鵬城實(shí)驗(yàn)室聯(lián)合開發(fā),預(yù)訓(xùn)練階段學(xué)習(xí)了40TB中文文本數(shù)據(jù),并通過行業(yè)數(shù)據(jù)的樣本調(diào)優(yōu)提升模型在場景中的應(yīng)用性能。
盤古NLP大模型在三個方面實(shí)現(xiàn)了突破性進(jìn)展:
第一,具備領(lǐng)先的語言理解和模型生成能力;第二,盤古NLP大模型在預(yù)訓(xùn)練階段沉淀了大量的通用知識,既能做理解又能做生成;第三,盤古NLP大模型采用大模型小樣本調(diào)優(yōu)的路線,實(shí)現(xiàn)了小樣本學(xué)習(xí)任務(wù)上超越GPT系列。
截至目前,華為云已經(jīng)在全國10多個行業(yè)超過600個項(xiàng)目進(jìn)行了人工智能落地和實(shí)踐,幫助城市、交通、醫(yī)療、鋼鐵、紡織、能源、金融等行業(yè)智能升級。未來,華為云將持續(xù)通過技術(shù)創(chuàng)新,驅(qū)動產(chǎn)業(yè)智能升級。
獲取更多信息請?zhí)砑游覀兊奈⑿牛簓uansuan888
展開 目標(biāo)檢測:Nms-Free時(shí)代
《Pix2seq: A Language Modeling Framework for Object Detection》[7]
此處不得不提pix2seq,已經(jīng)不是借鑒隔壁NLP了,是把det套在NLP上。把GT的類別,坐標(biāo)都看作詞匯,一個一個輸出。把bbox的位置離散化成“詞匯表”,例如x方向的位置,離散成600個詞匯,每個詞匯表示圖片中x方向的特定位置。Loss函數(shù)統(tǒng)一只用交叉熵。
表現(xiàn)雖然一般,但更加表明了序列模型的通用性,不同屬性構(gòu)造成序列進(jìn)行預(yù)測。
上面幾篇論文都是從NLP借鑒過來,LSTM - attention - transformer。他們都有一個特點(diǎn),backbone能捕獲全局特征,one-to-one做label assign沒有任何違和感。而CNN這邊many-to-one的label assign做了這么多年,看到transformer搞det效果不錯,結(jié)構(gòu)還優(yōu)雅。也做了類似的嘗試。
《End-to-End Object Detection with Fully Convolutional Network》CVPR2021[8]
從標(biāo)題就看出對DETR的致敬,簡稱DeFCN。many2one的匹配策略是無法擺脫nms的關(guān)鍵,只有采用one2one的匹配策略才能擺脫nms。
POTO(Prediction-aware One-To-One)的label assign與DETR設(shè)計(jì)幾乎一樣。
Π是所有預(yù)測instance與GT的one2one匹配方案的集合,Π_hat是這個集合里面是Q之和最大的方案。
展開 深度學(xué)習(xí)在人工智能領(lǐng)域的前世今生
自然語言處理(NLP):即使到現(xiàn)在,深度學(xué)習(xí)在NLP領(lǐng)域并沒有取得像圖像識別或者語音識別領(lǐng)域那樣的成就,基于統(tǒng)計(jì)的模型仍然是NLP的主流,先通過語義分析提取關(guān)鍵詞、關(guān)鍵詞匹配、算法判定句子功能(找出距離這個句子最近的標(biāo)識好的句子),最后再利用提前準(zhǔn)備的數(shù)據(jù)庫提供用戶輸出結(jié)果。顯然,這明顯談不上智能,只能算一種搜索功能的實(shí)現(xiàn),而缺乏真正的語言能力。
為什么深度學(xué)習(xí)在NLP領(lǐng)域進(jìn)展緩慢?這是因?yàn)椋瑢φZ音和圖像來說,其構(gòu)成元素(輪廓、線條、語音幀)不用經(jīng)過預(yù)處理都能清晰反映出要識別的對象,可以直接放到神經(jīng)網(wǎng)絡(luò)里進(jìn)行識別。而語義識別大不相同:人說的每句話并非自然信號,含有豐富多變的語義,對它的理解需要參考上下文語境的,有時(shí)候還會涉及到大量的文化背景知識。因此,仿人類大腦識別機(jī)制建立的深度學(xué)習(xí),對經(jīng)過我們?nèi)祟惔竽X處理的文字信號的理解,效果反而差強(qiáng)人意。根本上來說,現(xiàn)在的算法還屬于弱人工智能,可以去幫人類快速的自動執(zhí)行(識別),卻不能理解這件事情本身。
|深度學(xué)習(xí)的挑戰(zhàn)和發(fā)展方向
受益于計(jì)算能力的提升和大數(shù)據(jù)的出現(xiàn),深度學(xué)習(xí)在計(jì)算機(jī)視覺和語音識別領(lǐng)域成就斐然,不過我們也看到了一些深度學(xué)習(xí)的局限性,亟待解決:
深度學(xué)習(xí)在學(xué)術(shù)領(lǐng)域取得了不錯的成果,但在商業(yè)上對企業(yè)幫助并不明顯。因?yàn)樯疃葘W(xué)習(xí)是一個映射的過程,從輸入A映射到輸出B,而在企業(yè)活動中如果我已經(jīng)擁有了這樣的A→B映射,為什么還需要機(jī)器學(xué)習(xí)來推斷呢?讓機(jī)器自己在數(shù)據(jù)中尋找這種映射關(guān)系或者進(jìn)行yc,目前還存在很大難度。
缺乏理論基礎(chǔ),這是困擾著研究者的問題。比如說,AlphaGo這盤棋贏了,你很難弄懂它是怎么贏的。可以說,深度學(xué)習(xí)是一個黑箱子,神經(jīng)網(wǎng)絡(luò)需要多少個隱層來訓(xùn)練,到底需要多少有效的參數(shù)等,都沒有很好的理論解釋。
深度學(xué)習(xí)需要大量的訓(xùn)練樣本。
展開 AI 中的智能系統(tǒng)
這主要是通過自然語言處理 (NLP) 實(shí)現(xiàn)的,其中包括:
文本分析:使用 NLP 進(jìn)行主要文本分析,例如情感分析和主題建模。
機(jī)器翻譯:傾向于提出一種解決方案,當(dāng)機(jī)器系統(tǒng)嘗試將文本從一種語言翻譯成另一種語言(如 Google 翻譯)時(shí),由機(jī)器系統(tǒng)完成。
對話系統(tǒng):提出可以使用自然語言與人類互動的語言對話代理或聊天機(jī)器人,例如 Siri 和 Alexa 等虛擬助手。
智能系統(tǒng)中的問題解決
智能系統(tǒng)為了它而解決問題。第一個認(rèn)知功能是識別問題、制定計(jì)劃并執(zhí)行它以找到解決方案。使用的技術(shù)包括:
搜索算法:探索深度優(yōu)先搜索、廣度優(yōu)先搜索和 A* 算法等技術(shù),這些技術(shù)用于縱橫交錯地提供可能的解決方案,以找到最佳解決方案。
啟發(fā)式方法:通常,這些啟發(fā)式方法為過程的方法提供了一些邊界,這是此類問題的關(guān)鍵。
優(yōu)化技術(shù):用作遺傳算法和模擬退火的方法,以通過大多數(shù)可用的可能性來優(yōu)化搜索。
智能系統(tǒng)的核心部件
智能系統(tǒng)集成了 AI 技術(shù)的各種組件,包括機(jī)器學(xué)習(xí)算法、自然語言處理、機(jī)器人和專家系統(tǒng)等:
1. 機(jī)器學(xué)習(xí) (ML)
機(jī)器學(xué)習(xí)算法允許系統(tǒng)從數(shù)據(jù)模式中學(xué)習(xí)并隨著時(shí)間的推移改進(jìn)其決策,而無需明確編程。ML 模型用于從商業(yè)中的預(yù)測分析到醫(yī)療保健中的診斷系統(tǒng)的各種應(yīng)用。
2. 自然語言處理 (NLP)
NLP 使系統(tǒng)能夠以既有意義又有用的方式理解、解釋和生成人類語言。該組件在聊天機(jī)器人、語音作 GPS 系統(tǒng)和客戶服務(wù) AI 代理等應(yīng)用程序中至關(guān)重要。
3. 機(jī)器人技術(shù)
機(jī)器人技術(shù)將 AI 技術(shù)與機(jī)械工程相結(jié)合,創(chuàng)造出能夠執(zhí)行需要類似人類的靈巧性和決策能力的任務(wù)的機(jī)器人。
展開