
發(fā)布
注冊(cè)
/
登錄自然語(yǔ)言生成
關(guān)注創(chuàng)建者:匿名 創(chuàng)建時(shí)間:2026-01-04

自然語(yǔ)言生成的實(shí)例教程
?
人工智能 |自然語(yǔ)言生成
人工智能,定義為機(jī)器表現(xiàn)出的智能,在當(dāng)今社會(huì)有許多應(yīng)用。它應(yīng)用最廣泛的應(yīng)用之一是自然語(yǔ)言生成。
什么是自然語(yǔ)言生成 (NLG)?
自然語(yǔ)言生成 (NLG) 簡(jiǎn)單地意味著從計(jì)算機(jī)數(shù)據(jù)生成文本。它充當(dāng)翻譯并將計(jì)算機(jī)化數(shù)據(jù)轉(zhuǎn)換為自然語(yǔ)言表示。在這種情況下,根據(jù)收集的數(shù)據(jù)和用戶提供的輸入生成結(jié)論或文本。它是從機(jī)器表示系統(tǒng)生成自然語(yǔ)言的自然語(yǔ)言處理任務(wù)。自然語(yǔ)言生成在某種程度上與自然語(yǔ)言理解相反。在自然語(yǔ)言理解中,系統(tǒng)需要消除輸入句子的歧義以產(chǎn)生機(jī)器表示語(yǔ)言,而在自然語(yǔ)言生成中,系統(tǒng)需要決定如何將概念轉(zhuǎn)化為文字。
生成文本的過(guò)程可以像保留復(fù)制和粘貼的現(xiàn)成文本列表一樣簡(jiǎn)單。在簡(jiǎn)單的應(yīng)用程序中,例如星座運(yùn)勢(shì)機(jī)或個(gè)性化商業(yè)信函的生成器,后果可能是令人滿意的。但是,需要一個(gè)復(fù)雜的 NLG 系統(tǒng)來(lái)包括規(guī)劃和合并信息的各個(gè)階段,以生成看起來(lái)自然且不會(huì)變得重復(fù)的文本。
簡(jiǎn)單 NLG 系統(tǒng)的一個(gè)例子是 Pollen Forecast for Scotland 系統(tǒng),它本質(zhì)上可以是一個(gè)模板。NLG 系統(tǒng)以六個(gè)數(shù)字作為輸入,這些數(shù)字預(yù)測(cè)蘇格蘭不同地區(qū)的花粉水平。根據(jù)這些數(shù)字,系統(tǒng)生成花粉水平的簡(jiǎn)短文本摘要作為其輸出。
例如,使用 2005 年 7 月 1 日的歷史數(shù)據(jù),該軟件生成了星期五的草花粉水平已從昨天的中等水平增加到高水平,該國(guó)大部分地區(qū)的值約為 6 到 7。然而,在北部地區(qū),花粉水平將是中等的,值為 4。
展開(kāi) 自然語(yǔ)言處理 (NLP) 的局限性是什么?
其中之一是改進(jìn)交互式對(duì)話系統(tǒng)中的自然語(yǔ)言處理,其中包括基于知識(shí)的對(duì)話和對(duì)話代理,例如 Siri 或 Alexa —— 我們每天使用的這些助手。然而,在它們能夠像人類一樣做出反應(yīng)之前,還有很長(zhǎng)的路要走。
另一個(gè)限制是,大多數(shù)機(jī)器學(xué)習(xí)算法并不打算用于聊天機(jī)器人等實(shí)時(shí)情況,而是用于離線處理具有大量輸入變量和訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)集 —— 這意味著仍然沒(méi)有辦法預(yù)測(cè)未來(lái)事件或每種可能的情況。
我們想通過(guò)自然語(yǔ)言處理 (NLP) 實(shí)現(xiàn)什么?
科學(xué)家們希望創(chuàng)建能夠理解句子的含義和意圖的算法,并且盡可能少地使用單詞。他們打算創(chuàng)建一套算法,能夠掌握句子的含義和意圖,以便從中提取信息。這就是為什么我們想要通過(guò)自然語(yǔ)言處理實(shí)現(xiàn)的目標(biāo)仍然沒(méi)有限制,只要它支持人類日常生活中的活動(dòng)。他們說(shuō),開(kāi)發(fā) NLP 對(duì)日常生活中的人類有很大幫助。NLP 的發(fā)展背后有一些威脅,但也有很多機(jī)會(huì)。
自然語(yǔ)言處理幫助人們?cè)谌粘I钪懈骼卣f(shuō)話和閱讀,并讓他們打字的速度比在鍵盤(pán)上寫(xiě)句子的速度更快。但主要威脅之一是,一些專家表示,開(kāi)發(fā)自然語(yǔ)言處理將使人類失業(yè),因?yàn)樗麄儗⒈粰C(jī)器取代。
然而,也有人說(shuō)自然語(yǔ)言處理會(huì)給人類帶來(lái)前所未有的新工作和機(jī)會(huì),因?yàn)樗珡?fù)雜了。
展開(kāi) 原文作者:Adam Geitgey
譯文出自:掘金翻譯計(jì)劃
本文永久鏈接:github.com/xitu/gold-m…
譯者:lihanxiang
校對(duì)者:FesonX、leviding、sakila1012
計(jì)算機(jī)如何理解人類的語(yǔ)言
計(jì)算機(jī)擅長(zhǎng)處理結(jié)構(gòu)化的數(shù)據(jù),像電子表格和數(shù)據(jù)庫(kù)表之類的。但是我們?nèi)祟惖娜粘贤ㄊ怯迷~匯來(lái)表達(dá)的,而不是表格,對(duì)計(jì)算機(jī)而言,這真是件棘手的事。
遺憾的是,我們并不是生活在處處都是結(jié)構(gòu)化數(shù)據(jù)的時(shí)代。
這個(gè)世界上的許多信息都是非結(jié)構(gòu)化的 —— 不僅僅是英語(yǔ)或者其他人類語(yǔ)言的原始文本。我們?cè)撊绾巫屢慌_(tái)計(jì)算機(jī)去理解這些非結(jié)構(gòu)化的文本并且從中提取信息呢?
自然語(yǔ)言處理,簡(jiǎn)稱 NLP,是人工智能領(lǐng)域的一個(gè)子集,目的是為了讓計(jì)算機(jī)理解并處理人類語(yǔ)言。讓我們來(lái)看看 NLP 是如何工作的,并且學(xué)習(xí)一下如何用 Python 寫(xiě)出能夠從原始文本中提取信息的程序。
注意:如果你不關(guān)心 NLP 是如何工作的,只想剪切和粘貼一些代碼,直接跳過(guò)至“用 Python 處理 NLP 管道”部分。
計(jì)算機(jī)能理解語(yǔ)言嗎?
自從計(jì)算機(jī)誕生以來(lái),程序員們就一直嘗試去寫(xiě)出能夠理解像英語(yǔ)這樣的語(yǔ)言的程序。這其中的原因顯而易見(jiàn) —— 幾千年來(lái),人類都是用寫(xiě)的方式來(lái)記錄事件,如果計(jì)算機(jī)能夠讀取并理解這些數(shù)據(jù)將會(huì)對(duì)人類大有好處。
目前,計(jì)算機(jī)還不能像人類那樣完全了解英語(yǔ) —— 但它們已經(jīng)能做許多事了!在某些特定領(lǐng)域,你能用 NLP 做到的事看上去就像魔法一樣。將 NLP 技術(shù)應(yīng)用到你的項(xiàng)目上能夠?yàn)槟愎?jié)約大量時(shí)間。
展開(kāi) 隨著計(jì)算機(jī)算力的不斷增長(zhǎng),基于機(jī)器學(xué)習(xí)(神經(jīng)網(wǎng)絡(luò))的方法成為了自然語(yǔ)言處理以及計(jì)算機(jī)圖像識(shí)別的新范式。在自然語(yǔ)言處理方面,RNN、LSTM等方法能夠有效提取語(yǔ)言之間的前后順序和相互關(guān)系,在機(jī)器翻譯、語(yǔ)言生成等任務(wù)取得了非常好的效果。在圖像識(shí)別、圖像檢測(cè)等方面,CNN等方法能夠有效提取圖像之中的模式,刷新了傳統(tǒng)圖像識(shí)別方法的效果。
針對(duì)自然語(yǔ)言處理(NLP),最常用的是長(zhǎng)短期記憶網(wǎng)絡(luò),通常被稱為 LSTM,是一種特殊的 RNN,能夠?qū)W習(xí)長(zhǎng)期依賴性。LSTM 的關(guān)鍵是細(xì)胞狀態(tài),細(xì)胞狀態(tài)有點(diǎn)像傳送帶。它貫穿整個(gè)鏈條,只有一些次要的線性作用。信息很容易以不變的方式流過(guò)。圖示如下所示:
根據(jù)常用數(shù)據(jù)集,通過(guò)編程實(shí)現(xiàn),這里通常使用pytorch進(jìn)行實(shí)現(xiàn),部分代碼如下所示:
訓(xùn)練過(guò)程中,loss不斷降低,如下圖所示:
可以看出啦,與RNN相比,LSTM的loss值更低,能夠有效有效處理長(zhǎng)序列等類型的數(shù)據(jù),廣泛應(yīng)用在機(jī)器翻譯,語(yǔ)言生成等方面的應(yīng)用。
在圖像處理方面,最常用的是卷積神經(jīng)網(wǎng)絡(luò)(CNN),它受到人類視覺(jué)神經(jīng)系統(tǒng)的啟發(fā)。能夠有效的將大數(shù)據(jù)量的圖片降維成小數(shù)據(jù)量、能夠有效的保留圖片特征,符合圖片處理的原則。普通卷積神經(jīng)網(wǎng)絡(luò)如下所示:
同樣編程實(shí)現(xiàn),部分代碼如下所示:
在訓(xùn)練過(guò)程中可以得到以下結(jié)果:
可以看出,訓(xùn)練過(guò)程中,loss值不斷下降,圖像識(shí)別率不斷上升,進(jìn)一步對(duì)結(jié)果進(jìn)行可視化,可以加深對(duì)卷積神經(jīng)網(wǎng)絡(luò)的理解。首先對(duì)卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的權(quán)重進(jìn)行可視化,可以得到如下圖像:
不難看出,卷積神經(jīng)網(wǎng)絡(luò)能夠準(zhǔn)確識(shí)別出物體,并賦以較高的權(quán)重,以影響識(shí)別結(jié)果。目前卷積神經(jīng)網(wǎng)絡(luò)已廣泛應(yīng)用于圖片分類、檢索、目標(biāo)定位檢測(cè)等領(lǐng)域。
由以上結(jié)果可以看出,神經(jīng)網(wǎng)絡(luò)逐漸成為了人工智能的代名詞,并在各個(gè)領(lǐng)域中取得良好的結(jié)果。
展開(kāi) - 視頻格式:MP4 | 視頻編碼:h264,分辨率1920×1080 | 音頻編碼:AAC,采樣率44.1 KHz,雙聲道
- 語(yǔ)言:英語(yǔ) | 時(shí)長(zhǎng):6小時(shí)08分鐘 | 大小:3.38 GB
- 課程簡(jiǎn)介:使用大型語(yǔ)言模型(LLMs)、檢索增強(qiáng)生成(RAG)、智能體和全棧工程實(shí)踐,構(gòu)建可投入生產(chǎn)的生成式人工智能系統(tǒng)。
- 學(xué)習(xí)內(nèi)容:
- 設(shè)計(jì)和構(gòu)建基于大型語(yǔ)言模型(LLMs)、Transformer、嵌入技術(shù)和現(xiàn)代AI架構(gòu)的可投入生產(chǎn)的生成式AI系統(tǒng)。
- 實(shí)現(xiàn)檢索增強(qiáng)生成(RAG)流水線,將大型語(yǔ)言模型與外部知識(shí)相結(jié)合,減少幻覺(jué)現(xiàn)象,打造企業(yè)級(jí)AI應(yīng)用。
- 利用工具調(diào)用、多步驟推理、記憶功能和人機(jī)協(xié)同控制,開(kāi)發(fā)自主智能體AI系統(tǒng)。
- 集成FastAPI后端、流式聊天界面、前端用戶體驗(yàn)?zāi)J胶陀袪顟B(tài)記憶管理,創(chuàng)建全棧大型語(yǔ)言模型應(yīng)用程序。
- 通過(guò)令牌優(yōu)化、緩存策略、模型選擇權(quán)衡和負(fù)載管理技術(shù),優(yōu)化AI系統(tǒng)的成本、延遲和可擴(kuò)展性。
- 使用人工和自動(dòng)化評(píng)估方法評(píng)估和監(jiān)控大型語(yǔ)言模型的輸出,確保準(zhǔn)確性、相關(guān)性和真實(shí)性。
- 應(yīng)用安全、安全和治理最佳實(shí)踐,實(shí)施防護(hù)措施、輸出過(guò)濾、基于策略的控制和負(fù)責(zé)任的AI框架。
- 前置要求:
- 具備基礎(chǔ)編程知識(shí)(首選Python,但無(wú)需達(dá)到專家水平)
- 對(duì)API或Web應(yīng)用程序有大致了解(有幫助,但非必需)
- 對(duì)AI充滿好奇,愿意動(dòng)手構(gòu)建項(xiàng)目
- 課程描述:本課程包含人工智能的應(yīng)用內(nèi)容。這是一門(mén)專為全棧AI工程師設(shè)計(jì)的全面、實(shí)踐導(dǎo)向的生成式AI和大型語(yǔ)言模型(LLMs)課程。
展開(kāi) 
自然語(yǔ)言生成的相關(guān)專題、標(biāo)簽、搜索
自然語(yǔ)言生成的最新內(nèi)容
編輯
答案生成顯示引用文獻(xiàn)
2自然語(yǔ)言驅(qū)動(dòng)設(shè)計(jì):從口述到模型
?
編輯
自然語(yǔ)言繪制CAD模型,支持Web端輕量化預(yù)覽
NexAI集成多模態(tài)大模型,允許用自然語(yǔ)言直接生成基礎(chǔ)模型。
自然語(yǔ)言建模:通過(guò)NexAI智能體,可以實(shí)現(xiàn)自然語(yǔ)言交互的方式,生成FreeCAD模型代碼,并直接進(jìn)行輕量化展示。
?
該工作流的特點(diǎn)式由新思科技 EDA 智能體協(xié)同處理以下任務(wù):根據(jù)自然語(yǔ)言和形式規(guī)范生成 RTL(寄存器傳輸級(jí))代碼,運(yùn)行 Lint 檢查以確保 RTL 的整潔性,生成單元級(jí)測(cè)試平臺(tái)(testbench),并最終通過(guò) EDA 工具迭代運(yùn)行驗(yàn)證以收斂至目標(biāo)指標(biāo)。對(duì)于大型 SoC 設(shè)計(jì)而言,采用傳統(tǒng)方法,這一前端設(shè)計(jì)過(guò)程通常需要一個(gè)驗(yàn)證團(tuán)隊(duì)四到六個(gè)月的時(shí)間。
該技術(shù)不僅能理解Lint報(bào)錯(cuò)的原因并提供精準(zhǔn)的代碼修復(fù)建議,還能通過(guò)自然語(yǔ)言描述來(lái)滿足定制化Lint檢查的需求;另外它還能通過(guò)自然語(yǔ)言描述直接生成期望的waiver來(lái)過(guò)濾掉不期望看到的違例。采用該技術(shù)能加快 Lint違例的修復(fù)和收斂的效率,從而極大解放開(kāi)發(fā)者的生產(chǎn)力。
GenAI+Lint全新技術(shù):VC SpyGlass Lint Advisor實(shí)戰(zhàn)課程即將上線,歡迎大家報(bào)名!
新思科技 Copilot Workflow Assistant 通過(guò)自然語(yǔ)言生成、總結(jié)、修復(fù)和注釋腳本,可以顯著降低開(kāi)發(fā)者編寫(xiě)復(fù)雜腳本的時(shí)間成本,從而更快地得到解決方案,提高芯片設(shè)計(jì)的整體生產(chǎn)力和創(chuàng)造力。
該技術(shù)不僅能理解Lint報(bào)錯(cuò)的原因并提供精準(zhǔn)的代碼修復(fù)建議,還能通過(guò)自然語(yǔ)言描述來(lái)滿足定制化Lint檢查的需求;另外它還能通過(guò)自然語(yǔ)言描述直接生成期望的waiver來(lái)過(guò)濾掉不期望看到的違例。采用該技術(shù)能加快Lint違例的修復(fù)和收斂的效率,從而極大解放開(kāi)發(fā)者的生產(chǎn)力。
新思科技Copilot Workflow Assistant 通過(guò)自然語(yǔ)言生成、總結(jié)、修復(fù)和注釋腳本,開(kāi)發(fā)者可以顯著降低編寫(xiě)復(fù)雜腳本的時(shí)間成本,從而更快地得到解決方案,提高芯片設(shè)計(jì)的整體生產(chǎn)力和創(chuàng)造力。本次芯課程為大家全面介紹Workflow Assistant的使用流程及案例。
解鎖端到端仿真新可能 :全新aiSim 6 即將發(fā)布2個(gè)月前
PBR Splatting 把 3DGS 場(chǎng)景從"光照固化的快照"變成了"可動(dòng)態(tài)配置的訓(xùn)練環(huán)境";Navier-Stokes 粒子仿真把物理級(jí)環(huán)境干擾引入了合成數(shù)據(jù)鏈路;MCP 集成則把場(chǎng)景生成的速度從"工程師手動(dòng)編寫(xiě)"提升到"自然語(yǔ)言即時(shí)生成"。
這三個(gè)能力疊加,勾勒出 aiSim 6 試圖扮演的角色:不只是一個(gè)測(cè)試工具,而是端到端算法開(kāi)發(fā)體系中的合成數(shù)據(jù)引擎。
- 視頻格式:MP4 | 視頻編碼:h264,分辨率1920×1080 | 音頻編碼:AAC,采樣率44.1 KHz,雙聲道
- 語(yǔ)言:英語(yǔ) | 時(shí)長(zhǎng):6小時(shí)08分鐘 | 大小:3.38 GB
- 課程簡(jiǎn)介:使用大型語(yǔ)言模型(LLMs)、檢索增強(qiáng)生成(RAG)、智能體和全棧工程實(shí)踐,構(gòu)建可投入生產(chǎn)的生成式人工智能系統(tǒng)。
- 學(xué)習(xí)內(nèi)容:
**AI輔助編程**:通過(guò)自然語(yǔ)言生成API調(diào)用代碼,降低開(kāi)發(fā)門(mén)檻。
2. **智能推薦引擎**:根據(jù)使用場(chǎng)景自動(dòng)推薦最佳API組合,提升開(kāi)發(fā)效率。
3. **元宇宙開(kāi)發(fā)環(huán)境**:在虛擬空間中拖拽組件構(gòu)建許可管理系統(tǒng),所見(jiàn)即所得。
在低代碼革命的浪潮中,UG許可API開(kāi)發(fā)已進(jìn)化為企業(yè)數(shù)字化的核心能力。
通過(guò)自然語(yǔ)言交互生成PINN代碼,可加速?gòu)?fù)雜瞬態(tài)問(wèn)題的求解流程。本課程結(jié)合大模型輔助編程,探索其在微分方程求解、代碼調(diào)試及多任務(wù)優(yōu)化中的應(yīng)用,推動(dòng)“AI for Science”的工程化落地。
疲勞斷裂與物理神經(jīng)網(wǎng)絡(luò) 流體固體
?