不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

預(yù)訓(xùn)練模型的案例

用于圖像分類的頂級(jí)預(yù)訓(xùn)練模型
視覺變形金剛 (ViT) 用于圖像分類的預(yù)訓(xùn)練模型的優(yōu)勢(shì) 用于圖像分類的預(yù)訓(xùn)練模型的挑戰(zhàn) 預(yù)訓(xùn)練模型概述 預(yù)訓(xùn)練模型是現(xiàn)代深度學(xué)習(xí)的重要組成部分。這些模型最初是在 ImageNet 等大型通用數(shù)據(jù)集上訓(xùn)練的。他們學(xué)習(xí)識(shí)別各種特征,從簡(jiǎn)單的邊緣到復(fù)雜的紋理和對(duì)象。這種廣泛的培訓(xùn)使他們能夠很好地概括,使他們成為新任務(wù)的有效起點(diǎn)。通過在特定數(shù)據(jù)集上微調(diào)這些模型,開發(fā)人員可以用更少的數(shù)據(jù)和計(jì)算來實(shí)現(xiàn)高性能 預(yù)訓(xùn)練模型的架構(gòu)各不相同,但它們具有共同的特征。它們由多個(gè)層組成,這些層逐步從輸入圖像中提取特征。早期層捕獲低級(jí)特征,而較深層識(shí)別高級(jí)模式。預(yù)訓(xùn)練模型可以適應(yīng)各種領(lǐng)域,從醫(yī)學(xué)成像到自動(dòng)駕駛。它們的多功能性和有效性使它們成為計(jì)算機(jī)視覺領(lǐng)域的寶貴工具。 用于圖像分類的頂級(jí)預(yù)訓(xùn)練模型 一些預(yù)訓(xùn)練模型由于其性能和可靠性而成為圖像分類的標(biāo)準(zhǔn)。以下是主要型號(hào): 1. ResNet(殘差網(wǎng)絡(luò)) 概述:Microsoft Research 推出的 ResNet 通過使用殘差連接來緩解深度網(wǎng)絡(luò)中梯度消失的問題,徹底改變了深度學(xué)習(xí)。 變體:ResNet-50、ResNet-101、ResNet-152。 主要特點(diǎn): 深度架構(gòu)(最多 152 層)。 殘差塊,允許梯度流經(jīng)快捷連接。 應(yīng)用:通用圖像分類、對(duì)象檢測(cè)和特征提取。 2. 盜夢(mèng)空間 (GoogLeNet) 概述:由 Google 開發(fā)的 Inception 網(wǎng)絡(luò)使用 inception 模塊來捕獲多尺度特征。 變體:Inception v3、Inception v4、Inception-ResNet。
展開
閱讀理解回答問題(Question Answering)---一個(gè)更強(qiáng)的BERT預(yù)訓(xùn)練模型
1 引言 在<Transformers之問題對(duì)答(Question Answering)>中, 使用了mrm8488/bert-multi-cased-finetuned-xquadv1數(shù)據(jù)集回答問題, 這個(gè)數(shù)據(jù)集是一個(gè)多語言預(yù)訓(xùn)練模型: BERT(base-multilingual-cased) fine-tuned for multilingual Q&A. 并且使用了最簡(jiǎn)單的管道pileline()調(diào)用方法. 就像我們已經(jīng)看到的一樣, 這個(gè)模型得出的結(jié)果不理想, 因此本文探索了一個(gè)更高級(jí)的預(yù)訓(xùn)練模型. 2 模型描述 本文的試驗(yàn)模型采用了bert-large-uncased-whole-word-masking-finetuned-squad數(shù)據(jù)集作為問題回答模型。在默認(rèn)狀態(tài)下, 這個(gè)模型保存在C:\Users\m\.cache\huggingface\transformers文件夾內(nèi). 該模型不區(qū)分字母的大小寫, 使用了屏蔽語言模擬masked language modeling (MLM) 目標(biāo)對(duì)英語語言進(jìn)行預(yù)訓(xùn)練。可以在問題回答管道中使用它,或者使用它來輸出給定查詢和上下文的原始結(jié)果。BERT模型在BookCorpus上進(jìn)行了預(yù)訓(xùn)練,該數(shù)據(jù)集由11,038本未出版的書籍和英文維基百科組成(不包括列表、表格和標(biāo)題)。 與其他BERT模型不同的是,這個(gè)模型使用了全詞屏蔽Whole Word Masking技術(shù)進(jìn)行訓(xùn)練。在這種情況下,一個(gè)詞所對(duì)應(yīng)的所有標(biāo)記(tokens)都會(huì)被一次性屏蔽掉, 而整體屏蔽率保持不變。訓(xùn)練是相同的 -- 每個(gè)被屏蔽的WordPiece標(biāo)記都是獨(dú)立預(yù)測(cè)的。在預(yù)訓(xùn)練之后,這個(gè)模型在SQuAD數(shù)據(jù)集上用一個(gè)微調(diào)腳本進(jìn)行了微調(diào)。
展開
Bert模型微調(diào)---產(chǎn)生自己的訓(xùn)練數(shù)據(jù)模型
1 引言 盡管已經(jīng)發(fā)展出許多預(yù)訓(xùn)練模型,但正如過去試驗(yàn)看到的一樣,這些預(yù)訓(xùn)練模型還不能真正滿足我們巖土工程專業(yè)的需要,為了真正達(dá)到我們的目的,必須在預(yù)訓(xùn)練模型的基礎(chǔ)上微調(diào)出我們自己的模型GeotechSet,之所以長時(shí)間沒有這樣做,其中一個(gè)主要原因是考慮到時(shí)間問題,以我目前的硬件配置,訓(xùn)練出一個(gè)新的模型需要好幾個(gè)小時(shí)(下面例子的模型訓(xùn)練用了大約50分鐘,訓(xùn)練數(shù)據(jù)1.3M)。這個(gè)筆記簡(jiǎn)要總結(jié)了微調(diào)模型的過程,檢驗(yàn)了訓(xùn)練出來的模型是否可用。 2 訓(xùn)練模型 微調(diào)代碼保存在training_stsbenchmark.py中,訓(xùn)練數(shù)據(jù)集保存在datasets文件夾內(nèi)。 預(yù)訓(xùn)練模型可以選擇任意的Transformers模型,例如Bert,RoBERTa,XLNet, XLM-R,DistilBERT等(bert-base-uncased, roberta-base, xlm-roberta-base,bert-base-cased)。
展開
不得已而為之---CPU下使用gpt2-large模型進(jìn)行微調(diào)訓(xùn)練
1 引言 在之前的《GeotechSet模型的擴(kuò)展和優(yōu)化---集成了aitextgen》中訓(xùn)練出GeotechSet,使用的是GPT2預(yù)訓(xùn)練模型,由于機(jī)器只有6G GPU的限制,不能使用GPT2-Large。為了能使用這個(gè)模型,改用了CPU進(jìn)行訓(xùn)練。這個(gè)筆記簡(jiǎn)要記錄了改進(jìn)的過程。 2 GPT2和GPT2-large的差別 GPT2是在一個(gè)名為WebText的40GB數(shù)據(jù)集上訓(xùn)練的,數(shù)據(jù)來源是從網(wǎng)上抓取的。GPT2系列共有 5個(gè)模型:distilgpt2-small,gpt2(gpt2-small),gpt2-medium,gpt2-large和gpt2-xl。目前我們只使用gpt2和gpt2-large這兩個(gè)模型。GPT2需要占用500MB的存儲(chǔ)空間來存儲(chǔ)其所有參數(shù),而GPT2-large是GPT2的13倍,占用超過6.5GB的存儲(chǔ)空間。gpt2共有參數(shù)124439808個(gè),gpt2-large共有參數(shù)774030080個(gè),而gpt2-xl模型應(yīng)該有大約1.5B的參數(shù)。 這個(gè)測(cè)試使用了如下代碼: sum(p.numel() for p in gpt2_model.parameters() if p.requires_grad) 3 使用GPT2-large 在現(xiàn)有的條件下,為了使用GPT2-large, 必須在CPU下才能運(yùn)行。為此新建了一個(gè)虛擬環(huán)境mwu-training,這個(gè)新的虛擬環(huán)境是從mwu-transformer克 隆過來的,然后在這個(gè)新的training環(huán)境中首先卸載CUDA,然后重新安裝torch的CPU版本,整個(gè)過程還算順利。
展開
預(yù)訓(xùn)練模型圖1
GeotechSet數(shù)據(jù)集在GPT2上的訓(xùn)練過程
1 引言 Transformers提供了數(shù)以千計(jì)的預(yù)訓(xùn)練模型,利用這些預(yù)訓(xùn)練模型可以對(duì)文本執(zhí)行任務(wù),如分類、信息提取、問題回答、總結(jié)、翻譯、文本生成等。Transformers提供的API可以在給定的文本上使用這些預(yù)訓(xùn)練模型,在自己的數(shù)據(jù)集上對(duì)它們進(jìn)行微調(diào)。這似乎是很激動(dòng)人心的一件事情,在過去作為試驗(yàn)曾經(jīng)做過一個(gè)Bert的訓(xùn)練模型《Bert模型微調(diào)---產(chǎn)生自己的訓(xùn)練數(shù)據(jù)模型》,然而現(xiàn)實(shí)是對(duì)于個(gè)人計(jì)算機(jī)而言,要求的硬件配置非常高,因此在有限的資源下,為了訓(xùn)練一個(gè)模型必須對(duì)各個(gè)方面精打細(xì)算。這個(gè)筆記描述了GeotechSet數(shù)據(jù)集在GPT2模型上的訓(xùn)練過程,著重強(qiáng)調(diào)了在目前的硬件條件下如何實(shí)現(xiàn)這一過程。 2 考慮的因素 如果有足夠的硬件資源, 例如有多核的GPU或TPU, 有足夠大的GPU內(nèi)存,我們可以不必考慮一些輸入?yún)?shù)的設(shè)置,但在目前條件下必須考慮這個(gè)問題,否則不能運(yùn)行下去,最典型的錯(cuò)誤信息就是"GPU out of memory", 即GPU的內(nèi)存不夠,在《全過程記錄---檢查PyTorch是否在使用GPU》一文中描述過目前使用的硬件設(shè)備,只有1個(gè)GPU,6G的顯存,如此小的內(nèi)存對(duì)機(jī)器學(xué)習(xí)來說是遠(yuǎn)遠(yuǎn)不夠的,因此需要綜合考慮各方面的因素。主要考慮的因素包括: (1) 預(yù)訓(xùn)練模型 預(yù)訓(xùn)練模型是整個(gè)訓(xùn)練過程的基礎(chǔ),盡管使用大的模型可能會(huì)取得更好的結(jié)果,但預(yù)訓(xùn)練模型不能取得太大。這是我們首先考慮的一個(gè)因素。GPT2模型目前有四個(gè),按尺寸排列分別是: gpt2, gpt2-medium, gpt2-large, gpt2-xl。在本次試驗(yàn)中,為了安全起見,我們使用了最小的模型gpt2. (2) 輸入數(shù)據(jù) 要進(jìn)行訓(xùn)練必須考慮輸入數(shù)據(jù)(input.txt)的大小。
展開
語義相關(guān)的Doc2Vec模型訓(xùn)練參數(shù)優(yōu)化
,但模型訓(xùn)練在很大程度上是一門藝術(shù)而不是科學(xué),調(diào)參是模型訓(xùn)練時(shí)必要步驟,會(huì)占用大量時(shí)間。
BERT模型的應(yīng)用回顧(階段性總結(jié))
1 引言 BERT(Bidirectional Encoder Representations from Transformers)是一個(gè)以自監(jiān)督方式在大型英語數(shù)據(jù)語料庫上預(yù)訓(xùn)練的transformers模型。Transformers架構(gòu)在論文《 Attention is All You Need 注意力是你所需要的》提出,其中編碼器(encoder)對(duì)輸入文本進(jìn)行編碼,解碼器(decoder)對(duì)編碼進(jìn)行處理,以理解序列背后的上下文信息。堆棧中的每個(gè)編碼器和解碼器都使用一個(gè)注意力機(jī)制,將每個(gè)輸入與其他輸入一起處理,以權(quán)衡它們之間的相關(guān)性,并在解碼器的幫助下生成輸出序列。注意力機(jī)制能夠動(dòng)態(tài)地突出和理解輸入文本的特征。 BERT模型基于Transformers架構(gòu),在BookCorpus上進(jìn)行了預(yù)訓(xùn)練,該數(shù)據(jù)集由11,038本沒有出版的書籍和英文維基百科組成(不包括列表、表格和標(biāo)題)。BERT的預(yù)訓(xùn)練有兩個(gè)目標(biāo): (1) Masked Language Modeling (MLM): 掩蔽語言模擬(MLM)---取一個(gè)句子,模型隨機(jī)掩蔽輸入中15%的單詞,然后通過模型運(yùn)行整個(gè)掩蔽的句子預(yù)測(cè)掩蔽的單詞。這與傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)RNN不同,RNN通常是一個(gè)接一個(gè)地看單詞,或者與自回歸模型GPT不同,GPT在內(nèi)部屏蔽未來的標(biāo)記, 而MLM允許模型學(xué)習(xí)句子的雙向表示,這樣的訓(xùn)練為需要雙向語境的下游任務(wù),如SQuAD奠定了堅(jiān)實(shí)基礎(chǔ)。程序?yàn)?geotech-fill-mask.py, 代表性例子:完形填空---遮蔽式語言模擬(Masked Language Modeling). (2) Next Sentence Prediction (NSP): 下一句預(yù)測(cè)(NSP)---模型預(yù)訓(xùn)練期間將兩個(gè)被掩蓋的句子連接起來作為輸入。
展開
使用 TensorFlow 進(jìn)行對(duì)象檢測(cè) ¥5
pip install tensorflow ? ? 確保您具有必要的依賴項(xiàng),如果您有兼容的 GPU,請(qǐng)考慮安裝支持 GPU 的 TensorFlow 以加快訓(xùn)練速度。 選擇預(yù)訓(xùn)練模型 TensorFlow 在 COCO (Common Objects in Context) 等大型數(shù)據(jù)集上提供預(yù)訓(xùn)練模型。這些模型是遷移學(xué)習(xí)的起點(diǎn)。常見型號(hào)包括 Faster R-CNN、SSD(Single Shot Multibox Detector)和 YOLO(You Only Look Once)。在本教程中,我們將使用 ssd_mobilenet_v2_fpnlite_640x640_coco17_tpu-8 模型。 了解 ssd_mobilenet_v2_fpnlite_640x640_coco17_tpu-8 Model SSD(單發(fā)多框檢測(cè)器):SSD 是一種流行的對(duì)象檢測(cè)算法,以其速度和準(zhǔn)確性而聞名。它旨在一次性檢測(cè)不同比例和縱橫比的對(duì)象。 MobileNetV2:MobileNetV2 是一種針對(duì)移動(dòng)和邊緣設(shè)備優(yōu)化的輕量級(jí)神經(jīng)網(wǎng)絡(luò)架構(gòu)。它在效率和性能之間取得了平衡,使其成為實(shí)時(shí)應(yīng)用程序的理想選擇。 640x640:這表示模型預(yù)期的輸入圖像大小。較大的輸入大小通常會(huì)產(chǎn)生更準(zhǔn)確的結(jié)果,但需要更多的計(jì)算資源。這些模型的大小也比在較大圖像(如 1024x1024)上訓(xùn)練模型小。此外,推理時(shí)間更短。
展開
為什么 TensorFlow 如此受歡迎 – Tensorflow 功能
TensorFlow 的特點(diǎn) 可以輕松開發(fā)模型: TensorFlow 支持高級(jí) API,通過這些 API,可以使用神經(jīng)網(wǎng)絡(luò)輕松構(gòu)建機(jī)器學(xué)習(xí)模型。 復(fù)雜數(shù)值計(jì)算可以完成: 由于輸入數(shù)據(jù)集很大,因此可以輕松完成數(shù)學(xué)計(jì)算/計(jì)算。 由機(jī)器學(xué)習(xí) API 組成: TensorFlow 提供了豐富的機(jī)器學(xué)習(xí) API,包括低級(jí)和高級(jí) API。穩(wěn)定的 API 以 Python 和 C 語言提供。目前,正在開發(fā) Java、JavaScript、Julia、Matlab、R 等的 API。 使用 CPU、GPU 輕松部署和計(jì)算: TensorFlow 支持在 CPU 和 GPU 上訓(xùn)練和構(gòu)建模型。計(jì)算可以在 CPU 和 GPU 上完成,也可以進(jìn)行比較。 包含預(yù)先訓(xùn)練模型和數(shù)據(jù)集: Google 在 TensorFlow 中包含了許多數(shù)據(jù)集和預(yù)訓(xùn)練模型。數(shù)據(jù)集包括 mnist、vgg_face2、ImageNet、coco 等。 適用于移動(dòng)設(shè)備、嵌入式設(shè)備和生產(chǎn)的預(yù)訓(xùn)練模型: 機(jī)器學(xué)習(xí)模型可以使用 TensorFlow 部署在移動(dòng)和嵌入式設(shè)備上。預(yù)先訓(xùn)練模型可以直接用于生產(chǎn)。 Tensorboard 是一個(gè)使用 TensorFlow 可視化工具包的工具包,通過模型圖使 ML 變得簡(jiǎn)單: Tensorboard 是 TensorFlow 的可視化工具包,用于顯示圖像、圖形等。 支持 Keras: Keras 是 TensorFlow 的高級(jí) API,構(gòu)建在 TensorFlow 和 Theano 之上。如今,Keras 已成為一種廣泛使用的 TensorFlow API。 開源: TensorFlow 是一個(gè)開源平臺(tái),可免費(fèi)使用,允許開發(fā)人員和研究人員構(gòu)建和部署機(jī)器學(xué)習(xí)模型
展開
生成摘要(Summarization)的新方法
The century-old mine is owned and operated by Codelco and forms part of the company’s Radomiro Tomic (RT) division. 4 模型和標(biāo)記方法 盡管使用管道方法簡(jiǎn)單,但正如在《閱讀理解回答問題(Question Answering)---一個(gè)更強(qiáng)的BERT預(yù)訓(xùn)練模型》中指出的一樣,默認(rèn)的管道模型精度太低,為了提高精度,下面使用模型和標(biāo)記的方法來進(jìn)行段落總結(jié)任務(wù)。采用Google的encoder-decoder模型T5(t5-base),它與上面使用的Bart模型類似,是一個(gè)多任務(wù)混合數(shù)據(jù)集,包括了Bart模型中的數(shù)據(jù)。 from transformers import AutoModelForSeq2SeqLM, AutoTokenizermodel = AutoModelForSeq2SeqLM.from_pretrained("t5-base")tokenizer = AutoTokenizer.from_pretrained("t5-base") 文本內(nèi)容仍然使用上面的ARTICLE,得出的總結(jié)如下所示。顯然,這個(gè)結(jié)果比上面得出的結(jié)果要好。
展開
Longformer---回答問題長文本的Transformer
在<閱讀理解回答問題(Question Answering)---一個(gè)更強(qiáng)的BERT預(yù)訓(xùn)練模型>和<Transformers之問題對(duì)答(Question Answering)>中, 共采用了三個(gè)預(yù)訓(xùn)練Bert模型,這些模型是SQuAD數(shù)據(jù)集在Transformers架構(gòu)下預(yù)訓(xùn)練形成的: (1) mrm8488/bert-multi-cased-finetuned-xquadv1 (2) bert-large-uncased-whole-word-masking-finetuned-squad (3) ktrapeznikov/albert-xlarge-v2-squad-v2 不過, 這些模型都使用了512個(gè)標(biāo)記(token)序列, 當(dāng)處理長文本超出這個(gè)限制時(shí),就會(huì)發(fā)生錯(cuò)誤,因而我們必須使用Longformer代替標(biāo)準(zhǔn)的Bert模型。 2 Longformer模型 Longformer在長文檔任務(wù)中的表現(xiàn)優(yōu)于其他大多數(shù)模型,可以明顯減少內(nèi)存和時(shí)間的復(fù)雜度。長文本的預(yù)訓(xùn)練模型使用 valhalla/longformer-base-4096-finetuned-squadv1,這個(gè)模型基于SQuAD v1進(jìn)行了微調(diào), 可以處理最多4096個(gè)標(biāo)記的序列。經(jīng)過多次測(cè)試發(fā)現(xiàn),對(duì)應(yīng)的文本尺寸應(yīng)該不能大于19k. 3 測(cè)試 使用一段文檔test3.txt進(jìn)行試驗(yàn),程序根據(jù)提出的問題做出了回答。 (1) 問題: What is the numerical modelling approaches for rock slope analysis?
展開
預(yù)訓(xùn)練模型圖2
DD3D:基于預(yù)訓(xùn)練的單目3D目標(biāo)檢測(cè)
文章證明了偽雷達(dá)方式的局限性,即過度的依賴in-domain單目深度估計(jì),而文章中認(rèn)為3D目標(biāo)檢測(cè)的訓(xùn)練集和訓(xùn)練深度估計(jì)時(shí)的訓(xùn)練集并不需要同一domain,文章提出了引入單目深度估計(jì)的預(yù)訓(xùn)練步驟。DD3D的方法在二大數(shù)據(jù)集上都取得了出色的效果,值得學(xué)習(xí)和參考。
Top2Vec (V1.0.26)主題模擬代碼的改進(jìn)
另外三種模型是: universal-sentence-encoder (USE) universal-sentence-encoder-multilingual (USEM) distiluse-base-multilingual-cased (DBMC) USE和USEM依賴于Tensorflow,由于庫沖突的原因沒有安裝Tensorflow;DBMC依賴于sentence-transforers模型(聯(lián)合6種Transformers預(yù)訓(xùn)練模型), 因此目前只使用Doc2Vec和DBMC兩個(gè)模型。Top2Vec原作者對(duì)各種模型的應(yīng)用范圍給出了如下建議:對(duì)于大型數(shù)據(jù)集和具有非常獨(dú)特詞匯的數(shù)據(jù)集,Doc2Vec可以產(chǎn)生更好的結(jié)果。這將從頭開始訓(xùn)練一個(gè)Doc2Vec 模型。這種方法是不分語言的。但是多種語言不會(huì)對(duì)應(yīng)起來;使用USE運(yùn)行速度會(huì)很快,因?yàn)樗呀?jīng)包含了預(yù)訓(xùn)練好的高效模型,這個(gè)模型建議用于較小的數(shù)據(jù)集。對(duì)于英語或多語言模型的大型數(shù)據(jù)集,建議使用USEM模型; 對(duì)于多語言數(shù)據(jù)集和USEM未覆蓋的語言,建議使用DBMC模型,不過DBMC的運(yùn)行速度比DBMC的運(yùn)行速度要慢很多。在目前我們自己數(shù)據(jù)集的測(cè)試中,發(fā)現(xiàn)DBMC得出的結(jié)果比Doc2Vec的結(jié)果好,不過Doc2Vec仍然可以得出一些DBMC沒有的結(jié)果,因此把這兩個(gè)模型聯(lián)合在一起,同時(shí)運(yùn)行。 2.3 產(chǎn)生bigram 默認(rèn)的Top2Vec只能產(chǎn)生單個(gè)詞匯,在實(shí)際項(xiàng)目中,生成bigram更有意義(使用Trigram獲取文檔的中心思想)。因此在代碼中使用Phraser做了改進(jìn)。這個(gè)改進(jìn)對(duì)Doc2Vec和DBMC都適用, 代碼中所有涉及詞匯的部分假如有的化都以短語出現(xiàn)。下面的詞云顯示得出的結(jié)果不再是單個(gè)詞匯而是短語。
展開
關(guān)于這一行,你想知道的這里都有。
★06:華為云發(fā)布全球最大預(yù)訓(xùn)練模型,開啟工業(yè)化AI開發(fā)新模式★ 預(yù)訓(xùn)練模型是解決AI應(yīng)用開發(fā)定制化和碎片化的重要方法。華為云盤古大模型可以實(shí)現(xiàn)一個(gè)AI大模型在眾多場(chǎng)景通用、泛化和規(guī)模化復(fù)制,減少對(duì)數(shù)據(jù)標(biāo)注的依賴,并使用ModelArts平臺(tái),讓AI開發(fā)由作坊式轉(zhuǎn)變?yōu)楣I(yè)化開發(fā)的新模式。 盤古NLP大模型是全球最大的千億參數(shù)中文語言預(yù)訓(xùn)練模型,由華為云、循環(huán)智能和鵬城實(shí)驗(yàn)室聯(lián)合開發(fā),預(yù)訓(xùn)練階段學(xué)習(xí)了40TB中文文本數(shù)據(jù),并通過行業(yè)數(shù)據(jù)的樣本調(diào)優(yōu)提升模型在場(chǎng)景中的應(yīng)用性能。 盤古NLP大模型在三個(gè)方面實(shí)現(xiàn)了突破性進(jìn)展: 第一,具備領(lǐng)先的語言理解和模型生成能力;第二,盤古NLP大模型預(yù)訓(xùn)練階段沉淀了大量的通用知識(shí),既能做理解又能做生成;第三,盤古NLP大模型采用大模型小樣本調(diào)優(yōu)的路線,實(shí)現(xiàn)了小樣本學(xué)習(xí)任務(wù)上超越GPT系列。 截至目前,華為云已經(jīng)在全國10多個(gè)行業(yè)超過600個(gè)項(xiàng)目進(jìn)行了人工智能落地和實(shí)踐,幫助城市、交通、醫(yī)療、鋼鐵、紡織、能源、金融等行業(yè)智能升級(jí)。未來,華為云將持續(xù)通過技術(shù)創(chuàng)新,驅(qū)動(dòng)產(chǎn)業(yè)智能升級(jí)。 獲取更多信息請(qǐng)?zhí)砑游覀兊奈⑿牛簓uansuan888
展開
卷積神經(jīng)網(wǎng)絡(luò)表征可視化研究綜述
圖像分類是CNN最典型的應(yīng)用領(lǐng)域, 許多圖像分類系統(tǒng)使用預(yù)訓(xùn)練的CNN進(jìn)行部署. 預(yù)訓(xùn)練的CNN是指已經(jīng)在某個(gè)數(shù)據(jù)集上完成訓(xùn)練的CNN模型. 一般情況下, 預(yù)訓(xùn)練的CNN由研究人員設(shè)計(jì)并調(diào)整至最佳狀態(tài), 在實(shí)際場(chǎng)景中可以直接使用而無需再訓(xùn)練. 由于預(yù)訓(xùn)練CNN模型在現(xiàn)實(shí)中經(jīng)常使用, 因此, 針對(duì)預(yù)訓(xùn)練CNN模型的理解和解釋是可解釋性研究中的一項(xiàng)重要內(nèi)容. 1.1.2 可解釋性 可解釋性是近年來深度學(xué)習(xí)領(lǐng)域的研究熱點(diǎn). 可解釋性與可理解性的含義并不相同[19-20], 文獻(xiàn)[19]從CNN特征表示形式的角度出發(fā), 對(duì)CNN的“可解釋性”和“可理解性”做了區(qū)分: 可解釋性表示從抽象概念(向量空間、非結(jié)構(gòu)化特征空間)到人類可理解的領(lǐng)域(圖像和文字等)的映射, 而可理解性表示可解釋域內(nèi)促使模型產(chǎn)生特定決策的一組特征. 從這種區(qū)分看, “可解釋性”研究重點(diǎn)在于將參數(shù)化形式表示的特征映射到人類可直觀感受的表示形式, 而“可理解性”側(cè)重在人類可理解的領(lǐng)域中尋找與模型某個(gè)決策相關(guān)的具體特征. 也就是說, “解釋”是一種從不可解釋域到可解釋域的映射動(dòng)作, “理解”則是一種在可解釋域內(nèi)尋找感興趣證據(jù)的過程. 麻省理工的研究人員認(rèn)為[20], 通過“解釋”能夠?qū)崿F(xiàn)對(duì)深度網(wǎng)絡(luò)的“理解”, 可解釋性的研究目標(biāo)是以某種人類可理解的方式描述一個(gè)系統(tǒng)的內(nèi)部機(jī)制. 同時(shí), 將可解釋性的研究?jī)?nèi)容分為DNN處理過程的理解、DNN內(nèi)部表征的理解和自解釋的DNN三個(gè)方面. 深度學(xué)習(xí)可解釋性的研究?jī)?nèi)容非常豐富, 本文從可解釋性研究的模型對(duì)象出發(fā), 根據(jù)待解釋的目標(biāo)模型是否已經(jīng)完成訓(xùn)練, 將深度學(xué)習(xí)可解釋性研究劃分為兩部分: 事后解釋和自解釋模型, 如圖2所示[21].
展開