發(fā)布

預(yù)訓(xùn)練模型的案例

用于圖像分類的頂級(jí)預(yù)訓(xùn)練模型

視覺變形金剛（ViT）用于圖像分類的預(yù)訓(xùn)練模型的優(yōu)勢(shì) 用于圖像分類的預(yù)訓(xùn)練模型的挑戰(zhàn) 預(yù)訓(xùn)練模型概述 預(yù)訓(xùn)練模型是現(xiàn)代深度學(xué)習(xí)的重要組成部分。這些模型最初是在 ImageNet 等大型通用數(shù)據(jù)集上訓(xùn)練的。他們學(xué)習(xí)識(shí)別各種特征，從簡(jiǎn)單的邊緣到復(fù)雜的紋理和對(duì)象。這種廣泛的培訓(xùn)使他們能夠很好地概括，使他們成為新任務(wù)的有效起點(diǎn)。通過在特定數(shù)據(jù)集上微調(diào)這些模型，開發(fā)人員可以用更少的數(shù)據(jù)和計(jì)算來實(shí)現(xiàn)高性能 預(yù)訓(xùn)練模型的架構(gòu)各不相同，但它們具有共同的特征。它們由多個(gè)層組成，這些層逐步從輸入圖像中提取特征。早期層捕獲低級(jí)特征，而較深層識(shí)別高級(jí)模式。預(yù)訓(xùn)練模型可以適應(yīng)各種領(lǐng)域，從醫(yī)學(xué)成像到自動(dòng)駕駛。它們的多功能性和有效性使它們成為計(jì)算機(jī)視覺領(lǐng)域的寶貴工具。用于圖像分類的頂級(jí)預(yù)訓(xùn)練模型 一些預(yù)訓(xùn)練模型由于其性能和可靠性而成為圖像分類的標(biāo)準(zhǔn)。以下是主要型號(hào)： 1. ResNet（殘差網(wǎng)絡(luò)）概述：Microsoft Research 推出的 ResNet 通過使用殘差連接來緩解深度網(wǎng)絡(luò)中梯度消失的問題，徹底改變了深度學(xué)習(xí)。變體：ResNet-50、ResNet-101、ResNet-152。主要特點(diǎn)：深度架構(gòu)（最多 152 層）。殘差塊，允許梯度流經(jīng)快捷連接。應(yīng)用：通用圖像分類、對(duì)象檢測(cè)和特征提取。 2. 盜夢(mèng)空間（GoogLeNet）概述：由 Google 開發(fā)的 Inception 網(wǎng)絡(luò)使用 inception 模塊來捕獲多尺度特征。變體：Inception v3、Inception v4、Inception-ResNet。

展開

閱讀理解回答問題(Question Answering)---一個(gè)更強(qiáng)的BERT預(yù)訓(xùn)練模型

1 引言在<Transformers之問題對(duì)答(Question Answering)>中, 使用了mrm8488/bert-multi-cased-finetuned-xquadv1數(shù)據(jù)集回答問題, 這個(gè)數(shù)據(jù)集是一個(gè)多語言預(yù)訓(xùn)練模型: BERT(base-multilingual-cased) fine-tuned for multilingual Q&A. 并且使用了最簡(jiǎn)單的管道pileline()調(diào)用方法. 就像我們已經(jīng)看到的一樣, 這個(gè)模型得出的結(jié)果不理想, 因此本文探索了一個(gè)更高級(jí)的預(yù)訓(xùn)練模型. 2 模型描述本文的試驗(yàn)模型采用了bert-large-uncased-whole-word-masking-finetuned-squad數(shù)據(jù)集作為問題回答模型。在默認(rèn)狀態(tài)下, 這個(gè)模型保存在C:\Users\m\.cache\huggingface\transformers文件夾內(nèi). 該模型不區(qū)分字母的大小寫, 使用了屏蔽語言模擬masked language modeling (MLM) 目標(biāo)對(duì)英語語言進(jìn)行預(yù)訓(xùn)練。可以在問題回答管道中使用它，或者使用它來輸出給定查詢和上下文的原始結(jié)果。BERT模型在BookCorpus上進(jìn)行了預(yù)訓(xùn)練，該數(shù)據(jù)集由11,038本未出版的書籍和英文維基百科組成(不包括列表、表格和標(biāo)題)。與其他BERT模型不同的是，這個(gè)模型使用了全詞屏蔽Whole Word Masking技術(shù)進(jìn)行訓(xùn)練。在這種情況下，一個(gè)詞所對(duì)應(yīng)的所有標(biāo)記(tokens)都會(huì)被一次性屏蔽掉, 而整體屏蔽率保持不變。訓(xùn)練是相同的 -- 每個(gè)被屏蔽的WordPiece標(biāo)記都是獨(dú)立預(yù)測(cè)的。在預(yù)訓(xùn)練之后，這個(gè)模型在SQuAD數(shù)據(jù)集上用一個(gè)微調(diào)腳本進(jìn)行了微調(diào)。

展開

Bert模型微調(diào)---產(chǎn)生自己的訓(xùn)練數(shù)據(jù)模型

1 引言盡管已經(jīng)發(fā)展出許多預(yù)訓(xùn)練模型，但正如過去試驗(yàn)看到的一樣，這些預(yù)訓(xùn)練模型還不能真正滿足我們巖土工程專業(yè)的需要，為了真正達(dá)到我們的目的，必須在預(yù)訓(xùn)練模型的基礎(chǔ)上微調(diào)出我們自己的模型GeotechSet，之所以長時(shí)間沒有這樣做，其中一個(gè)主要原因是考慮到時(shí)間問題，以我目前的硬件配置，訓(xùn)練出一個(gè)新的模型需要好幾個(gè)小時(shí)(下面例子的模型訓(xùn)練用了大約50分鐘，訓(xùn)練數(shù)據(jù)1.3M)。這個(gè)筆記簡(jiǎn)要總結(jié)了微調(diào)模型的過程，檢驗(yàn)了訓(xùn)練出來的模型是否可用。 2 訓(xùn)練模型 微調(diào)代碼保存在training_stsbenchmark.py中，訓(xùn)練數(shù)據(jù)集保存在datasets文件夾內(nèi)。 預(yù)訓(xùn)練模型可以選擇任意的Transformers模型，例如Bert，RoBERTa，XLNet, XLM-R，DistilBERT等(bert-base-uncased, roberta-base, xlm-roberta-base，bert-base-cased)。

展開

不得已而為之---CPU下使用gpt2-large模型進(jìn)行微調(diào)訓(xùn)練

1 引言在之前的《GeotechSet模型的擴(kuò)展和優(yōu)化---集成了aitextgen》中訓(xùn)練出GeotechSet，使用的是GPT2預(yù)訓(xùn)練模型，由于機(jī)器只有6G GPU的限制，不能使用GPT2-Large。為了能使用這個(gè)模型，改用了CPU進(jìn)行訓(xùn)練。這個(gè)筆記簡(jiǎn)要記錄了改進(jìn)的過程。 2 GPT2和GPT2-large的差別 GPT2是在一個(gè)名為WebText的40GB數(shù)據(jù)集上訓(xùn)練的，數(shù)據(jù)來源是從網(wǎng)上抓取的。GPT2系列共有 5個(gè)模型：distilgpt2-small，gpt2(gpt2-small)，gpt2-medium，gpt2-large和gpt2-xl。目前我們只使用gpt2和gpt2-large這兩個(gè)模型。GPT2需要占用500MB的存儲(chǔ)空間來存儲(chǔ)其所有參數(shù)，而GPT2-large是GPT2的13倍，占用超過6.5GB的存儲(chǔ)空間。gpt2共有參數(shù)124439808個(gè)，gpt2-large共有參數(shù)774030080個(gè)，而gpt2-xl模型應(yīng)該有大約1.5B的參數(shù)。這個(gè)測(cè)試使用了如下代碼： sum(p.numel() for p in gpt2_model.parameters() if p.requires_grad) 3 使用GPT2-large 在現(xiàn)有的條件下，為了使用GPT2-large, 必須在CPU下才能運(yùn)行。為此新建了一個(gè)虛擬環(huán)境mwu-training,這個(gè)新的虛擬環(huán)境是從mwu-transformer克隆過來的，然后在這個(gè)新的training環(huán)境中首先卸載CUDA，然后重新安裝torch的CPU版本，整個(gè)過程還算順利。

展開

GeotechSet數(shù)據(jù)集在GPT2上的訓(xùn)練過程

1 引言 Transformers提供了數(shù)以千計(jì)的預(yù)訓(xùn)練模型，利用這些預(yù)訓(xùn)練模型可以對(duì)文本執(zhí)行任務(wù)，如分類、信息提取、問題回答、總結(jié)、翻譯、文本生成等。Transformers提供的API可以在給定的文本上使用這些預(yù)訓(xùn)練模型，在自己的數(shù)據(jù)集上對(duì)它們進(jìn)行微調(diào)。這似乎是很激動(dòng)人心的一件事情，在過去作為試驗(yàn)曾經(jīng)做過一個(gè)Bert的訓(xùn)練模型《Bert模型微調(diào)---產(chǎn)生自己的訓(xùn)練數(shù)據(jù)模型》，然而現(xiàn)實(shí)是對(duì)于個(gè)人計(jì)算機(jī)而言，要求的硬件配置非常高，因此在有限的資源下，為了訓(xùn)練一個(gè)模型必須對(duì)各個(gè)方面精打細(xì)算。這個(gè)筆記描述了GeotechSet數(shù)據(jù)集在GPT2模型上的訓(xùn)練過程，著重強(qiáng)調(diào)了在目前的硬件條件下如何實(shí)現(xiàn)這一過程。 2 考慮的因素如果有足夠的硬件資源, 例如有多核的GPU或TPU, 有足夠大的GPU內(nèi)存，我們可以不必考慮一些輸入?yún)?shù)的設(shè)置，但在目前條件下必須考慮這個(gè)問題，否則不能運(yùn)行下去，最典型的錯(cuò)誤信息就是"GPU out of memory", 即GPU的內(nèi)存不夠，在《全過程記錄---檢查PyTorch是否在使用GPU》一文中描述過目前使用的硬件設(shè)備，只有1個(gè)GPU，6G的顯存，如此小的內(nèi)存對(duì)機(jī)器學(xué)習(xí)來說是遠(yuǎn)遠(yuǎn)不夠的，因此需要綜合考慮各方面的因素。主要考慮的因素包括: (1) 預(yù)訓(xùn)練模型 預(yù)訓(xùn)練模型是整個(gè)訓(xùn)練過程的基礎(chǔ)，盡管使用大的模型可能會(huì)取得更好的結(jié)果，但預(yù)訓(xùn)練模型不能取得太大。這是我們首先考慮的一個(gè)因素。GPT2模型目前有四個(gè)，按尺寸排列分別是: gpt2, gpt2-medium, gpt2-large, gpt2-xl。在本次試驗(yàn)中，為了安全起見，我們使用了最小的模型gpt2. (2) 輸入數(shù)據(jù) 要進(jìn)行訓(xùn)練必須考慮輸入數(shù)據(jù)(input.txt)的大小。

展開

語義相關(guān)的Doc2Vec模型訓(xùn)練參數(shù)優(yōu)化

，但模型訓(xùn)練在很大程度上是一門藝術(shù)而不是科學(xué)，調(diào)參是模型訓(xùn)練時(shí)必要步驟，會(huì)占用大量時(shí)間。

BERT模型的應(yīng)用回顧(階段性總結(jié))

1 引言 BERT(Bidirectional Encoder Representations from Transformers)是一個(gè)以自監(jiān)督方式在大型英語數(shù)據(jù)語料庫上預(yù)訓(xùn)練的transformers模型。Transformers架構(gòu)在論文《 Attention is All You Need 注意力是你所需要的》提出，其中編碼器(encoder)對(duì)輸入文本進(jìn)行編碼，解碼器(decoder)對(duì)編碼進(jìn)行處理，以理解序列背后的上下文信息。堆棧中的每個(gè)編碼器和解碼器都使用一個(gè)注意力機(jī)制，將每個(gè)輸入與其他輸入一起處理，以權(quán)衡它們之間的相關(guān)性，并在解碼器的幫助下生成輸出序列。注意力機(jī)制能夠動(dòng)態(tài)地突出和理解輸入文本的特征。 BERT模型基于Transformers架構(gòu)，在BookCorpus上進(jìn)行了預(yù)訓(xùn)練，該數(shù)據(jù)集由11,038本沒有出版的書籍和英文維基百科組成(不包括列表、表格和標(biāo)題)。BERT的預(yù)訓(xùn)練有兩個(gè)目標(biāo): (1) Masked Language Modeling (MLM): 掩蔽語言模擬(MLM)---取一個(gè)句子，模型隨機(jī)掩蔽輸入中15%的單詞，然后通過模型運(yùn)行整個(gè)掩蔽的句子預(yù)測(cè)掩蔽的單詞。這與傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)RNN不同，RNN通常是一個(gè)接一個(gè)地看單詞，或者與自回歸模型GPT不同，GPT在內(nèi)部屏蔽未來的標(biāo)記, 而MLM允許模型學(xué)習(xí)句子的雙向表示，這樣的訓(xùn)練為需要雙向語境的下游任務(wù)，如SQuAD奠定了堅(jiān)實(shí)基礎(chǔ)。程序?yàn)?geotech-fill-mask.py, 代表性例子：完形填空---遮蔽式語言模擬(Masked Language Modeling). (2) Next Sentence Prediction (NSP): 下一句預(yù)測(cè)(NSP)---模型在預(yù)訓(xùn)練期間將兩個(gè)被掩蓋的句子連接起來作為輸入。

展開

使用 TensorFlow 進(jìn)行對(duì)象檢測(cè) ￥5

pip install tensorflow ? ? 確保您具有必要的依賴項(xiàng)，如果您有兼容的 GPU，請(qǐng)考慮安裝支持 GPU 的 TensorFlow 以加快訓(xùn)練速度。選擇預(yù)訓(xùn)練模型 TensorFlow 在 COCO （Common Objects in Context）等大型數(shù)據(jù)集上提供預(yù)訓(xùn)練模型。這些模型是遷移學(xué)習(xí)的起點(diǎn)。常見型號(hào)包括 Faster R-CNN、SSD（Single Shot Multibox Detector）和 YOLO（You Only Look Once）。在本教程中，我們將使用 ssd_mobilenet_v2_fpnlite_640x640_coco17_tpu-8 模型。了解 ssd_mobilenet_v2_fpnlite_640x640_coco17_tpu-8 Model SSD（單發(fā)多框檢測(cè)器）：SSD 是一種流行的對(duì)象檢測(cè)算法，以其速度和準(zhǔn)確性而聞名。它旨在一次性檢測(cè)不同比例和縱橫比的對(duì)象。 MobileNetV2：MobileNetV2 是一種針對(duì)移動(dòng)和邊緣設(shè)備優(yōu)化的輕量級(jí)神經(jīng)網(wǎng)絡(luò)架構(gòu)。它在效率和性能之間取得了平衡，使其成為實(shí)時(shí)應(yīng)用程序的理想選擇。 640x640：這表示模型預(yù)期的輸入圖像大小。較大的輸入大小通常會(huì)產(chǎn)生更準(zhǔn)確的結(jié)果，但需要更多的計(jì)算資源。這些模型的大小也比在較大圖像（如 1024x1024）上訓(xùn)練的模型小。此外，推理時(shí)間更短。

展開

為什么 TensorFlow 如此受歡迎 – Tensorflow 功能

TensorFlow 的特點(diǎn) 可以輕松開發(fā)模型： TensorFlow 支持高級(jí) API，通過這些 API，可以使用神經(jīng)網(wǎng)絡(luò)輕松構(gòu)建機(jī)器學(xué)習(xí)模型。復(fù)雜數(shù)值計(jì)算可以完成：由于輸入數(shù)據(jù)集很大，因此可以輕松完成數(shù)學(xué)計(jì)算/計(jì)算。由機(jī)器學(xué)習(xí) API 組成： TensorFlow 提供了豐富的機(jī)器學(xué)習(xí) API，包括低級(jí)和高級(jí) API。穩(wěn)定的 API 以 Python 和 C 語言提供。目前，正在開發(fā) Java、JavaScript、Julia、Matlab、R 等的 API。使用 CPU、GPU 輕松部署和計(jì)算： TensorFlow 支持在 CPU 和 GPU 上訓(xùn)練和構(gòu)建模型。計(jì)算可以在 CPU 和 GPU 上完成，也可以進(jìn)行比較。包含預(yù)先訓(xùn)練的模型和數(shù)據(jù)集： Google 在 TensorFlow 中包含了許多數(shù)據(jù)集和預(yù)訓(xùn)練模型。數(shù)據(jù)集包括 mnist、vgg_face2、ImageNet、coco 等。適用于移動(dòng)設(shè)備、嵌入式設(shè)備和生產(chǎn)的預(yù)訓(xùn)練模型：機(jī)器學(xué)習(xí)模型可以使用 TensorFlow 部署在移動(dòng)和嵌入式設(shè)備上。預(yù)先訓(xùn)練的模型可以直接用于生產(chǎn)。 Tensorboard 是一個(gè)使用 TensorFlow 可視化工具包的工具包，通過模型圖使 ML 變得簡(jiǎn)單： Tensorboard 是 TensorFlow 的可視化工具包，用于顯示圖像、圖形等。支持 Keras： Keras 是 TensorFlow 的高級(jí) API，構(gòu)建在 TensorFlow 和 Theano 之上。如今，Keras 已成為一種廣泛使用的 TensorFlow API。開源： TensorFlow 是一個(gè)開源平臺(tái)，可免費(fèi)使用，允許開發(fā)人員和研究人員構(gòu)建和部署機(jī)器學(xué)習(xí)模型。

展開

生成摘要(Summarization)的新方法

The century-old mine is owned and operated by Codelco and forms part of the company’s Radomiro Tomic (RT) division. 4 模型和標(biāo)記方法盡管使用管道方法簡(jiǎn)單，但正如在《閱讀理解回答問題(Question Answering)---一個(gè)更強(qiáng)的BERT預(yù)訓(xùn)練模型》中指出的一樣，默認(rèn)的管道模型精度太低，為了提高精度，下面使用模型和標(biāo)記的方法來進(jìn)行段落總結(jié)任務(wù)。采用Google的encoder-decoder模型T5(t5-base),它與上面使用的Bart模型類似，是一個(gè)多任務(wù)混合數(shù)據(jù)集，包括了Bart模型中的數(shù)據(jù)。 from transformers import AutoModelForSeq2SeqLM, AutoTokenizermodel = AutoModelForSeq2SeqLM.from_pretrained("t5-base")tokenizer = AutoTokenizer.from_pretrained("t5-base") 文本內(nèi)容仍然使用上面的ARTICLE，得出的總結(jié)如下所示。顯然，這個(gè)結(jié)果比上面得出的結(jié)果要好。

展開

Longformer---回答問題長文本的Transformer

在<閱讀理解回答問題(Question Answering)---一個(gè)更強(qiáng)的BERT預(yù)訓(xùn)練模型>和<Transformers之問題對(duì)答(Question Answering)>中, 共采用了三個(gè)預(yù)訓(xùn)練Bert模型，這些模型是SQuAD數(shù)據(jù)集在Transformers架構(gòu)下預(yù)訓(xùn)練形成的: (1) mrm8488/bert-multi-cased-finetuned-xquadv1 (2) bert-large-uncased-whole-word-masking-finetuned-squad (3) ktrapeznikov/albert-xlarge-v2-squad-v2 不過, 這些模型都使用了512個(gè)標(biāo)記(token)序列, 當(dāng)處理長文本超出這個(gè)限制時(shí)，就會(huì)發(fā)生錯(cuò)誤，因而我們必須使用Longformer代替標(biāo)準(zhǔn)的Bert模型。 2 Longformer模型 Longformer在長文檔任務(wù)中的表現(xiàn)優(yōu)于其他大多數(shù)模型，可以明顯減少內(nèi)存和時(shí)間的復(fù)雜度。長文本的預(yù)訓(xùn)練模型使用 valhalla/longformer-base-4096-finetuned-squadv1，這個(gè)模型基于SQuAD v1進(jìn)行了微調(diào), 可以處理最多4096個(gè)標(biāo)記的序列。經(jīng)過多次測(cè)試發(fā)現(xiàn)，對(duì)應(yīng)的文本尺寸應(yīng)該不能大于19k. 3 測(cè)試使用一段文檔test3.txt進(jìn)行試驗(yàn)，程序根據(jù)提出的問題做出了回答。 (1) 問題: What is the numerical modelling approaches for rock slope analysis?

展開

DD3D:基于預(yù)訓(xùn)練的單目3D目標(biāo)檢測(cè)

文章證明了偽雷達(dá)方式的局限性，即過度的依賴in-domain單目深度估計(jì)，而文章中認(rèn)為3D目標(biāo)檢測(cè)的訓(xùn)練集和訓(xùn)練深度估計(jì)時(shí)的訓(xùn)練集并不需要同一domain，文章提出了引入單目深度估計(jì)的預(yù)訓(xùn)練步驟。DD3D的方法在二大數(shù)據(jù)集上都取得了出色的效果，值得學(xué)習(xí)和參考。

Top2Vec (V1.0.26)主題模擬代碼的改進(jìn)

另外三種模型是： universal-sentence-encoder (USE) universal-sentence-encoder-multilingual (USEM) distiluse-base-multilingual-cased (DBMC) USE和USEM依賴于Tensorflow，由于庫沖突的原因沒有安裝Tensorflow；DBMC依賴于sentence-transforers模型(聯(lián)合6種Transformers預(yù)訓(xùn)練模型), 因此目前只使用Doc2Vec和DBMC兩個(gè)模型。Top2Vec原作者對(duì)各種模型的應(yīng)用范圍給出了如下建議：對(duì)于大型數(shù)據(jù)集和具有非常獨(dú)特詞匯的數(shù)據(jù)集，Doc2Vec可以產(chǎn)生更好的結(jié)果。這將從頭開始訓(xùn)練一個(gè)Doc2Vec 模型。這種方法是不分語言的。但是多種語言不會(huì)對(duì)應(yīng)起來；使用USE運(yùn)行速度會(huì)很快，因?yàn)樗呀?jīng)包含了預(yù)訓(xùn)練好的高效模型，這個(gè)模型建議用于較小的數(shù)據(jù)集。對(duì)于英語或多語言模型的大型數(shù)據(jù)集，建議使用USEM模型; 對(duì)于多語言數(shù)據(jù)集和USEM未覆蓋的語言，建議使用DBMC模型，不過DBMC的運(yùn)行速度比DBMC的運(yùn)行速度要慢很多。在目前我們自己數(shù)據(jù)集的測(cè)試中，發(fā)現(xiàn)DBMC得出的結(jié)果比Doc2Vec的結(jié)果好，不過Doc2Vec仍然可以得出一些DBMC沒有的結(jié)果，因此把這兩個(gè)模型聯(lián)合在一起，同時(shí)運(yùn)行。 2.3 產(chǎn)生bigram 默認(rèn)的Top2Vec只能產(chǎn)生單個(gè)詞匯，在實(shí)際項(xiàng)目中，生成bigram更有意義(使用Trigram獲取文檔的中心思想)。因此在代碼中使用Phraser做了改進(jìn)。這個(gè)改進(jìn)對(duì)Doc2Vec和DBMC都適用, 代碼中所有涉及詞匯的部分假如有的化都以短語出現(xiàn)。下面的詞云顯示得出的結(jié)果不再是單個(gè)詞匯而是短語。

展開

關(guān)于這一行，你想知道的這里都有。

★06：華為云發(fā)布全球最大預(yù)訓(xùn)練模型，開啟工業(yè)化AI開發(fā)新模式★ 預(yù)訓(xùn)練大模型是解決AI應(yīng)用開發(fā)定制化和碎片化的重要方法。華為云盤古大模型可以實(shí)現(xiàn)一個(gè)AI大模型在眾多場(chǎng)景通用、泛化和規(guī)模化復(fù)制，減少對(duì)數(shù)據(jù)標(biāo)注的依賴，并使用ModelArts平臺(tái)，讓AI開發(fā)由作坊式轉(zhuǎn)變?yōu)楣I(yè)化開發(fā)的新模式。盤古NLP大模型是全球最大的千億參數(shù)中文語言預(yù)訓(xùn)練模型，由華為云、循環(huán)智能和鵬城實(shí)驗(yàn)室聯(lián)合開發(fā)，預(yù)訓(xùn)練階段學(xué)習(xí)了40TB中文文本數(shù)據(jù)，并通過行業(yè)數(shù)據(jù)的樣本調(diào)優(yōu)提升模型在場(chǎng)景中的應(yīng)用性能。盤古NLP大模型在三個(gè)方面實(shí)現(xiàn)了突破性進(jìn)展：第一，具備領(lǐng)先的語言理解和模型生成能力；第二，盤古NLP大模型在預(yù)訓(xùn)練階段沉淀了大量的通用知識(shí)，既能做理解又能做生成；第三，盤古NLP大模型采用大模型小樣本調(diào)優(yōu)的路線，實(shí)現(xiàn)了小樣本學(xué)習(xí)任務(wù)上超越GPT系列。截至目前，華為云已經(jīng)在全國10多個(gè)行業(yè)超過600個(gè)項(xiàng)目進(jìn)行了人工智能落地和實(shí)踐，幫助城市、交通、醫(yī)療、鋼鐵、紡織、能源、金融等行業(yè)智能升級(jí)。未來，華為云將持續(xù)通過技術(shù)創(chuàng)新，驅(qū)動(dòng)產(chǎn)業(yè)智能升級(jí)。獲取更多信息請(qǐng)?zhí)砑游覀兊奈⑿牛簓uansuan888

展開

卷積神經(jīng)網(wǎng)絡(luò)表征可視化研究綜述

圖像分類是CNN最典型的應(yīng)用領(lǐng)域, 許多圖像分類系統(tǒng)使用預(yù)訓(xùn)練的CNN進(jìn)行部署. 預(yù)訓(xùn)練的CNN是指已經(jīng)在某個(gè)數(shù)據(jù)集上完成訓(xùn)練的CNN模型. 一般情況下, 預(yù)訓(xùn)練的CNN由研究人員設(shè)計(jì)并調(diào)整至最佳狀態(tài), 在實(shí)際場(chǎng)景中可以直接使用而無需再訓(xùn)練. 由于預(yù)訓(xùn)練CNN模型在現(xiàn)實(shí)中經(jīng)常使用, 因此, 針對(duì)預(yù)訓(xùn)練CNN模型的理解和解釋是可解釋性研究中的一項(xiàng)重要內(nèi)容. 1.1.2 可解釋性可解釋性是近年來深度學(xué)習(xí)領(lǐng)域的研究熱點(diǎn). 可解釋性與可理解性的含義并不相同[19-20], 文獻(xiàn)[19]從CNN特征表示形式的角度出發(fā), 對(duì)CNN的“可解釋性”和“可理解性”做了區(qū)分: 可解釋性表示從抽象概念(向量空間、非結(jié)構(gòu)化特征空間)到人類可理解的領(lǐng)域(圖像和文字等)的映射, 而可理解性表示可解釋域內(nèi)促使模型產(chǎn)生特定決策的一組特征. 從這種區(qū)分看, “可解釋性”研究重點(diǎn)在于將參數(shù)化形式表示的特征映射到人類可直觀感受的表示形式, 而“可理解性”側(cè)重在人類可理解的領(lǐng)域中尋找與模型某個(gè)決策相關(guān)的具體特征. 也就是說, “解釋”是一種從不可解釋域到可解釋域的映射動(dòng)作, “理解”則是一種在可解釋域內(nèi)尋找感興趣證據(jù)的過程. 麻省理工的研究人員認(rèn)為[20], 通過“解釋”能夠?qū)崿F(xiàn)對(duì)深度網(wǎng)絡(luò)的“理解”, 可解釋性的研究目標(biāo)是以某種人類可理解的方式描述一個(gè)系統(tǒng)的內(nèi)部機(jī)制. 同時(shí), 將可解釋性的研究?jī)?nèi)容分為DNN處理過程的理解、DNN內(nèi)部表征的理解和自解釋的DNN三個(gè)方面. 深度學(xué)習(xí)可解釋性的研究?jī)?nèi)容非常豐富, 本文從可解釋性研究的模型對(duì)象出發(fā), 根據(jù)待解釋的目標(biāo)模型是否已經(jīng)完成訓(xùn)練, 將深度學(xué)習(xí)可解釋性研究劃分為兩部分: 事后解釋和自解釋模型, 如圖2所示[21].

展開

預(yù)訓(xùn)練模型的相關(guān)專題、標(biāo)簽、搜索

預(yù)訓(xùn)練模型 Transformers預(yù)訓(xùn)練模型模型訓(xùn)練大模型訓(xùn)練 AI大模型訓(xùn)練 ansys預(yù)混模型訓(xùn)練模型代理模型訓(xùn)練降階模型訓(xùn)練 cae仿真代理模型訓(xùn)練降階模型訓(xùn)練培訓(xùn)圖像重建模型訓(xùn)練方法

共77條

首頁 123456 下一頁尾頁 , 到第頁

不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

預(yù)訓(xùn)練模型的案例

預(yù)訓(xùn)練模型的相關(guān)專題、標(biāo)簽、搜索