
發布
注冊
/
登錄GeotechSet模型
關注創建者:匿名 創建時間:2021-08-24

GeotechSet模型的實例教程
1 引言
《GeotechSet數據集在GPT2上的訓練過程》訓練出一個Geotechset試驗模型, 使用了僅450k的原始數據集,在此基礎上,把原始數據擴到了目前的5.3M進行了試驗,數據范圍仍然集中在巖石工程。這個筆記回顧了參數的設置和生成的結果。
2 訓練參數設置
與上一個版本相比,這個版本把訓練循環次數num_train_epochs的數值由原來的3改為4,這將增加結果的可靠度,其它參數沒有改變。完整的輸入參數如下:
--output_dir=mwu
--model_type=gpt2
--model_name_or_path=gpt2
--do_train --train_data_file=./input.txt
--per_device_train_batch_size=2
--dataloader_num_workers=1
--block_size 256
--save_steps 5000
--num_train_epochs=4
訓練過程的參數總結如下:
Num examples = 5250
Num Epochs = 4
Instantaneous batch size per device = 2
Total train batch size (w. parallel, distributed & accumulation) = 2
Gradient Accumulation steps = 1
Total optimization steps = 10500
這個訓練總共運行了32分鐘,新的模型如下所示。
展開 使用不同的解碼策略,目前產生出許多用于自回歸語言生成的模型,最流行的模型有GPT2, XLNet, OpenAi-GPT, CTRL, TransfoXL, XLM, Bart和T5,對GPT2模型我們已經作了很多探索性的工作:
GeotechSet數據集在GPT2上的訓練過程
GPT2-Large模型解碼方法比較
GPT2-Large模型解碼方法---Top-K and Top-p
新探索---EleutherAI的GPT Neo/GPT-3模型
GeotechSet模型的擴展和優化---集成了aitextgen
開放式文本生成(Open-Ended Text Generation)
同時也對T5模型作了探索性的工作:
生成摘要(Summarization)的新方法
Transformers的Text2TextGeneration管道測試
這個筆記探索另一個模型XLNet。
2 XLNet模型
XLNet來自Google公司Yang等人(2019)的論文《XLNet: Generalized Autoregressive Pretraining for Language Understanding(XLNet: 用于語言理解的廣義自回歸預訓練)》,XLNet是一種無監督的語言表征學習方法,它基于一種新的廣義包絡語言建模目標。XLnet是Transformer-XL模型的一個擴展,使用自回歸方法進行預訓練,在涉及長上下文的語言任務中表現出優異的性能。XLNet在各種下游語言任務上取得了最先進的(SOTA)結果,包括問題回答、自然語言推理、情感分析和文檔排名。
XLNet模型主要有兩個:一個是小模型xlnet-base-cased,另一個是大模型xlnet-large-cased。
展開 以后我們將逐漸訓練出自己的GeotechSet模型。
1 引言
在之前的《GeotechSet模型的擴展和優化---集成了aitextgen》中訓練出GeotechSet,使用的是GPT2預訓練模型,由于機器只有6G GPU的限制,不能使用GPT2-Large。為了能使用這個模型,改用了CPU進行訓練。這個筆記簡要記錄了改進的過程。
2 GPT2和GPT2-large的差別
GPT2是在一個名為WebText的40GB數據集上訓練的,數據來源是從網上抓取的。GPT2系列共有 5個模型:distilgpt2-small,gpt2(gpt2-small),gpt2-medium,gpt2-large和gpt2-xl。目前我們只使用gpt2和gpt2-large這兩個模型。GPT2需要占用500MB的存儲空間來存儲其所有參數,而GPT2-large是GPT2的13倍,占用超過6.5GB的存儲空間。gpt2共有參數124439808個,gpt2-large共有參數774030080個,而gpt2-xl模型應該有大約1.5B的參數。
這個測試使用了如下代碼:
sum(p.numel() for p in gpt2_model.parameters() if p.requires_grad)
3 使用GPT2-large
在現有的條件下,為了使用GPT2-large, 必須在CPU下才能運行。為此新建了一個虛擬環境mwu-training,這個新的虛擬環境是從mwu-transformer克 隆過來的,然后在這個新的training環境中首先卸載CUDA,然后重新安裝torch的CPU版本,整個過程還算順利。
展開 
GeotechSet模型的相關專題、標簽、搜索
GeotechSet模型的最新內容
1 引言
在之前的《GeotechSet模型的擴展和優化---集成了aitextgen》中訓練出GeotechSet,使用的是GPT2預訓練模型,由于機器只有6G GPU的限制,不能使用GPT2-Large。為了能使用這個模型,改用了CPU進行訓練。這個筆記簡要記錄了改進的過程。
從理論上來說,我們可以使用目前的方法訓練出基于GeotechSet的模型。
6 結束語
新的GeotechSet模型擴展了原始數據集(5.3M),并且對數據進行了手動清洗,新的句子生成代碼集成了aitextgen,從而在某種程度上增強了結果的可靠性。我們將繼續擴展原始數據集。
以后我們將逐漸訓練出自己的GeotechSet模型。