不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

GeotechSet模型

關注
創建者:匿名 創建時間:2021-08-24
GeotechSet模型圖1

GeotechSet模型的實例教程

1 引言 《GeotechSet數據集在GPT2上的訓練過程》訓練出一個Geotechset試驗模型, 使用了僅450k的原始數據集,在此基礎上,把原始數據擴到了目前的5.3M進行了試驗,數據范圍仍然集中在巖石工程。這個筆記回顧了參數的設置和生成的結果。 2 訓練參數設置 與上一個版本相比,這個版本把訓練循環次數num_train_epochs的數值由原來的3改為4,這將增加結果的可靠度,其它參數沒有改變。完整的輸入參數如下: --output_dir=mwu --model_type=gpt2 --model_name_or_path=gpt2 --do_train --train_data_file=./input.txt --per_device_train_batch_size=2 --dataloader_num_workers=1 --block_size 256 --save_steps 5000 --num_train_epochs=4 訓練過程的參數總結如下: Num examples = 5250 Num Epochs = 4 Instantaneous batch size per device = 2 Total train batch size (w. parallel, distributed & accumulation) = 2 Gradient Accumulation steps = 1 Total optimization steps = 10500 這個訓練總共運行了32分鐘,新的模型如下所示。
展開
使用不同的解碼策略,目前產生出許多用于自回歸語言生成的模型,最流行的模型有GPT2, XLNet, OpenAi-GPT, CTRL, TransfoXL, XLM, Bart和T5,對GPT2模型我們已經作了很多探索性的工作: GeotechSet數據集在GPT2上的訓練過程 GPT2-Large模型解碼方法比較 GPT2-Large模型解碼方法---Top-K and Top-p 新探索---EleutherAI的GPT Neo/GPT-3模型 GeotechSet模型的擴展和優化---集成了aitextgen 開放式文本生成(Open-Ended Text Generation) 同時也對T5模型作了探索性的工作: 生成摘要(Summarization)的新方法 Transformers的Text2TextGeneration管道測試 這個筆記探索另一個模型XLNet。 2 XLNet模型 XLNet來自Google公司Yang等人(2019)的論文《XLNet: Generalized Autoregressive Pretraining for Language Understanding(XLNet: 用于語言理解的廣義自回歸預訓練)》,XLNet是一種無監督的語言表征學習方法,它基于一種新的廣義包絡語言建模目標。XLnet是Transformer-XL模型的一個擴展,使用自回歸方法進行預訓練,在涉及長上下文的語言任務中表現出優異的性能。XLNet在各種下游語言任務上取得了最先進的(SOTA)結果,包括問題回答、自然語言推理、情感分析和文檔排名。 XLNet模型主要有兩個:一個是小模型xlnet-base-cased,另一個是大模型xlnet-large-cased。
展開
以后我們將逐漸訓練出自己的GeotechSet模型。
1 引言 在之前的《GeotechSet模型的擴展和優化---集成了aitextgen》中訓練出GeotechSet,使用的是GPT2預訓練模型,由于機器只有6G GPU的限制,不能使用GPT2-Large。為了能使用這個模型,改用了CPU進行訓練。這個筆記簡要記錄了改進的過程。 2 GPT2和GPT2-large的差別 GPT2是在一個名為WebText的40GB數據集上訓練的,數據來源是從網上抓取的。GPT2系列共有 5個模型:distilgpt2-small,gpt2(gpt2-small),gpt2-medium,gpt2-large和gpt2-xl。目前我們只使用gpt2和gpt2-large這兩個模型。GPT2需要占用500MB的存儲空間來存儲其所有參數,而GPT2-large是GPT2的13倍,占用超過6.5GB的存儲空間。gpt2共有參數124439808個,gpt2-large共有參數774030080個,而gpt2-xl模型應該有大約1.5B的參數。 這個測試使用了如下代碼: sum(p.numel() for p in gpt2_model.parameters() if p.requires_grad) 3 使用GPT2-large 在現有的條件下,為了使用GPT2-large, 必須在CPU下才能運行。為此新建了一個虛擬環境mwu-training,這個新的虛擬環境是從mwu-transformer克 隆過來的,然后在這個新的training環境中首先卸載CUDA,然后重新安裝torch的CPU版本,整個過程還算順利。
展開
GeotechSet模型圖2

GeotechSet模型的最新內容

1 引言 在之前的《GeotechSet模型的擴展和優化---集成了aitextgen》中訓練出GeotechSet,使用的是GPT2預訓練模型,由于機器只有6G GPU的限制,不能使用GPT2-Large。為了能使用這個模型,改用了CPU進行訓練。這個筆記簡要記錄了改進的過程。
從理論上來說,我們可以使用目前的方法訓練出基于GeotechSet模型
6 結束語 新的GeotechSet模型擴展了原始數據集(5.3M),并且對數據進行了手動清洗,新的句子生成代碼集成了aitextgen,從而在某種程度上增強了結果的可靠性。我們將繼續擴展原始數據集。
以后我們將逐漸訓練出自己的GeotechSet模型