不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

GeotechSet

關(guān)注
創(chuàng)建者:匿名 創(chuàng)建時(shí)間:2021-08-24
GeotechSet圖1

GeotechSet的實(shí)例教程

結(jié)果顯示在GeotechSet數(shù)據(jù)集內(nèi)共有87篇論文或段落, 基本上覆蓋了這個(gè)分支研究領(lǐng)域的所有結(jié)果。 4 結(jié)束語 本文描述了一個(gè)在GeotechSet數(shù)據(jù)內(nèi)快速聚合相關(guān)段落的算法。聚合出來的內(nèi)容一方面可以用來深入了解查詢主題的研究進(jìn)展,另一方面也可以直接把結(jié)果文件作為機(jī)器學(xué)習(xí)的輸入數(shù)據(jù),例如回答問題(閱讀理解回答問題(Question Answering)---一個(gè)更強(qiáng)的BERT預(yù)訓(xùn)練模型),文本續(xù)寫(開放式文本生成(Open-Ended Text Generation))和文章總結(jié)(生成摘要(Summarization)的新方法)等。
6 結(jié)束語 新的GeotechSet模型擴(kuò)展了原始數(shù)據(jù)集(5.3M),并且對(duì)數(shù)據(jù)進(jìn)行了手動(dòng)清洗,新的句子生成代碼集成了aitextgen,從而在某種程度上增強(qiáng)了結(jié)果的可靠性。我們將繼續(xù)擴(kuò)展原始數(shù)據(jù)集。
對(duì)于GeotechSet數(shù)據(jù)集(目前尺寸153M),運(yùn)行時(shí)間仍然是一個(gè)挑戰(zhàn),按照主題細(xì)分為小的數(shù)據(jù)集從時(shí)間和質(zhì)量控制來說更有效。BTW,Transformers今天更新到V4.9.2.
5 結(jié)束語 本文在有限的條件下使用GPT2在小的GeotechSet數(shù)據(jù)集上進(jìn)行了訓(xùn)練,得出了我們自己的geotech數(shù)據(jù)模型。今后逐漸加大輸入數(shù)據(jù),使模型進(jìn)化得更為完善。
2 數(shù)據(jù)集 現(xiàn)代自然語言處理都使用了大規(guī)模開放的預(yù)訓(xùn)練集,如Gensim, Spacy, Transformers, PyTorch, Tensorflow等,而我們?yōu)榱吮3直緦I(yè)高度的集成性,采用了封閉的GeotechSet數(shù)據(jù)集,這個(gè)數(shù)據(jù)集只包括巖土工程領(lǐng)域的數(shù)據(jù),GeotechSet是一個(gè)動(dòng)態(tài)的數(shù)據(jù)集,由于不斷完善數(shù)據(jù)質(zhì)量和增加新的數(shù)據(jù),因此產(chǎn)生的結(jié)果隨著時(shí)間在不斷變化。 3 訓(xùn)練時(shí)間 數(shù)據(jù)量越大,參數(shù)設(shè)置越精細(xì),模型的訓(xùn)練時(shí)間越長。目前GeotechSet的數(shù)據(jù)集為148M, 與所有其他預(yù)訓(xùn)練模型相比,這個(gè)數(shù)據(jù)量還是很小的,但即便如此,訓(xùn)練時(shí)間仍然用了42分鐘。訓(xùn)練的機(jī)器配置CPU Inter(R) Core i7-10700 CPU @2.9GHz,16核,內(nèi)存32G。 import multiprocessingcores = multiprocessing.cpu_count() 模型參數(shù)如下: model = Doc2Vec(dm=0, dbow_words=1, vector_size=200, window=8, min_count=10, epochs=20, workers=cores) epochs顯著地影響了訓(xùn)練時(shí)間,大多數(shù)的出版物使用10~20, 當(dāng)設(shè)置epochs=20時(shí),訓(xùn)練時(shí)間變?yōu)?5分鐘;當(dāng)設(shè)置epochs=10時(shí),訓(xùn)練時(shí)間變?yōu)?6分鐘。下面以關(guān)鍵詞UDEC為例,比較epochs為20和10時(shí)的結(jié)果。
展開
GeotechSet圖2

GeotechSet的最新內(nèi)容

5 參考 下面的參考論文來自于GeotechSet數(shù)據(jù)集,不一定覆蓋了所有的相關(guān)文獻(xiàn)。
下面列出了GeotechSet數(shù)據(jù)集內(nèi)的相關(guān)文獻(xiàn): [1] Pit Slope Design in Pilbara Iron Deposits – Deposit A West Angelas, Western Australia [2] Limit Equilibrium Analysis of a Planar Sliding Example in the Pilbara Region
2 文獻(xiàn)回顧 這個(gè)文獻(xiàn)回顧沒有參考外部文獻(xiàn),僅從GeotechSet數(shù)據(jù)集中提取了相關(guān)數(shù)據(jù),一個(gè)詳細(xì)的總結(jié)保存在文件Piled Raft Foundation.txt中,下面對(duì)這個(gè)總結(jié)作簡要概括。
與先前發(fā)展的GeotechSet數(shù)據(jù)集不同,SSGeotech的全部數(shù)據(jù)來自于Semantic Scholar, 通俗點(diǎn)兒來說,SSGeotech自動(dòng)采集Semantic Scholar的巖土工程數(shù)據(jù)。SSGeotech的特點(diǎn)如下: (1) 全英文論文,去掉了所有非英文字符; (2) 每篇論文只包含論文題目和摘要,不包含其它信息; (3) 每天在不斷擴(kuò)充。
1 引言 產(chǎn)生新的數(shù)據(jù)集有三種方法:(1) 根據(jù)關(guān)鍵詞手工聚合;(2) 使用geotech-flashtext-passages.py自動(dòng)聚合(一種快速在GeotechSet數(shù)據(jù)集內(nèi)查詢相似段落的方法);(3) 使用geotech-st-cluster.py主題聚合。其中(3)既快速又準(zhǔn)確,是目前努力發(fā)展的一種數(shù)據(jù)集產(chǎn)生方法。
對(duì)于我們要學(xué)習(xí)的內(nèi)容,從GeotechSet數(shù)據(jù)集中自動(dòng)查詢與之最相關(guān)的內(nèi)容作為擴(kuò)展閱讀材料。使用C(n,3)的組合算法[geotech-flashtext-passages.py和geotech-flashtext-words-combination.py]對(duì)數(shù)據(jù)集內(nèi)的段落或單句進(jìn)行聚合。 7 英漢互譯 在這個(gè)雙語教學(xué)構(gòu)想中,使用的第四項(xiàng)關(guān)鍵技術(shù)是英漢互譯。
不得已而為之---CPU下使用gpt2-large模型進(jìn)行微調(diào)訓(xùn)練 GeotechSet數(shù)據(jù)集在GPT2上的訓(xùn)練過程 3 Bertopic 2021年9月1日, 發(fā)布了bertopic 0.9.1, 主要用它進(jìn)行主題模擬.
在用GeotechSet數(shù)據(jù)集的測(cè)試中,發(fā)現(xiàn)DBMC得出的結(jié)果比Doc2Vec的結(jié)果好。BERTopic默認(rèn)的數(shù)據(jù)集是paraphrase-MiniLM-L6-v2。
1 引言 在之前的《GeotechSet模型的擴(kuò)展和優(yōu)化---集成了aitextgen》中訓(xùn)練出GeotechSet,使用的是GPT2預(yù)訓(xùn)練模型,由于機(jī)器只有6G GPU的限制,不能使用GPT2-Large。為了能使用這個(gè)模型,改用了CPU進(jìn)行訓(xùn)練。這個(gè)筆記簡要記錄了改進(jìn)的過程。
從理論上來說,我們可以使用目前的方法訓(xùn)練出基于GeotechSet的模型。