不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

CAE工程師認(rèn)證

發(fā)布

GeotechSet

關(guān)注

創(chuàng)建者：匿名創(chuàng)建時(shí)間：2021-08-24

GeotechSet的實(shí)例教程

一種快速在GeotechSet數(shù)據(jù)集內(nèi)查詢相似段落的方法

結(jié)果顯示在GeotechSet數(shù)據(jù)集內(nèi)共有87篇論文或段落, 基本上覆蓋了這個(gè)分支研究領(lǐng)域的所有結(jié)果。 4 結(jié)束語本文描述了一個(gè)在GeotechSet數(shù)據(jù)內(nèi)快速聚合相關(guān)段落的算法。聚合出來的內(nèi)容一方面可以用來深入了解查詢主題的研究進(jìn)展，另一方面也可以直接把結(jié)果文件作為機(jī)器學(xué)習(xí)的輸入數(shù)據(jù)，例如回答問題(閱讀理解回答問題(Question Answering)---一個(gè)更強(qiáng)的BERT預(yù)訓(xùn)練模型)，文本續(xù)寫(開放式文本生成(Open-Ended Text Generation))和文章總結(jié)(生成摘要(Summarization)的新方法)等。

GeotechSet模型的擴(kuò)展和優(yōu)化---集成了aitextgen

6 結(jié)束語新的GeotechSet模型擴(kuò)展了原始數(shù)據(jù)集(5.3M)，并且對(duì)數(shù)據(jù)進(jìn)行了手動(dòng)清洗，新的句子生成代碼集成了aitextgen，從而在某種程度上增強(qiáng)了結(jié)果的可靠性。我們將繼續(xù)擴(kuò)展原始數(shù)據(jù)集。

GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling)

對(duì)于GeotechSet數(shù)據(jù)集(目前尺寸153M)，運(yùn)行時(shí)間仍然是一個(gè)挑戰(zhàn)，按照主題細(xì)分為小的數(shù)據(jù)集從時(shí)間和質(zhì)量控制來說更有效。BTW，Transformers今天更新到V4.9.2.

GeotechSet數(shù)據(jù)集在GPT2上的訓(xùn)練過程

5 結(jié)束語本文在有限的條件下使用GPT2在小的GeotechSet數(shù)據(jù)集上進(jìn)行了訓(xùn)練，得出了我們自己的geotech數(shù)據(jù)模型。今后逐漸加大輸入數(shù)據(jù)，使模型進(jìn)化得更為完善。

語義相關(guān)的Doc2Vec模型訓(xùn)練參數(shù)優(yōu)化

2 數(shù)據(jù)集現(xiàn)代自然語言處理都使用了大規(guī)模開放的預(yù)訓(xùn)練集，如Gensim, Spacy, Transformers, PyTorch, Tensorflow等，而我們?yōu)榱吮３直緦I(yè)高度的集成性，采用了封閉的GeotechSet數(shù)據(jù)集，這個(gè)數(shù)據(jù)集只包括巖土工程領(lǐng)域的數(shù)據(jù)，GeotechSet是一個(gè)動(dòng)態(tài)的數(shù)據(jù)集，由于不斷完善數(shù)據(jù)質(zhì)量和增加新的數(shù)據(jù)，因此產(chǎn)生的結(jié)果隨著時(shí)間在不斷變化。 3 訓(xùn)練時(shí)間數(shù)據(jù)量越大，參數(shù)設(shè)置越精細(xì)，模型的訓(xùn)練時(shí)間越長。目前GeotechSet的數(shù)據(jù)集為148M, 與所有其他預(yù)訓(xùn)練模型相比，這個(gè)數(shù)據(jù)量還是很小的，但即便如此，訓(xùn)練時(shí)間仍然用了42分鐘。訓(xùn)練的機(jī)器配置CPU Inter(R) Core i7-10700 CPU @2.9GHz，16核，內(nèi)存32G。 import multiprocessingcores = multiprocessing.cpu_count() 模型參數(shù)如下： model = Doc2Vec(dm=0, dbow_words=1, vector_size=200, window=8, min_count=10, epochs=20, workers=cores) epochs顯著地影響了訓(xùn)練時(shí)間，大多數(shù)的出版物使用10~20, 當(dāng)設(shè)置epochs=20時(shí)，訓(xùn)練時(shí)間變?yōu)?5分鐘；當(dāng)設(shè)置epochs=10時(shí)，訓(xùn)練時(shí)間變?yōu)?6分鐘。下面以關(guān)鍵詞UDEC為例，比較epochs為20和10時(shí)的結(jié)果。

展開

GeotechSet的相關(guān)專題、標(biāo)簽、搜索

GeotechSet GeotechSet模型 GeotechSet數(shù)據(jù)集 geotechset geotechset數(shù)據(jù)集 geotechset//u6570//u636e//u96c6 geotechset\\\\\\\\u6570\\\\\\\\u636e\\\\\\\\u96c6 geotechset\\\\\\\\\\\\\\\\u6570\\\\\\\\\\\\\\\\u636e\\\\\\\\\\\\\\\\u96c6 geotechset////////u6570////////u636e////////u96c6

GeotechSet的最新內(nèi)容

使用非排干脆性指數(shù)粗略估算靜態(tài)液化(undrained brittleness index)

5 參考下面的參考論文來自于GeotechSet數(shù)據(jù)集，不一定覆蓋了所有的相關(guān)文獻(xiàn)。

各向異性巖體邊坡的三維穩(wěn)定性(Anisotropic Rock Masses)

下面列出了GeotechSet數(shù)據(jù)集內(nèi)的相關(guān)文獻(xiàn)： [1] Pit Slope Design in Pilbara Iron Deposits – Deposit A West Angelas, Western Australia [2] Limit Equilibrium Analysis of a Planar Sliding Example in the Pilbara Region

樁筏基礎(chǔ)的三維數(shù)值模擬(3D Modeling of Piled Raft Foundation)---Part 1

2 文獻(xiàn)回顧這個(gè)文獻(xiàn)回顧沒有參考外部文獻(xiàn)，僅從GeotechSet數(shù)據(jù)集中提取了相關(guān)數(shù)據(jù)，一個(gè)詳細(xì)的總結(jié)保存在文件Piled Raft Foundation.txt中，下面對(duì)這個(gè)總結(jié)作簡要概括。

一個(gè)新的巖土工程數(shù)據(jù)集SSGeotech

與先前發(fā)展的GeotechSet數(shù)據(jù)集不同，SSGeotech的全部數(shù)據(jù)來自于Semantic Scholar, 通俗點(diǎn)兒來說，SSGeotech自動(dòng)采集Semantic Scholar的巖土工程數(shù)據(jù)。SSGeotech的特點(diǎn)如下： (1) 全英文論文，去掉了所有非英文字符； (2) 每篇論文只包含論文題目和摘要，不包含其它信息； (3) 每天在不斷擴(kuò)充。

利用主題聚類(Cluster)產(chǎn)生新的數(shù)據(jù)集--模型和代碼改進(jìn)

1 引言產(chǎn)生新的數(shù)據(jù)集有三種方法：(1) 根據(jù)關(guān)鍵詞手工聚合；(2) 使用geotech-flashtext-passages.py自動(dòng)聚合(一種快速在GeotechSet數(shù)據(jù)集內(nèi)查詢相似段落的方法)；(3) 使用geotech-st-cluster.py主題聚合。其中(3)既快速又準(zhǔn)確，是目前努力發(fā)展的一種數(shù)據(jù)集產(chǎn)生方法。

Bilingual Learning---巖石邊坡工程雙語教學(xué)的構(gòu)想: 方法論和技術(shù)

對(duì)于我們要學(xué)習(xí)的內(nèi)容，從GeotechSet數(shù)據(jù)集中自動(dòng)查詢與之最相關(guān)的內(nèi)容作為擴(kuò)展閱讀材料。使用C(n,3)的組合算法[geotech-flashtext-passages.py和geotech-flashtext-words-combination.py]對(duì)數(shù)據(jù)集內(nèi)的段落或單句進(jìn)行聚合。 7 英漢互譯在這個(gè)雙語教學(xué)構(gòu)想中，使用的第四項(xiàng)關(guān)鍵技術(shù)是英漢互譯。

三個(gè)庫更新到了最新版本---Transformers, BERTopic和Gensim

不得已而為之---CPU下使用gpt2-large模型進(jìn)行微調(diào)訓(xùn)練 GeotechSet數(shù)據(jù)集在GPT2上的訓(xùn)練過程 3 Bertopic 2021年9月1日, 發(fā)布了bertopic 0.9.1, 主要用它進(jìn)行主題模擬.

BERT模型的應(yīng)用回顧(階段性總結(jié))

在用GeotechSet數(shù)據(jù)集的測(cè)試中，發(fā)現(xiàn)DBMC得出的結(jié)果比Doc2Vec的結(jié)果好。BERTopic默認(rèn)的數(shù)據(jù)集是paraphrase-MiniLM-L6-v2。

不得已而為之---CPU下使用gpt2-large模型進(jìn)行微調(diào)訓(xùn)練

1 引言在之前的《GeotechSet模型的擴(kuò)展和優(yōu)化---集成了aitextgen》中訓(xùn)練出GeotechSet，使用的是GPT2預(yù)訓(xùn)練模型，由于機(jī)器只有6G GPU的限制，不能使用GPT2-Large。為了能使用這個(gè)模型，改用了CPU進(jìn)行訓(xùn)練。這個(gè)筆記簡要記錄了改進(jìn)的過程。

自回歸式語言XLNet模型的文本生成試驗(yàn)

從理論上來說，我們可以使用目前的方法訓(xùn)練出基于GeotechSet的模型。