發布

GeotechSet數據集

關注

創建者：匿名創建時間：2021-07-28

GeotechSet數據集的實例教程

GeotechSet數據集主題模擬(Topic Modeling)

對于GeotechSet數據集(目前尺寸153M)，運行時間仍然是一個挑戰，按照主題細分為小的數據集從時間和質量控制來說更有效。BTW，Transformers今天更新到V4.9.2.

一種快速在GeotechSet數據集內查詢相似段落的方法

結果顯示在GeotechSet數據集內共有87篇論文或段落, 基本上覆蓋了這個分支研究領域的所有結果。 4 結束語本文描述了一個在GeotechSet數據內快速聚合相關段落的算法。聚合出來的內容一方面可以用來深入了解查詢主題的研究進展，另一方面也可以直接把結果文件作為機器學習的輸入數據，例如回答問題(閱讀理解回答問題(Question Answering)---一個更強的BERT預訓練模型)，文本續寫(開放式文本生成(Open-Ended Text Generation))和文章總結(生成摘要(Summarization)的新方法)等。

GeotechSet數據集在GPT2上的訓練過程

5 結束語本文在有限的條件下使用GPT2在小的GeotechSet數據集上進行了訓練，得出了我們自己的geotech數據模型。今后逐漸加大輸入數據，使模型進化得更為完善。

BERT模型的應用回顧(階段性總結)

在用GeotechSet數據集的測試中，發現DBMC得出的結果比Doc2Vec的結果好。BERTopic默認的數據集是paraphrase-MiniLM-L6-v2。程序為 geotech-top2vec-sentences.py，代表性例子： Top2Vec (V1.0.26)主題模擬代碼的改進主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例 GeotechSet數據集主題模擬(Topic Modeling) (3) sentence-transformers---SBERT使用sklearn的聚類算法也能產生主題模擬，程序為geotech-st-cluster.py，代表性例子: 使用Transformers確定句子之間的相似度 3 問題對答問題對答是信息檢索和自然語言處理中的一項任務, 也是NLP中最難處理的一項內容, 該任務要求系統正確回答以人類自然語言提出的問題。在提取性問題解答方案中，通過提供一段文字，使用模型根據上下文來預測答案在段落中的位置。這是一項非常具有挑戰性的任務。在這個任務中，主要使用了三個數據集: 第一個數據集是mrm8488/bert-multi-cased-finetuned-xquadv1. 這個數據集是一個多語言預訓練模型，由Google創建，并在XQuAD之類的數據上進行了微調，用于多語言(11種不同的語言)的問答任務。由于數據集基于SQuAD v1.1(SQuAD數據集包含大約15萬個問題)，所以數據中沒有無法回答的問題, 以便模型可以專注于跨語言的轉移。

展開

語義相關的Doc2Vec模型訓練參數優化

2 數據集 現代自然語言處理都使用了大規模開放的預訓練集，如Gensim, Spacy, Transformers, PyTorch, Tensorflow等，而我們為了保持本專業高度的集成性，采用了封閉的GeotechSet數據集，這個數據集只包括巖土工程領域的數據，GeotechSet是一個動態的數據集，由于不斷完善數據質量和增加新的數據，因此產生的結果隨著時間在不斷變化。 3 訓練時間數據量越大，參數設置越精細，模型的訓練時間越長。目前GeotechSet的數據集為148M, 與所有其他預訓練模型相比，這個數據量還是很小的，但即便如此，訓練時間仍然用了42分鐘。訓練的機器配置CPU Inter(R) Core i7-10700 CPU @2.9GHz，16核，內存32G。 import multiprocessingcores = multiprocessing.cpu_count() 模型參數如下： model = Doc2Vec(dm=0, dbow_words=1, vector_size=200, window=8, min_count=10, epochs=20, workers=cores) epochs顯著地影響了訓練時間，大多數的出版物使用10~20, 當設置epochs=20時，訓練時間變為25分鐘；當設置epochs=10時，訓練時間變為16分鐘。下面以關鍵詞UDEC為例，比較epochs為20和10時的結果。

展開

GeotechSet數據集的相關專題、標簽、搜索

GeotechSet數據集數據集服務 GeotechSet 工程車車牌數據集自動駕駛感知數據集 GeotechSet模型 geotechset數據集數據集腐蝕數據集故障數據集壓裂數據集開源數據集

GeotechSet數據集的最新內容

使用非排干脆性指數粗略估算靜態液化(undrained brittleness index)

5 參考下面的參考論文來自于GeotechSet數據集，不一定覆蓋了所有的相關文獻。

各向異性巖體邊坡的三維穩定性(Anisotropic Rock Masses)

下面列出了GeotechSet數據集內的相關文獻： [1] Pit Slope Design in Pilbara Iron Deposits – Deposit A West Angelas, Western Australia [2] Limit Equilibrium Analysis of a Planar Sliding Example in the Pilbara Region

一個新的巖土工程數據集SSGeotech

與先前發展的GeotechSet數據集不同，SSGeotech的全部數據來自于Semantic Scholar, 通俗點兒來說，SSGeotech自動采集Semantic Scholar的巖土工程數據。SSGeotech的特點如下： (1) 全英文論文，去掉了所有非英文字符； (2) 每篇論文只包含論文題目和摘要，不包含其它信息； (3) 每天在不斷擴充。

利用主題聚類(Cluster)產生新的數據集--模型和代碼改進

1 引言產生新的數據集有三種方法：(1) 根據關鍵詞手工聚合；(2) 使用geotech-flashtext-passages.py自動聚合(一種快速在GeotechSet數據集內查詢相似段落的方法)；(3) 使用geotech-st-cluster.py主題聚合。其中(3)既快速又準確，是目前努力發展的一種數據集產生方法。

Bilingual Learning---巖石邊坡工程雙語教學的構想: 方法論和技術

Erik Eberhardt為UBC采礦工程專業講授巖石工程的課件 [7] GeotechSet數據集 3 雙語教學的方法論有別于傳統的雙語教學模式，這個改進的雙語教學模式把深度學習(Deep Learning)技術嵌入到雙語教學中。在這個雙語教學設計中，利用了目前最先進的(State-of-the-Art)的深度學習技術來進行主題聚合，文本總結，語義相似和中英互譯。

不得已而為之---CPU下使用gpt2-large模型進行微調訓練 GeotechSet數據集在GPT2上的訓練過程 3 Bertopic 2021年9月1日, 發布了bertopic 0.9.1, 主要用它進行主題模擬.

BERT模型的應用回顧(階段性總結)

在用GeotechSet數據集的測試中，發現DBMC得出的結果比Doc2Vec的結果好。BERTopic默認的數據集是paraphrase-MiniLM-L6-v2。

自回歸式語言XLNet模型的文本生成試驗

使用不同的解碼策略，目前產生出許多用于自回歸語言生成的模型，最流行的模型有GPT2, XLNet, OpenAi-GPT, CTRL, TransfoXL, XLM, Bart和T5，對GPT2模型我們已經作了很多探索性的工作： GeotechSet數據集在GPT2上的訓練過程 GPT2-Large模型解碼方法比較 GPT2-Large模型解碼方法---Top-K and Top-p

巖石邊坡工程大數據處理---階段性總結(R1)

3.4 訓練自己的模型這是本項研究最激動人心的部分，基于GPT-2的預訓練集，我們已經產生出一個微調的GeotechSet數據集，能夠應用在巖土工程領域特別是巖石邊坡工程領域中。 4 結束語這個筆記簡要描述了巖石邊坡工程大數據處理目前所作的工作，這也是階段研究報告的基本框架。目前正在修改與完善之中，最終稿爭取控制在150頁以內。

零點文本分類(Zero Shot Text Classification)

主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例 BERTopic(V0.9.0)主題模擬技術 GeotechSet數據集主題模擬(Topic Modeling) Top2Vec (V1.0.26)主題模擬代碼的改進 LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例

不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

GeotechSet數據集

GeotechSet數據集的實例教程

GeotechSet數據集的相關專題、標簽、搜索

GeotechSet數據集的最新內容