
發布
注冊
/
登錄GeotechSet數據集的案例
GeotechSet數據集主題模擬(Topic Modeling)
對于GeotechSet數據集(目前尺寸153M),運行時間仍然是一個挑戰,按照主題細分為小的數據集從時間和質量控制來說更有效。BTW,Transformers今天更新到V4.9.2.
一種快速在GeotechSet數據集內查詢相似段落的方法
結果顯示在GeotechSet數據集內共有87篇論文或段落, 基本上覆蓋了這個分支研究領域的所有結果。
4 結束語
本文描述了一個在GeotechSet數據內快速聚合相關段落的算法。聚合出來的內容一方面可以用來深入了解查詢主題的研究進展,另一方面也可以直接把結果文件作為機器學習的輸入數據,例如回答問題(閱讀理解回答問題(Question Answering)---一個更強的BERT預訓練模型),文本續寫(開放式文本生成(Open-Ended Text Generation))和文章總結(生成摘要(Summarization)的新方法)等。
GeotechSet數據集在GPT2上的訓練過程
5 結束語
本文在有限的條件下使用GPT2在小的GeotechSet數據集上進行了訓練,得出了我們自己的geotech數據模型。今后逐漸加大輸入數據,使模型進化得更為完善。
BERT模型的應用回顧(階段性總結)
在用GeotechSet數據集的測試中,發現DBMC得出的結果比Doc2Vec的結果好。BERTopic默認的數據集是paraphrase-MiniLM-L6-v2。程序為 geotech-top2vec-sentences.py,代表性例子:
Top2Vec (V1.0.26)主題模擬代碼的改進
主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例
GeotechSet數據集主題模擬(Topic Modeling)
(3) sentence-transformers---SBERT使用sklearn的聚類算法也能產生主題模擬,程序為geotech-st-cluster.py,代表性例子:
使用Transformers確定句子之間的相似度
3 問題對答
問題對答是信息檢索和自然語言處理中的一項任務, 也是NLP中最難處理的一項內容, 該任務要求系統正確回答以人類自然語言提出的問題。在提取性問題解答方案中,通過提供一段文字,使用模型根據上下文來預測答案在段落中的位置。這是一項非常具有挑戰性的任務。在這個任務中,主要使用了三個數據集: 第一個數據集是mrm8488/bert-multi-cased-finetuned-xquadv1. 這個數據集是一個多語言預訓練模型,由Google創建,并在XQuAD之類的數據上進行了微調,用于多語言(11種不同的語言)的問答任務。由于數據集基于SQuAD v1.1(SQuAD數據集包含大約15萬個問題),所以數據中沒有無法回答的問題, 以便模型可以專注于跨語言的轉移。
展開 
語義相關的Doc2Vec模型訓練參數優化
2 數據集
現代自然語言處理都使用了大規模開放的預訓練集,如Gensim, Spacy, Transformers, PyTorch, Tensorflow等,而我們為了保持本專業高度的集成性,采用了封閉的GeotechSet數據集,這個數據集只包括巖土工程領域的數據,GeotechSet是一個動態的數據集,由于不斷完善數據質量和增加新的數據,因此產生的結果隨著時間在不斷變化。
3 訓練時間
數據量越大,參數設置越精細,模型的訓練時間越長。目前GeotechSet的數據集為148M, 與所有其他預訓練模型相比,這個數據量還是很小的,但即便如此,訓練時間仍然用了42分鐘。訓練的機器配置CPU Inter(R) Core i7-10700 CPU @2.9GHz,16核,內存32G。
import multiprocessingcores = multiprocessing.cpu_count()
模型參數如下:
model = Doc2Vec(dm=0, dbow_words=1, vector_size=200, window=8, min_count=10, epochs=20, workers=cores)
epochs顯著地影響了訓練時間,大多數的出版物使用10~20, 當設置epochs=20時,訓練時間變為25分鐘;當設置epochs=10時,訓練時間變為16分鐘。下面以關鍵詞UDEC為例,比較epochs為20和10時的結果。
展開 三個庫更新到了最新版本---Transformers, BERTopic和Gensim
不得已而為之---CPU下使用gpt2-large模型進行微調訓練
GeotechSet數據集在GPT2上的訓練過程
3 Bertopic
2021年9月1日, 發布了bertopic 0.9.1, 主要用它進行主題模擬.
BERTopic(V0.9.0)主題模擬技術
4 Gensim
2021年8月30日, 發布了gensim 4.1.0, 主要使用它的Word2Vec功能;
語義相似模型(Doc2Vec)在雙語教學中的應用
5 Spacy
2021年8月20日, 發布了spacy 3.1.2, 主要使用基于這個庫的sense2Vec和pytextrank.
sense2vec---基于語境的詞向量(Contextually-keyed word vectors)
PyTextRank---文本關鍵字(keywords)的自動取出
展開 主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例
1 引言
如前所說(GeotechSet數據集主題模擬(Topic Modeling); LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例), 主題模擬是一種從大量非結構化文本中提取隱藏主題的技術, 主要挑戰是如何從大量文本中提取出清晰、分離而且有意義的高質量主題,這在很大程度上取決于文本預處理的質量和尋找最佳主題數量的策略,因此主題模擬在很大程度上是一門藝術。本文使用了一種多階段的主題模擬技術分離出高質量的主題,并通過詞匯云加以展示。
2 限定范圍
從原始的數據集GeotechSet中提取主題不是一個很好的策略。一方面原始數據集太大,運行時間太長;另一方面分離出的主題太多導致主題過于離散。因此第一步需要縮小主題的范圍。在本文中,我們考慮主題"Step-Path Failure", 首先使用代碼geotech-flashtext-passages.py從抽取出所有包含這個短語的段落,得到輸入文件input.txt(715k). 以這個文件作為基礎進行主題模擬。
3 主題模擬
在得到范圍縮小的數據集后,開始進行主題模擬。使用的模型是distiluse-base-multilingual-cased,這是一個多語言的BERT模型,測試結果表明,這個模型比Doc2Vec模型得出的結果好。就像我們預期的一樣,由于數據已經相對集中,因此這個縮小的數據集僅得出2個主題。
(1) 第一個主題
第一個主題的詞匯云圖如上所示。從這個圖中可以看出主題的重要性等級,rockslides和fracture位于第一層次;instability,bridges,cement位于第二層次。
展開 利用主題聚類(Cluster)產生新的數據集--模型和代碼改進
1 引言
產生新的數據集有三種方法:(1) 根據關鍵詞手工聚合;(2) 使用geotech-flashtext-passages.py自動聚合(一種快速在GeotechSet數據集內查詢相似段落的方法);(3) 使用geotech-st-cluster.py主題聚合。其中(3)既快速又準確,是目前努力發展的一種數據集產生方法。這個筆記簡要描述了這種方法最新改進的經歷。
2 代碼改進
geotech-st-cluster.py代碼使用了《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》引入的KMeans聚類方法,最初使用的模型是roberta-large-nli-stsb-mean-tokens,在最新的一次試驗中,21M的數據文件聚類30個主題共用了大約30分鐘。另一方面已經注意到,下面三個模型由于產生的句子嵌入質量低已經被廢棄:
(1) roberta-large-nli-stsb-mean-tokens
(2) bert-base-nli-mean-tokens
(3) distilbert-base-nli-stsb-mean-tokens
在今后的工作中將不再使用這三個模型。現在改用paraphrase-mpnet-base-v2模型,效果確實比前者要好。這個模型將句子和段落映射到768維的密集向量空間,可用于聚類或語義搜索等任務。
展開 巖石邊坡工程的數據挖掘(Data Mining)
1 引言
在過去一年里,斷續地做了一些巖石邊坡工程數據挖掘方面的工作,部分內容零散地分布在本公眾號內。本筆記首先描述了這個工作的整體框架和思路,其次對這些內容進行了分類。
2 整體框架
整個工作是基于GeotechSet數據集完成的。簡言之,GeotechSet是一個不斷進化的巖土工程文獻數據庫,包括巖石力學和土力學兩部分,其中大部分內容與我自己的工作相關,包括論文,研究報告,課程講稿及軟件等。不過,目前所作的這個數據挖掘側重于巖石邊坡工程。一個繼承的概念性結構如下圖所示。
主要處理離散斷裂網絡DFN, 合成巖體SRM和巖橋Rock Bridge這三個核心關鍵詞。數據挖掘的主要內容包括:相似性查詢;摘要和關鍵字取出;主題聚合;產生新的句子四部分。
3 相似性查詢
相似性查詢是數據挖掘的主要組成部分,主要使用的算法有:Doc2Vec, LSI, Flashtext和Transformer:
Doc2Vec Model---段落相似性查詢
語義相似模型(Doc2Vec)在雙語教學中的應用
使用WMD Similarity確定句子之間的相似度
使用Transformers確定句子之間的相似度
SentenceTransformers庫更新V2.0.0
聯合6種Transformers預訓練模型
一個快速的句子和段落相似查詢方法
通過Euclidean距離計算向量值來對句子相似度排序
基于文檔名稱的相似度查詢
4 摘要和關鍵字
摘要和關鍵字抽出主要使用了兩個算法:sumy和pyTextRank.
展開 機械式穩定土墻MSEW(Mechanically Stabilized Earth Retaining Walls)數據集
1 引言
由于看近期一個工程事故涉及到機械式穩定土墻MSEW, 因此花了幾個小時回顧了GeotechSet數據集, 產生出兩個新的數據集:
(1) mechanically stabilized earth retaining walls
(2) Mechanically Stabilized Earth Walls
大多數文獻稱作Mechanically Stabilized Earth Walls, 簡稱MSEW. 在目前回顧的文獻中, 下面這些文檔對此作了較為詳細的解釋:
(1) WisDOT Bridge Manual Chapter 14 – Retaining Walls [258p.]
(2) Braja M. Das (2007) Fundamentals of Geotechnical Engineering. THIRD EDITION. 637p.
(3) Murthy V.N.S (1996) Geotechnical Engineering: Principles and Practices of Soil Mechanics and Foundation Engineering tting a major. [1048p.]
2 MSEW分析與設計
MSEW的分析和設計可以使用ADAMA Engineering Inc. 編制的MSEW(3.0) 軟件. MSEW(3.0) 遵循著美國高速公路設計規范, 例如AASHTO98, AASHTO02/FHWA-NHI-00-043, AASHTO 2007-2010, or NCMA97/98等. 如果需要進行復雜的應力和應變分析, FLAC/FLAC3D的結構元提供了更強大的計算功能, 特別能夠處理Geotextile和Geogrids單元.
展開 一個新的巖土工程數據集SSGeotech
1 引言
基于最近的工作:《從Semantic Scholar批量獲得最新巖土工程文獻》和《參數化檢測Semantic Scholar巖土工程文獻數量》,一個新的巖土工程數據集SSGeotech正式建立起來了。與先前發展的GeotechSet數據集不同,SSGeotech的全部數據來自于Semantic Scholar, 通俗點兒來說,SSGeotech自動采集Semantic Scholar的巖土工程數據。SSGeotech的特點如下:
(1) 全英文論文,去掉了所有非英文字符;
(2) 每篇論文只包含論文題目和摘要,不包含其它信息;
(3) 每天在不斷擴充。
2 數據格式
由于發展這個數據集的目的是為了進行機器學習,因此數據格式沒有使用Json,而是使用普通的文本格式txt, 具體地,每篇論文由一行組成:論文題目---摘要,論文與摘要之間用---連接。如果一篇論文沒有摘要,那么只顯示論文題目,這個在代碼中能夠自動處理。例如:
Measurement of local stress and estimation of regional stress associated with stability assessment of an open-pit rock slope---This paper discusses the concept of a new methodology for rock slope stability assessment.
展開 
巖石邊坡工程大數據處理---階段性總結(R1)
3.4 訓練自己的模型
這是本項研究最激動人心的部分,基于GPT-2的預訓練集,我們已經產生出一個微調的GeotechSet數據集,能夠應用在巖土工程領域特別是巖石邊坡工程領域中。
4 結束語
這個筆記簡要描述了巖石邊坡工程大數據處理目前所作的工作,這也是階段研究報告的基本框架。目前正在修改與完善之中,最終稿爭取控制在150頁以內。
巖石錨桿支護(Rock Bolting/bolt Support)數據優化
1 引言
由于Gensim在上個星期升級到版本4.0.1, 因此需對代碼進行重新測試, 已經發現部分代碼受到影響, 這個筆記對geotech-words-flashtext-combination進行了測試, 使用了關鍵詞"Rock Bolting/bolt Support", 同時對GeotechSet數據集進行了整體優化.
巖石錨桿錨固節理化巖體---楔形效應的數值模擬(UDEC)
錨桿長度(Bolt length)的經驗確定方法
全長粘結錨桿數值模型(fully grouted cable bolts)
巖石錨桿(Rockbolts)文獻聚合
錨桿加固全飽和斷裂多孔介質的數值過程 [11/5/2020]
巖石錨桿錨固節理化巖體產生的楔形效應
巖石錨桿和錨索(Rockbolts and Cables)
巖石錨固的機理(Physical Mechanisms of Rock Bolting)
巷道圍巖塑性區的確定
2 數據集優化
優化后的數據保存在
{3DEC},
{Cable Bolting},
{Rock Slope},
{Rock bolting},
{fully grouted bolts},
{Engineering rock mass classification}
以及目錄X:\Geotech\Rock Mechanics\rockbolting中.
3 文獻聚合
[1] Ground Support Using Cable Bolts in Hard Rock Underground Mines.
展開 COMSOL Multiphysics的巖土力學模塊(Geomechanics Module)
根據調查,GeotechSet數據集內僅包括了不到10篇相關文獻。本筆記簡述了Comsol的巖土力學模塊。
2 Comsol巖土力學模塊
Comsol的巖土力學模塊(Geomechanics Module)是結構力學模塊的附加模塊,如下圖所示。在軟件安裝時可以選擇該模塊,其中提供的工具將結構力學模塊擴展到巖土工程的定量研究,可以進行巖石力學和土力學的單一物理場和多物理場模擬,如隧道,開挖,邊坡穩定性及擋土結構,可以使用許多非線性巖土力學材料模型來研究土和巖石的變形,塑性,蠕變和破壞,以及它們與樁,支撐結構和其它人工結構的相互作用。這個模塊包含了廣泛的材料模型:
(1) 土力學模型:Drucker-Prager;Mohr-Coulomb; Modified Cam-Clay model; Hardening Soil model. 為了與FLAC的本構模型比較,可參考下述鏈接:
IMASS---FLAC3D和3DEC新的本構模型(2)
FLAC2D---過去,現在和將來
FLAC3D 7.0 新特性簡介(P3)---新的本構模型
(2) 用戶自定義的塑性、流動規則和硬化模型。
展開 使用非排干脆性指數粗略估算靜態液化(undrained brittleness index)
5 參考
下面的參考論文來自于GeotechSet數據集,不一定覆蓋了所有的相關文獻。