巖石邊坡工程大數(shù)據(jù)處理---階段性總結(jié)(R1)
1 引言
馬上就要開學了,需要投入新的任務(wù),因此巖石邊坡大數(shù)據(jù)處理工作暫時告一段落,為此作一個階段性總結(jié)。這項研究的核心內(nèi)容是運用先進的自然語言處理技術(shù)來處理巖石邊坡工程文獻,其最終目的主要有兩個:一個是從大數(shù)據(jù)挖掘中產(chǎn)生新的概念,主題以及論文的自動生成;另一個是改進和輔助雙語教學。這個研究報告由兩大部分組成,第一部分描述了數(shù)據(jù)集的建立,第二部分討論了數(shù)據(jù)處理使用的工具和技術(shù)。
2 數(shù)據(jù)集建立
整個數(shù)據(jù)集按照巖石邊坡工程的核心主題劃分為如下子集:
(1) 巖石強度和變形;
(2) 離散斷裂網(wǎng)絡(luò)和巖橋;
(3) 工程巖體分類;
(4) 邊坡穩(wěn)定性分析;
(5) 巖石錨桿;
(6) 地表沉降;
(7) Itasca軟件模擬;
(8) 其它軟件模擬;(Plaxis, Rocscience,Abaqus)
(9) 場地安全地震評價;
(10) 邊坡工程實例;
(11) 大型露天礦,包括Chuquicamata, Bingham Canyon, Palabora, Diavik
3 數(shù)據(jù)處理
這一部分主要是通過一系列代碼處理上述發(fā)展的數(shù)據(jù)集。
3.1 運行環(huán)境
由于在本項目中使用了多種庫,因此針對不同的庫設(shè)置了不同的虛擬環(huán)境,主要包括: (1) base(root); (2) Spacy; (3) Bertopic; (4) Tensorflow; (5) Flair; (6) Transformers
3.2 主題模擬和相似性查詢
使用聯(lián)合的方法進行主題模擬和相似性查詢,主要包括:
(1) geotech-flashtext-passages.py 根據(jù)不同的短語組合,聚合出相應的段落;geotech-flashtext-words-combination.py是一個變體,把整個文檔劃分為單句進行聚合,使用了C(n,3)的組合算法;
(2) geotech-PyTextRank-keywords-summarization.py 自動提取文檔中的關(guān)鍵短語并進行排序,同時進行文檔總結(jié);
(3) geotech-doc2vec-documents-similarity.py 從文檔中產(chǎn)生相似性段落,提取語義相關(guān)的短語, 使用LDA算法進行主題聚合;
(4) geotech-markovify-text-generation.py 使用馬爾可夫鏈算法生成新的句子;
(5) geotech-bertopic-topic-modeling.py 使用Transformers算法聚合主題;
(6) geotech-top2vec-sentences.py 使用Transformers算法聚合主題;
(7) geotech-sklearn-similarity-query.py 使用sklearn算法進行句子的相似性查詢;
(8) geotech-st-similarity.py 使用SentenceTransformers進行相似性查詢;
(9) geotech-st-lexrank-summarization.py 使用SentenceTransformers抽取摘要;
(10) geotech-tensorflow-use.py 用來進行相似性查詢;
3.3 先進的自然語言處理
主要包括回答問題,機器翻譯,生成抽象式摘要,完形填空,文章產(chǎn)生,零點文本分類等。這部分內(nèi)容偏多,討論的都是些自然語言處理中最前沿的問題以及在本項目中的應用,待以后補充。
3.4 訓練自己的模型
這是本項研究最激動人心的部分,基于GPT-2的預訓練集,我們已經(jīng)產(chǎn)生出一個微調(diào)的GeotechSet數(shù)據(jù)集,能夠應用在巖土工程領(lǐng)域特別是巖石邊坡工程領(lǐng)域中。
4 結(jié)束語
這個筆記簡要描述了巖石邊坡工程大數(shù)據(jù)處理目前所作的工作,這也是階段研究報告的基本框架。目前正在修改與完善之中,最終稿爭取控制在150頁以內(nèi)。
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















