巖石邊坡工程大數(shù)據(jù)處理---階段性總結(jié)(R1)

1 引言

馬上就要開學了,需要投入新的任務(wù),因此巖石邊坡大數(shù)據(jù)處理工作暫時告一段落,為此作一個階段性總結(jié)。這項研究的核心內(nèi)容是運用先進的自然語言處理技術(shù)來處理巖石邊坡工程文獻,其最終目的主要有兩個:一個是從大數(shù)據(jù)挖掘中產(chǎn)生新的概念,主題以及論文的自動生成;另一個是改進和輔助雙語教學。這個研究報告由兩大部分組成,第一部分描述了數(shù)據(jù)集的建立,第二部分討論了數(shù)據(jù)處理使用的工具和技術(shù)。


2 數(shù)據(jù)集建立

整個數(shù)據(jù)集按照巖石邊坡工程的核心主題劃分為如下子集:

(1) 巖石強度和變形;

(2) 離散斷裂網(wǎng)絡(luò)和巖橋;

(3) 工程巖體分類;

(4) 邊坡穩(wěn)定性分析;

(5) 巖石錨桿;

(6) 地表沉降;

(7) Itasca軟件模擬;

(8) 其它軟件模擬;(Plaxis, Rocscience,Abaqus)

(9) 場地安全地震評價;

(10) 邊坡工程實例;

(11) 大型露天礦,包括Chuquicamata, Bingham Canyon, Palabora, Diavik


3 數(shù)據(jù)處理

這一部分主要是通過一系列代碼處理上述發(fā)展的數(shù)據(jù)集。

3.1 運行環(huán)境

由于在本項目中使用了多種庫,因此針對不同的庫設(shè)置了不同的虛擬環(huán)境,主要包括: (1) base(root); (2)  Spacy; (3) Bertopic; (4) Tensorflow; (5) Flair; (6) Transformers

巖石邊坡工程大數(shù)據(jù)處理---階段性總結(jié)(R1)的圖1

3.2 主題模擬和相似性查詢

使用聯(lián)合的方法進行主題模擬和相似性查詢,主要包括:

(1) geotech-flashtext-passages.py 根據(jù)不同的短語組合,聚合出相應的段落;geotech-flashtext-words-combination.py是一個變體,把整個文檔劃分為單句進行聚合,使用了C(n,3)的組合算法;

(2) geotech-PyTextRank-keywords-summarization.py 自動提取文檔中的關(guān)鍵短語并進行排序,同時進行文檔總結(jié);

(3) geotech-doc2vec-documents-similarity.py 從文檔中產(chǎn)生相似性段落,提取語義相關(guān)的短語, 使用LDA算法進行主題聚合;

(4)  geotech-markovify-text-generation.py 使用馬爾可夫鏈算法生成新的句子;

(5) geotech-bertopic-topic-modeling.py 使用Transformers算法聚合主題;

(6) geotech-top2vec-sentences.py 使用Transformers算法聚合主題;

(7) geotech-sklearn-similarity-query.py 使用sklearn算法進行句子的相似性查詢;

(8) geotech-st-similarity.py 使用SentenceTransformers進行相似性查詢;

(9) geotech-st-lexrank-summarization.py 使用SentenceTransformers抽取摘要;

(10) geotech-tensorflow-use.py 用來進行相似性查詢;

3.3 先進的自然語言處理

主要包括回答問題,機器翻譯,生成抽象式摘要,完形填空,文章產(chǎn)生,零點文本分類等。這部分內(nèi)容偏多,討論的都是些自然語言處理中最前沿的問題以及在本項目中的應用,待以后補充。

3.4 訓練自己的模型

這是本項研究最激動人心的部分,基于GPT-2的預訓練集,我們已經(jīng)產(chǎn)生出一個微調(diào)的GeotechSet數(shù)據(jù)集,能夠應用在巖土工程領(lǐng)域特別是巖石邊坡工程領(lǐng)域中。


4 結(jié)束語

這個筆記簡要描述了巖石邊坡工程大數(shù)據(jù)處理目前所作的工作,這也是階段研究報告的基本框架。目前正在修改與完善之中,最終稿爭取控制在150頁以內(nèi)。

登錄后免費查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP