不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

巖石邊坡工程大數(shù)據(jù)處理---階段性總結(jié)(R1)

計算巖土力學

2021年8月26日 10:04

瀏覽：2313

1 引言

馬上就要開學了，需要投入新的任務(wù)，因此巖石邊坡大數(shù)據(jù)處理工作暫時告一段落，為此作一個階段性總結(jié)。這項研究的核心內(nèi)容是運用先進的自然語言處理技術(shù)來處理巖石邊坡工程文獻，其最終目的主要有兩個：一個是從大數(shù)據(jù)挖掘中產(chǎn)生新的概念，主題以及論文的自動生成；另一個是改進和輔助雙語教學。這個研究報告由兩大部分組成，第一部分描述了數(shù)據(jù)集的建立，第二部分討論了數(shù)據(jù)處理使用的工具和技術(shù)。

2 數(shù)據(jù)集建立

整個數(shù)據(jù)集按照巖石邊坡工程的核心主題劃分為如下子集：

(1) 巖石強度和變形；

(2) 離散斷裂網(wǎng)絡(luò)和巖橋;

(3) 工程巖體分類;

(4) 邊坡穩(wěn)定性分析;

(5) 巖石錨桿;

(6) 地表沉降;

(7) Itasca軟件模擬;

(8) 其它軟件模擬；(Plaxis, Rocscience，Abaqus)

(9) 場地安全地震評價;

(10) 邊坡工程實例;

(11) 大型露天礦，包括Chuquicamata, Bingham Canyon, Palabora, Diavik

3 數(shù)據(jù)處理

這一部分主要是通過一系列代碼處理上述發(fā)展的數(shù)據(jù)集。

3.1 運行環(huán)境

由于在本項目中使用了多種庫，因此針對不同的庫設(shè)置了不同的虛擬環(huán)境，主要包括: (1) base(root); (2) Spacy; (3) Bertopic; (4) Tensorflow; (5) Flair; (6) Transformers

巖石邊坡工程大數(shù)據(jù)處理---階段性總結(jié)(R1)的圖1

3.2 主題模擬和相似性查詢

使用聯(lián)合的方法進行主題模擬和相似性查詢，主要包括:

(1) geotech-flashtext-passages.py 根據(jù)不同的短語組合，聚合出相應的段落；geotech-flashtext-words-combination.py是一個變體，把整個文檔劃分為單句進行聚合，使用了C(n,3)的組合算法；

(2) geotech-PyTextRank-keywords-summarization.py 自動提取文檔中的關(guān)鍵短語并進行排序，同時進行文檔總結(jié)；

(3) geotech-doc2vec-documents-similarity.py 從文檔中產(chǎn)生相似性段落，提取語義相關(guān)的短語, 使用LDA算法進行主題聚合；

(4) geotech-markovify-text-generation.py 使用馬爾可夫鏈算法生成新的句子;

(5) geotech-bertopic-topic-modeling.py 使用Transformers算法聚合主題;

(6) geotech-top2vec-sentences.py 使用Transformers算法聚合主題;

(7) geotech-sklearn-similarity-query.py 使用sklearn算法進行句子的相似性查詢;

(8) geotech-st-similarity.py 使用SentenceTransformers進行相似性查詢；

(9) geotech-st-lexrank-summarization.py 使用SentenceTransformers抽取摘要；

(10) geotech-tensorflow-use.py 用來進行相似性查詢；

3.3 先進的自然語言處理

主要包括回答問題，機器翻譯，生成抽象式摘要，完形填空，文章產(chǎn)生，零點文本分類等。這部分內(nèi)容偏多，討論的都是些自然語言處理中最前沿的問題以及在本項目中的應用，待以后補充。

3.4 訓練自己的模型

這是本項研究最激動人心的部分，基于GPT-2的預訓練集，我們已經(jīng)產(chǎn)生出一個微調(diào)的GeotechSet數(shù)據(jù)集，能夠應用在巖土工程領(lǐng)域特別是巖石邊坡工程領(lǐng)域中。

4 結(jié)束語

這個筆記簡要描述了巖石邊坡工程大數(shù)據(jù)處理目前所作的工作，這也是階段研究報告的基本框架。目前正在修改與完善之中，最終稿爭取控制在150頁以內(nèi)。

登錄后免費查看全文

立即登錄

App下載

技術(shù)鄰APP
工程師必備

項目客服
培訓客服
平臺客服

TOP

<td id="tayte"></td>