巖石邊坡工程的數據挖掘(Data Mining)

1 引言

在過去一年里,斷續地做了一些巖石邊坡工程數據挖掘方面的工作,部分內容零散地分布在本公眾號內。本筆記首先描述了這個工作的整體框架和思路,其次對這些內容進行了分類。


2 整體框架

整個工作是基于GeotechSet數據集完成的。簡言之,GeotechSet是一個不斷進化的巖土工程文獻數據庫,包括巖石力學和土力學兩部分,其中大部分內容與我自己的工作相關,包括論文,研究報告,課程講稿及軟件等。不過,目前所作的這個數據挖掘側重于巖石邊坡工程。一個繼承的概念性結構如下圖所示。

巖石邊坡工程的數據挖掘(Data Mining)的圖1

主要處理離散斷裂網絡DFN, 合成巖體SRM和巖橋Rock Bridge這三個核心關鍵詞。數據挖掘的主要內容包括:相似性查詢;摘要和關鍵字取出;主題聚合;產生新的句子四部分。


3 相似性查詢

相似性查詢是數據挖掘的主要組成部分,主要使用的算法有:Doc2Vec, LSI, Flashtext和Transformer:

Doc2Vec Model---段落相似性查詢

語義相似模型(Doc2Vec)在雙語教學中的應用

使用WMD Similarity確定句子之間的相似度

使用Transformers確定句子之間的相似度

SentenceTransformers庫更新V2.0.0

聯合6種Transformers預訓練模型

一個快速的句子和段落相似查詢方法

通過Euclidean距離計算向量值來對句子相似度排序

基于文檔名稱的相似度查詢


4 摘要和關鍵字

摘要和關鍵字抽出主要使用了兩個算法:sumy和pyTextRank.

文本摘要生成的確定過程和隨機過程

PyTextRank---文本關鍵字(keywords)的自動取出

使用Trigram獲取文檔的中心思想


5 主題聚合

主題聚合使用了兩個算法:LDA和Transformer

LDA Topic Modeling(主題建模)

使用Transformers確定句子之間的相似度


6 生成新的句子

生成新的句子主要使用了馬爾可夫鏈

馬爾可夫鏈(Markov chain)隨機產生新的文檔

利用文本相似度聚類產生能夠再學習的新文檔


7 應用

目前,這個數據挖掘工作主要的應用領域包括雙語教學,產生新的論文主題以及生成論文內容等。

非結構化的文獻快速聚合: Synthetic Rock Mass

公眾號文章的自我聚合: 巖橋(Rock Bridge/Step-Path)

畢業論文查重就是一個坑

巖石邊坡工程大數據系統設計

Data Mining---巖土工程的數據挖掘


登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP

1