不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

<pre id="2z50u"></pre>

<acronym id="2z50u"></acronym>

<optgroup id="2z50u"><thead id="2z50u"></thead></optgroup>

<li id="2z50u"><legend id="2z50u"></legend></li><style id="2z50u"><blockquote id="2z50u"></blockquote></style>

巖石邊坡工程的數據挖掘(Data Mining)

計算巖土力學

2021年7月19日 11:46

瀏覽：2724 收藏：1

1 引言

在過去一年里，斷續地做了一些巖石邊坡工程數據挖掘方面的工作，部分內容零散地分布在本公眾號內。本筆記首先描述了這個工作的整體框架和思路，其次對這些內容進行了分類。

2 整體框架

整個工作是基于GeotechSet數據集完成的。簡言之，GeotechSet是一個不斷進化的巖土工程文獻數據庫，包括巖石力學和土力學兩部分，其中大部分內容與我自己的工作相關，包括論文，研究報告，課程講稿及軟件等。不過，目前所作的這個數據挖掘側重于巖石邊坡工程。一個繼承的概念性結構如下圖所示。

巖石邊坡工程的數據挖掘(Data Mining)的圖1

主要處理離散斷裂網絡DFN, 合成巖體SRM和巖橋Rock Bridge這三個核心關鍵詞。數據挖掘的主要內容包括：相似性查詢；摘要和關鍵字取出；主題聚合；產生新的句子四部分。

3 相似性查詢

相似性查詢是數據挖掘的主要組成部分，主要使用的算法有：Doc2Vec, LSI, Flashtext和Transformer:

Doc2Vec Model---段落相似性查詢

語義相似模型(Doc2Vec)在雙語教學中的應用

使用WMD Similarity確定句子之間的相似度

使用Transformers確定句子之間的相似度

SentenceTransformers庫更新V2.0.0

聯合6種Transformers預訓練模型

一個快速的句子和段落相似查詢方法

通過Euclidean距離計算向量值來對句子相似度排序

基于文檔名稱的相似度查詢

4 摘要和關鍵字

摘要和關鍵字抽出主要使用了兩個算法：sumy和pyTextRank.

文本摘要生成的確定過程和隨機過程

PyTextRank---文本關鍵字(keywords)的自動取出

使用Trigram獲取文檔的中心思想

5 主題聚合

主題聚合使用了兩個算法：LDA和Transformer

LDA Topic Modeling(主題建模)

使用Transformers確定句子之間的相似度

6 生成新的句子

生成新的句子主要使用了馬爾可夫鏈

馬爾可夫鏈(Markov chain)隨機產生新的文檔

利用文本相似度聚類產生能夠再學習的新文檔

7 應用

目前，這個數據挖掘工作主要的應用領域包括雙語教學，產生新的論文主題以及生成論文內容等。

非結構化的文獻快速聚合: Synthetic Rock Mass

公眾號文章的自我聚合: 巖橋(Rock Bridge/Step-Path)

畢業論文查重就是一個坑

巖石邊坡工程大數據系統設計

Data Mining---巖土工程的數據挖掘

登錄后免費查看全文

立即登錄

App下載

技術鄰APP
工程師必備

項目客服
培訓客服
平臺客服

TOP

<li id="kplkp"><legend id="kplkp"></legend></li>

<rt id="kplkp"><noframes id="kplkp"><pre id="kplkp"></pre>