GeotechSet數據集主題模擬(Topic Modeling)

1 引言

主題模擬(Topic Modeling)是一種從大量非結構化文本中提取隱藏主題的技術。面臨的挑戰是如何提取出清晰、分離和有意義的高質量主題,這在很大程度上取決于文本預處理的質量和尋找最佳主題數量的策略。Latent Dirichlet Allocation(LDA)是一種流行的主題模擬算法。LDA主題模擬方法的本質是尋找文檔內的關鍵詞分布,通過關鍵詞的聚合確定主題內容,在《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》中我們使用了LdaModel和k-mean算法兩種算法進行了主題模擬。本文在此基礎上討論了主題模擬的最新進展。

GeotechSet數據集主題模擬(Topic Modeling)的圖1

rock slopes toppling failure stability analysis

Stability analysis of steep rock slopes

巖石邊坡穩定性分析方法簡述

Stability Analyses of Jointed Rock Slopes with Counter-tilted Failure

Soil-Rock Slope Stability Analysis by Considering the Nonuniformity of Rocks

intake slope


2 小數據集準備

這個小型的數據集由三部分組成:第一部分選擇了GeotechSet數據集的Rock Mechanics子集,把所有的文檔名稱匯集成一個文件,大約5000個文檔標題;第二部分選擇了本公眾號的大約370篇文章的標題,這部分主要是中文;第三部分選擇了Chuquicamata礦和Palabora礦的一些文檔,總的文件尺寸大約730k。

GeotechSet數據集主題模擬(Topic Modeling)的圖2


3 小數據集模擬

本模擬使用distiluse-base-multilingual-cased嵌入模型

(1) 總共生成了大約100個主題;

(2) 與'discontinuity'最相關的50個詞匯:

'discontinuities', 'discontinuity', 'fracturing', 'discontinuous',  'fractured', 'displacements', 'fractures', 'fracture', 'continuous', 'persistent', 'displacement', 'instability', 'dilation', 'deformation', 'discrete', 'defects', 'fragmentation', 'limitations', 'uncertainty', 'subsidence', 'propagation', 'progressive', 'collapse', 'continuum', 'intensity', 'persistence', 'friction', 'disturbance', 'overburden', 'excavation',       'quantitative', 'stochastic', 'faults', 'flexural', 'finite', 'density', 'seismic', 'failures', 'strain', 'dilution', 'residual', 'dependent', 'intact', 'equilibrium', 'reduction', 'spacing', 'width', 'cracking', 'uniaxial', 'ratio'

GeotechSet數據集主題模擬(Topic Modeling)的圖3

(3) 數據集中最相關的主題文章:

[1] Numerical Simulation of Fractured Rock Mass Behavior- Explicit Modeling of Joints

Numerical modelling of slope uncertainty due to rock mass jointing

[2] Application of the numerical manifold method to model progressive failure in rock slopes

[3] Numerical modelling of brittle fracture and step-path failure- From laboratory to rock slope scale

[4] An investigation into the development of toppling at the edge of fractured rock plateaux using a numerical modelling approach

[5] Modelling progressive failure in fractured rock masses

[6] Numerical modelling of the flexural deformation of foliated rock slopes

[7] An investigation of the development of secondary toppling phenomena at the edges of a fractured rock plateau using a numerical modelling approach

[8] Simulation of Toppling Failure of Rock Slope by Numerical Manifold Method

Numerical modelling of brittle rock failure

GeotechSet數據集主題模擬(Topic Modeling)的圖4

(4) 與'slope'語義相關的詞匯:

slopes, slip, sliding, ramp, landslide, wedge, shear, slide, caving, landslides, overburden, strain, fracturing, srk, barrier, shallow, collapse, toppling, spacing, valley


4 結束語

這個筆記通過一個小的試驗數據集簡要總結了與主題模擬相關的一些工作,包括找出數據集內最top的主題,查詢與主題或關鍵詞相關的句子等。對于GeotechSet數據集(目前尺寸153M),運行時間仍然是一個挑戰,按照主題細分為小的數據集從時間和質量控制來說更有效。BTW,Transformers今天更新到V4.9.2.

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP