主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例
1 引言
如前所說(GeotechSet數據集主題模擬(Topic Modeling); LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例), 主題模擬是一種從大量非結構化文本中提取隱藏主題的技術, 主要挑戰是如何從大量文本中提取出清晰、分離而且有意義的高質量主題,這在很大程度上取決于文本預處理的質量和尋找最佳主題數量的策略,因此主題模擬在很大程度上是一門藝術。本文使用了一種多階段的主題模擬技術分離出高質量的主題,并通過詞匯云加以展示。
2 限定范圍
從原始的數據集GeotechSet中提取主題不是一個很好的策略。一方面原始數據集太大,運行時間太長;另一方面分離出的主題太多導致主題過于離散。因此第一步需要縮小主題的范圍。在本文中,我們考慮主題"Step-Path Failure", 首先使用代碼geotech-flashtext-passages.py從抽取出所有包含這個短語的段落,得到輸入文件input.txt(715k). 以這個文件作為基礎進行主題模擬。
3 主題模擬
在得到范圍縮小的數據集后,開始進行主題模擬。使用的模型是distiluse-base-multilingual-cased,這是一個多語言的BERT模型,測試結果表明,這個模型比Doc2Vec模型得出的結果好。就像我們預期的一樣,由于數據已經相對集中,因此這個縮小的數據集僅得出2個主題。
(1) 第一個主題
第一個主題的詞匯云圖如上所示。從這個圖中可以看出主題的重要性等級,rockslides和fracture位于第一層次;instability,bridges,cement位于第二層次。這個結果顯式地展示出巖石的階梯狀主要應用于滑坡和巖石滾落,巖石斷裂是造成階梯狀破壞和邊坡不穩定的主要成因,泥化影響著巖橋和邊坡穩定。
(2) 第二個主題
第二個主題如下圖所示。由于數據集的范圍作了初步限定,因此第二個主題與第一個主題的差別不大,但還是有所區別。rockslides和rockfall位于第一層次;階梯狀破壞可能主要發生在sandstone和limestone中。
(3) 最小詞頻對結果的影響
最小詞頻min_count對產生的結果有一定影響。最小詞頻是在統計中忽略所有總頻率低于此值的詞。當min_count的值增大(min_count=50)時,結果會發生少許變化。顯然,對于大的數據集,這個值的變化對結果影響不會太大。
3 全局主題
上面的過程把一個數據集分離成不同的主題,如果不區分主題,直接按詞頻進行統計,那么得出的結果如下圖所示。(1) step path; (2) path failure, rock bridge; (3) rock slope; (4) rock mass, failure mode; intact rock model; (5) rock mass, failure mode; joint; (6) brittle fracture.....
4 結束語
主題模擬是一門藝術。首先使用一個擬定的主題從大的數據集中抽取出相關話題,然后進行主題模擬,區分出不同的主題。而全局的基于純詞頻的統計則能給出整體的主題思想。目前這兩種算法已經合并到一個代碼中。
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















