利用主題聚類(Cluster)產生新的數據集--模型和代碼改進
1 引言
產生新的數據集有三種方法:(1) 根據關鍵詞手工聚合;(2) 使用geotech-flashtext-passages.py自動聚合(一種快速在GeotechSet數據集內查詢相似段落的方法);(3) 使用geotech-st-cluster.py主題聚合。其中(3)既快速又準確,是目前努力發展的一種數據集產生方法。這個筆記簡要描述了這種方法最新改進的經歷。
2 代碼改進
geotech-st-cluster.py代碼使用了《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》引入的KMeans聚類方法,最初使用的模型是roberta-large-nli-stsb-mean-tokens,在最新的一次試驗中,21M的數據文件聚類30個主題共用了大約30分鐘。另一方面已經注意到,下面三個模型由于產生的句子嵌入質量低已經被廢棄:
(1) roberta-large-nli-stsb-mean-tokens
(2) bert-base-nli-mean-tokens
(3) distilbert-base-nli-stsb-mean-tokens
在今后的工作中將不再使用這三個模型。現在改用paraphrase-mpnet-base-v2模型,效果確實比前者要好。這個模型將句子和段落映射到768維的密集向量空間,可用于聚類或語義搜索等任務。最新的改進使用了下面的Top 3模型:
(1) paraphrase-xlm-r-multilingual-v1
(2) paraphrase-mpnet-base-v2
(3) paraphrase-TinyBERT-L6-v2
其它模型的比較如下所示:
geotech-st-cluster.py的另一個變化是結果由原來的屏幕輸出改到文件保存,方便查看和編輯。
3 新產生的數據集
使用上述改進代碼,新產生和改進的數據集如下:
Colorado Rockfall Simulation Program (巖石崩落分析(Analysis of Rockfall)方法簡述)
Types of Slope Failure (巖土邊坡的破壞類型(C3)(Failure types of slope))
rockfall simulation (巖崩運動規律(Typical Rockfall Process))
surface subsidence prediction (崩落采礦誘發地表沉降預測的經驗方法(Caving Angle))
Particle Flow Code (生成復雜顆粒形狀的三種方法)
synthetic rock mass (合成巖體模擬[Synthetic Rock Mass (SRM) modeling])
en-echelon (巖石破壞路徑的搜索算法)
Effects of sample size (代表性元素體積REV (Representative Elemental Volume))
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















