
發布
注冊
/
登錄主題模擬
關注創建者:匿名 創建時間:2021-08-11

主題模擬的實例教程
1 引言
主題模擬(Topic Modeling)是一種從大量非結構化文本中提取隱藏主題的技術。面臨的挑戰是如何提取出清晰、分離和有意義的高質量主題,這在很大程度上取決于文本預處理的質量和尋找最佳主題數量的策略。Latent Dirichlet Allocation(LDA)是一種流行的主題模擬算法。LDA主題模擬方法的本質是尋找文檔內的關鍵詞分布,通過關鍵詞的聚合確定主題內容,在《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》中我們使用了LdaModel和k-mean算法兩種算法進行了主題模擬。本文在此基礎上討論了主題模擬的最新進展。
rock slopes toppling failure stability analysis
Stability analysis of steep rock slopes
巖石邊坡穩定性分析方法簡述
Stability Analyses of Jointed Rock Slopes with Counter-tilted Failure
Soil-Rock Slope Stability Analysis by Considering the Nonuniformity of Rocks
intake slope
2 小數據集準備
這個小型的數據集由三部分組成:第一部分選擇了GeotechSet數據集的Rock Mechanics子集,把所有的文檔名稱匯集成一個文件,大約5000個文檔標題;第二部分選擇了本公眾號的大約370篇文章的標題,這部分主要是中文;第三部分選擇了Chuquicamata礦和Palabora礦的一些文檔,總的文件尺寸大約730k。
展開 1 引言
如前所說(GeotechSet數據集主題模擬(Topic Modeling); LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例), 主題模擬是一種從大量非結構化文本中提取隱藏主題的技術, 主要挑戰是如何從大量文本中提取出清晰、分離而且有意義的高質量主題,這在很大程度上取決于文本預處理的質量和尋找最佳主題數量的策略,因此主題模擬在很大程度上是一門藝術。本文使用了一種多階段的主題模擬技術分離出高質量的主題,并通過詞匯云加以展示。
2 限定范圍
從原始的數據集GeotechSet中提取主題不是一個很好的策略。一方面原始數據集太大,運行時間太長;另一方面分離出的主題太多導致主題過于離散。因此第一步需要縮小主題的范圍。在本文中,我們考慮主題"Step-Path Failure", 首先使用代碼geotech-flashtext-passages.py從抽取出所有包含這個短語的段落,得到輸入文件input.txt(715k). 以這個文件作為基礎進行主題模擬。
3 主題模擬
在得到范圍縮小的數據集后,開始進行主題模擬。使用的模型是distiluse-base-multilingual-cased,這是一個多語言的BERT模型,測試結果表明,這個模型比Doc2Vec模型得出的結果好。就像我們預期的一樣,由于數據已經相對集中,因此這個縮小的數據集僅得出2個主題。
(1) 第一個主題
第一個主題的詞匯云圖如上所示。從這個圖中可以看出主題的重要性等級,rockslides和fracture位于第一層次;instability,bridges,cement位于第二層次。
展開 (3) 創建主題表征(Create topic representation)
用c-TF-IDF提取和減少主題; 提高具有最大邊際相關性的詞匯的連貫性.
4 產生主題
為了便于比較,使用《主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例》中的數據集,這是一個基于關鍵詞step-path failure的數據集,在那篇筆記中,采用Top2Vec庫進行了主題模擬,結果產生出兩個非常近似的主題, 其中最核心的關鍵詞是rockslides和fracture。
BERTopic默認的模型是paraphrase-MiniLM-L6-v2, 以前曾經使用過這個模型(聯合6種Transformers預訓練模型). 同樣的數據使用BERTopic產生出如下19個主題。
展開 1 引言
在目前的工作中,使用了三種主題模擬技術:(1) LDA(LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例); (2) BERTopic(BERTopic(V0.9.0)主題模擬技術); 以及(3)Top2Vec(GeotechSet數據集主題模擬(Topic Modeling); 主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例). 第一種技術由于性能較差逐漸被淘汰,因此著重點主要放在第二種和第三種技術上,這兩種技術的共同點是利用了BERT模型。本文討論了昨天對Top2Vec-Topic-Modeling代碼的一些改進以及應用時的注意事項,這些改進增強了程序的移植性,計算結果的精確性和均衡性以及后處理的便利性。
2 改進要點
2.1 自動化CPU的核心數
盡管Torch提供了GPU的計算能力,但是在目前Top2Vec的訓練過程中仍然使用的是CPU。在大規模的數值計算中都使用了多線程運算,包括FLAC3D和3DEC,參看《FLAC3D 7.0 新特性簡介(P1)---速度提升》和《確定性模式(model deterministic on)》。workers用來設定訓練模型時要使用的工作線程的數量,雖然我們沒有定量地測試過workers數量對運行速度的影響,但總的來說,較大的數量將導致更快的訓練。使用下面的代碼最大化地使用CPU的core,這樣在不同機器運行代碼時就不必手工改寫數字了。目前我的計算機CPU的核心數是16.
展開 該活動得到了來自世界各地的50家研究機構和公司的支持 - 比以往任何時候都更加重要,并且標志著該主題的重要性。
碳纖維布https://www.hongyantu.com/index.php?r=new%2Fview&id=2859

主題模擬的相關專題、標簽、搜索
主題模擬的最新內容
:數值模擬應用于質子交換膜燃料電池的研發
劉文東 | Ansys 主任應用工程師
演講主題:Ansys CFD 2024新功能介紹
劉佳薇 | 康明斯東亞研發中心有限公司 PA工程師
演講主題:基于Adjoint-solver的進氣道設計的自動優化方法
郭曉東 | Ansys 主任應用工程師
演講主題:Ansys Rocky離散元法和光滑粒子法功能與應用
:顆粒多相流模擬技術最新進展及工程應用
+ + + + +
陳金秋
技術經理 | 深圳市德頤姆科技有限公司
演講主題:斗輪掘進機仿真分析
來自工程機械、鋼鐵冶金、水泥、醫藥和環保等行業的重量級嘉賓,將在機械和運載工程及過程工藝和裝備兩大分會場進行特邀演講。
的兩個工具箱(toolbox),一個是Computer Vision Toolbox (CVT),可以對3D點云進行快速的可視化;另一個是Statistics and Machine Learning Toolbox (SMLT),SMLT使用了dbscan功能,一種機器學習的聚類算法,我們在自然語言處理中曾經使用過dbscan算法【BERT模型的應用回顧(階段性總結);BERTopic(V0.9.0)主題模擬技術
3月24日,一場主題為「XR模擬/驗證技術在線論壇」即將上線,擁有業內最完整光學仿真解決方案的Ansys將詳細展示如何利用OpticalStudio、Lumerical、Speos與Mechanical四大仿真工具,在元宇宙中構建出涵蓋設計、仿真、性能與散熱可靠度驗證的完整XR設備開發流程,論壇還邀請到佐臻董事長梁文隆前來解析AR產業的發展趨勢。
不得已而為之---CPU下使用gpt2-large模型進行微調訓練
GeotechSet數據集在GPT2上的訓練過程
3 Bertopic
2021年9月1日, 發布了bertopic 0.9.1, 主要用它進行主題模擬.
2 主題模擬
主題模擬(Topic Modeling)是一種從大量非結構化文本中提取隱藏主題的技術,面臨的挑戰是如何提取出清晰、分離和有意義的高質量主題,這在很大程度上取決于文本預處理的質量和尋找最佳主題數量的策略,因此主題模擬在很大程度上是一門藝術。
3.1 運行環境
由于在本項目中使用了多種庫,因此針對不同的庫設置了不同的虛擬環境,主要包括: (1) base(root); (2) Spacy; (3) Bertopic; (4) Tensorflow; (5) Flair; (6) Transformers
3.2 主題模擬和相似性查詢
使用聯合的方法進行主題模擬和相似性查詢,主要包括:
(1) geotech-flashtext-passages.py
主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例
BERTopic(V0.9.0)主題模擬技術
GeotechSet數據集主題模擬(Topic Modeling)
Top2Vec (V1.0.26)主題模擬代碼的改進
LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例
1 引言
在目前的工作中,使用了三種主題模擬技術:(1) LDA(LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例); (2) BERTopic(BERTopic(V0.9.0)主題模擬技術); 以及(3)Top2Vec(GeotechSet數據集主題模擬(Topic Modeling); 主題模擬的藝術(The Art of Topic
,采用Top2Vec庫進行了主題模擬,結果產生出兩個非常近似的主題, 其中最核心的關鍵詞是rockslides和fracture。