
發(fā)布
注冊
/
登錄主題聚類的案例
利用主題聚類(Cluster)產(chǎn)生新的數(shù)據(jù)集--模型和代碼改進
1 引言
產(chǎn)生新的數(shù)據(jù)集有三種方法:(1) 根據(jù)關(guān)鍵詞手工聚合;(2) 使用geotech-flashtext-passages.py自動聚合(一種快速在GeotechSet數(shù)據(jù)集內(nèi)查詢相似段落的方法);(3) 使用geotech-st-cluster.py主題聚合。其中(3)既快速又準確,是目前努力發(fā)展的一種數(shù)據(jù)集產(chǎn)生方法。這個筆記簡要描述了這種方法最新改進的經(jīng)歷。
2 代碼改進
geotech-st-cluster.py代碼使用了《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》引入的KMeans聚類方法,最初使用的模型是roberta-large-nli-stsb-mean-tokens,在最新的一次試驗中,21M的數(shù)據(jù)文件聚類30個主題共用了大約30分鐘。另一方面已經(jīng)注意到,下面三個模型由于產(chǎn)生的句子嵌入質(zhì)量低已經(jīng)被廢棄:
(1) roberta-large-nli-stsb-mean-tokens
(2) bert-base-nli-mean-tokens
(3) distilbert-base-nli-stsb-mean-tokens
在今后的工作中將不再使用這三個模型?,F(xiàn)在改用paraphrase-mpnet-base-v2模型,效果確實比前者要好。這個模型將句子和段落映射到768維的密集向量空間,可用于聚類或語義搜索等任務(wù)。
展開 零點文本分類(Zero Shot Text Classification)
(7) An integrated field mapping-numerical modelling approach to characterising discontinuity persistence and intact rock bridges in large open pit slopes
4 發(fā)展方向
零點文本分類是一個非常有趣的主題聚類技術(shù)。其發(fā)展方向可能有:(1) 用我們自己的數(shù)據(jù)集微調(diào)目前的模型;(2) 自動生成聚類標簽。
BERTopic(V0.9.0)主題模擬技術(shù)
(2) 聚類文檔(Cluster Documents)
用UMAP來降低嵌入的維度; 用HDBSCAN對減少的嵌入進行聚類,并創(chuàng)建語義相似的文件群。
(3) 創(chuàng)建主題表征(Create topic representation)
用c-TF-IDF提取和減少主題; 提高具有最大邊際相關(guān)性的詞匯的連貫性.
4 產(chǎn)生主題
為了便于比較,使用《主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例》中的數(shù)據(jù)集,這是一個基于關(guān)鍵詞step-path failure的數(shù)據(jù)集,在那篇筆記中,采用Top2Vec庫進行了主題模擬,結(jié)果產(chǎn)生出兩個非常近似的主題, 其中最核心的關(guān)鍵詞是rockslides和fracture。
BERTopic默認的模型是paraphrase-MiniLM-L6-v2, 以前曾經(jīng)使用過這個模型(聯(lián)合6種Transformers預(yù)訓(xùn)練模型). 同樣的數(shù)據(jù)使用BERTopic產(chǎn)生出如下19個主題。
展開 中國海洋測繪研究趨勢分析
通過表
1,可知《海洋測繪》載文的主題可大致概括為水深測量、海圖制作、GNSS等主題,其他核心關(guān)鍵詞均可認為是與之相關(guān)的技術(shù)方法研究,例如多波束、衛(wèi)星測高、GPS、北斗、地理信息系統(tǒng)、遙感影像等具體技術(shù)方法。
根據(jù)關(guān)鍵詞的關(guān)聯(lián)性,對《海洋測繪》發(fā)文關(guān)鍵詞進行聚類分析,聚類結(jié)果表明平均輪廓值S為0.92,意味著聚類是令人信服的,模塊值Q為0.7,意味著聚類結(jié)構(gòu)顯著。如圖
4所示,《海洋測繪》關(guān)鍵詞可劃分為22個類別,聚類名稱前的數(shù)字越小,表示聚類所包含的關(guān)鍵詞越多。例如聚類第一類別(#0)歸納為數(shù)字地圖,包含的主要關(guān)鍵詞為:電子海圖、紙質(zhì)海圖、海道測量、可用性分析、S-52、國際海圖和生產(chǎn)模式等112個關(guān)鍵詞,該類別主要涉及數(shù)字海圖的生產(chǎn),與我國海洋測繪的主要目標相一致;又如聚類第八類別(#7)為重力異常,主要包含的關(guān)鍵詞為衛(wèi)星測高、精度分析、海底地形、重力異常、大地水準面、垂線偏差、海面地形、潮汐等78個關(guān)鍵詞,該類別對象主要涉及海洋重力的相關(guān)研究,可為海洋測量提供關(guān)鍵的垂直基準模型。
展開 
人工智能發(fā)展簡史
4.5主題建模(Topic Modeling)
在機器學(xué)習(xí)領(lǐng)域,LDA是兩個常用模型的簡稱:Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA僅指代Latent Dirichlet Allocation. LDA 在主題模型中占有非常重要的地位,常用來文本分類。
LDA由Blei、 David M.、Ng, Andrew Y.、Jordan于2003年提出,用來推測文檔的主題分布。它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題分布后,便可以根據(jù)主題分布進行主題聚類或文本分類。
LDA是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋(bag of words)的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復(fù)雜性,同時也為模型的改進提供了契機。每一篇文檔代表了一些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。
第五章:第三次浪潮期-2006年以后
第三次人工智能浪潮興起的標志可能要數(shù)2006杰弗里·辛頓(Geoffrey Hinton)等人提出的深度學(xué)習(xí),或者說Hinton等人吹響了這次浪潮的號角。
展開