發(fā)布

主題聚類

關(guān)注

創(chuàng)建者：匿名創(chuàng)建時間：2021-09-09

主題聚類的實例教程

利用主題聚類(Cluster)產(chǎn)生新的數(shù)據(jù)集--模型和代碼改進

1 引言產(chǎn)生新的數(shù)據(jù)集有三種方法：(1) 根據(jù)關(guān)鍵詞手工聚合；(2) 使用geotech-flashtext-passages.py自動聚合(一種快速在GeotechSet數(shù)據(jù)集內(nèi)查詢相似段落的方法)；(3) 使用geotech-st-cluster.py主題聚合。其中(3)既快速又準(zhǔn)確，是目前努力發(fā)展的一種數(shù)據(jù)集產(chǎn)生方法。這個筆記簡要描述了這種方法最新改進的經(jīng)歷。 2 代碼改進 geotech-st-cluster.py代碼使用了《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》引入的KMeans聚類方法，最初使用的模型是roberta-large-nli-stsb-mean-tokens，在最新的一次試驗中，21M的數(shù)據(jù)文件聚類30個主題共用了大約30分鐘。另一方面已經(jīng)注意到，下面三個模型由于產(chǎn)生的句子嵌入質(zhì)量低已經(jīng)被廢棄: (1) roberta-large-nli-stsb-mean-tokens (2) bert-base-nli-mean-tokens (3) distilbert-base-nli-stsb-mean-tokens 在今后的工作中將不再使用這三個模型。現(xiàn)在改用paraphrase-mpnet-base-v2模型，效果確實比前者要好。這個模型將句子和段落映射到768維的密集向量空間，可用于聚類或語義搜索等任務(wù)。

展開

零點文本分類(Zero Shot Text Classification)

(7) An integrated field mapping-numerical modelling approach to characterising discontinuity persistence and intact rock bridges in large open pit slopes 4 發(fā)展方向零點文本分類是一個非常有趣的主題聚類技術(shù)。其發(fā)展方向可能有：(1) 用我們自己的數(shù)據(jù)集微調(diào)目前的模型；(2) 自動生成聚類標(biāo)簽。

BERTopic(V0.9.0)主題模擬技術(shù)

(2) 聚類文檔(Cluster Documents) 用UMAP來降低嵌入的維度; 用HDBSCAN對減少的嵌入進行聚類，并創(chuàng)建語義相似的文件群。 (3) 創(chuàng)建主題表征(Create topic representation) 用c-TF-IDF提取和減少主題; 提高具有最大邊際相關(guān)性的詞匯的連貫性. 4 產(chǎn)生主題為了便于比較，使用《主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例》中的數(shù)據(jù)集，這是一個基于關(guān)鍵詞step-path failure的數(shù)據(jù)集，在那篇筆記中，采用Top2Vec庫進行了主題模擬，結(jié)果產(chǎn)生出兩個非常近似的主題, 其中最核心的關(guān)鍵詞是rockslides和fracture。 BERTopic默認的模型是paraphrase-MiniLM-L6-v2, 以前曾經(jīng)使用過這個模型(聯(lián)合6種Transformers預(yù)訓(xùn)練模型). 同樣的數(shù)據(jù)使用BERTopic產(chǎn)生出如下19個主題。

展開

中國海洋測繪研究趨勢分析

通過表 1，可知《海洋測繪》載文的主題可大致概括為水深測量、海圖制作、GNSS等主題，其他核心關(guān)鍵詞均可認為是與之相關(guān)的技術(shù)方法研究，例如多波束、衛(wèi)星測高、GPS、北斗、地理信息系統(tǒng)、遙感影像等具體技術(shù)方法。根據(jù)關(guān)鍵詞的關(guān)聯(lián)性，對《海洋測繪》發(fā)文關(guān)鍵詞進行聚類分析，聚類結(jié)果表明平均輪廓值S為0.92，意味著聚類是令人信服的，模塊值Q為0.7，意味著聚類結(jié)構(gòu)顯著。如圖 4所示，《海洋測繪》關(guān)鍵詞可劃分為22個類別，聚類名稱前的數(shù)字越小，表示聚類所包含的關(guān)鍵詞越多。例如聚類第一類別（#0）歸納為數(shù)字地圖，包含的主要關(guān)鍵詞為：電子海圖、紙質(zhì)海圖、海道測量、可用性分析、S-52、國際海圖和生產(chǎn)模式等112個關(guān)鍵詞，該類別主要涉及數(shù)字海圖的生產(chǎn)，與我國海洋測繪的主要目標(biāo)相一致；又如聚類第八類別（#7）為重力異常，主要包含的關(guān)鍵詞為衛(wèi)星測高、精度分析、海底地形、重力異常、大地水準(zhǔn)面、垂線偏差、海面地形、潮汐等78個關(guān)鍵詞，該類別對象主要涉及海洋重力的相關(guān)研究，可為海洋測量提供關(guān)鍵的垂直基準(zhǔn)模型。

展開

人工智能發(fā)展簡史

4.5主題建模（Topic Modeling）在機器學(xué)習(xí)領(lǐng)域，LDA是兩個常用模型的簡稱：Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA僅指代Latent Dirichlet Allocation. LDA 在主題模型中占有非常重要的地位，常用來文本分類。 LDA由Blei、 David M.、Ng, Andrew Y.、Jordan于2003年提出，用來推測文檔的主題分布。它可以將文檔集中每篇文檔的主題以概率分布的形式給出，從而通過分析一些文檔抽取出它們的主題分布后，便可以根據(jù)主題分布進行主題聚類或文本分類。 LDA是一種非監(jiān)督機器學(xué)習(xí)技術(shù)，可以用來識別大規(guī)模文檔集（document collection）或語料庫（corpus）中潛藏的主題信息。它采用了詞袋（bag of words）的方法，這種方法將每一篇文檔視為一個詞頻向量，從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒有考慮詞與詞之間的順序，這簡化了問題的復(fù)雜性，同時也為模型的改進提供了契機。每一篇文檔代表了一些主題所構(gòu)成的一個概率分布，而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。第五章：第三次浪潮期-2006年以后第三次人工智能浪潮興起的標(biāo)志可能要數(shù)2006杰弗里·辛頓（Geoffrey Hinton）等人提出的深度學(xué)習(xí)，或者說Hinton等人吹響了這次浪潮的號角。

展開

主題聚類的相關(guān)專題、標(biāo)簽、搜索

主題聚類聚類顏色聚類聚類算法模糊聚類密度聚類聚類 pareto聚類聚類分析 matlab聚類聚類分型聚類算法

主題聚類的最新內(nèi)容

中國海洋測繪研究趨勢分析

Citespace可以根據(jù)文獻數(shù)據(jù)集構(gòu)造一系列的引文對象及引文網(wǎng)絡(luò)，可以在數(shù)據(jù)基礎(chǔ)上開展主題聚類、網(wǎng)絡(luò)分析、共引分析等[12,14]。Citespace的哲學(xué)基礎(chǔ)是托馬斯的科學(xué)革命的結(jié)構(gòu)[15]，而設(shè)計靈感為社交網(wǎng)絡(luò)的結(jié)構(gòu)洞理論[16]，兩種時間和空間的基礎(chǔ)理論使得Citespace可以通過引入不同時間所出現(xiàn)的聚類，揭示不同主題的興衰，可以通過結(jié)構(gòu)洞在不同聚類間的連接，探測具有關(guān)鍵作用的節(jié)點。

人工智能發(fā)展簡史

它可以將文檔集中每篇文檔的主題以概率分布的形式給出，從而通過分析一些文檔抽取出它們的主題分布后，便可以根據(jù)主題分布進行主題聚類或文本分類。 LDA是一種非監(jiān)督機器學(xué)習(xí)技術(shù)，可以用來識別大規(guī)模文檔集（document collection）或語料庫（corpus）中潛藏的主題信息。