不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

主題聚類

關(guān)注
創(chuàng)建者:匿名 創(chuàng)建時間:2021-09-09
主題聚類圖1

主題聚類的實例教程

1 引言 產(chǎn)生新的數(shù)據(jù)集有三種方法:(1) 根據(jù)關(guān)鍵詞手工聚合;(2) 使用geotech-flashtext-passages.py自動聚合(一種快速在GeotechSet數(shù)據(jù)集內(nèi)查詢相似段落的方法);(3) 使用geotech-st-cluster.py主題聚合。其中(3)既快速又準(zhǔn)確,是目前努力發(fā)展的一種數(shù)據(jù)集產(chǎn)生方法。這個筆記簡要描述了這種方法最新改進的經(jīng)歷。 2 代碼改進 geotech-st-cluster.py代碼使用了《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》引入的KMeans聚類方法,最初使用的模型是roberta-large-nli-stsb-mean-tokens,在最新的一次試驗中,21M的數(shù)據(jù)文件聚類30個主題共用了大約30分鐘。另一方面已經(jīng)注意到,下面三個模型由于產(chǎn)生的句子嵌入質(zhì)量低已經(jīng)被廢棄: (1) roberta-large-nli-stsb-mean-tokens (2) bert-base-nli-mean-tokens (3) distilbert-base-nli-stsb-mean-tokens 在今后的工作中將不再使用這三個模型。現(xiàn)在改用paraphrase-mpnet-base-v2模型,效果確實比前者要好。這個模型將句子和段落映射到768維的密集向量空間,可用于聚類或語義搜索等任務(wù)。
展開
(7) An integrated field mapping-numerical modelling approach to characterising discontinuity persistence and intact rock bridges in large open pit slopes 4 發(fā)展方向 零點文本分類是一個非常有趣的主題聚類技術(shù)。其發(fā)展方向可能有:(1) 用我們自己的數(shù)據(jù)集微調(diào)目前的模型;(2) 自動生成聚類標(biāo)簽。
(2) 聚類文檔(Cluster Documents) 用UMAP來降低嵌入的維度; 用HDBSCAN對減少的嵌入進行聚類,并創(chuàng)建語義相似的文件群。 (3) 創(chuàng)建主題表征(Create topic representation) 用c-TF-IDF提取和減少主題; 提高具有最大邊際相關(guān)性的詞匯的連貫性. 4 產(chǎn)生主題 為了便于比較,使用《主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例》中的數(shù)據(jù)集,這是一個基于關(guān)鍵詞step-path failure的數(shù)據(jù)集,在那篇筆記中,采用Top2Vec庫進行了主題模擬,結(jié)果產(chǎn)生出兩個非常近似的主題, 其中最核心的關(guān)鍵詞是rockslides和fracture。 BERTopic默認的模型是paraphrase-MiniLM-L6-v2, 以前曾經(jīng)使用過這個模型(聯(lián)合6種Transformers預(yù)訓(xùn)練模型). 同樣的數(shù)據(jù)使用BERTopic產(chǎn)生出如下19個主題
展開
通過表 1,可知《海洋測繪》載文的主題可大致概括為水深測量、海圖制作、GNSS等主題,其他核心關(guān)鍵詞均可認為是與之相關(guān)的技術(shù)方法研究,例如多波束、衛(wèi)星測高、GPS、北斗、地理信息系統(tǒng)、遙感影像等具體技術(shù)方法。 根據(jù)關(guān)鍵詞的關(guān)聯(lián)性,對《海洋測繪》發(fā)文關(guān)鍵詞進行聚類分析,聚類結(jié)果表明平均輪廓值S為0.92,意味著聚類是令人信服的,模塊值Q為0.7,意味著聚類結(jié)構(gòu)顯著。如圖 4所示,《海洋測繪》關(guān)鍵詞可劃分為22個類別,聚類名稱前的數(shù)字越小,表示聚類所包含的關(guān)鍵詞越多。例如聚類第一類別(#0)歸納為數(shù)字地圖,包含的主要關(guān)鍵詞為:電子海圖、紙質(zhì)海圖、海道測量、可用性分析、S-52、國際海圖和生產(chǎn)模式等112個關(guān)鍵詞,該類別主要涉及數(shù)字海圖的生產(chǎn),與我國海洋測繪的主要目標(biāo)相一致;又如聚類第八類別(#7)為重力異常,主要包含的關(guān)鍵詞為衛(wèi)星測高、精度分析、海底地形、重力異常、大地水準(zhǔn)面、垂線偏差、海面地形、潮汐等78個關(guān)鍵詞,該類別對象主要涉及海洋重力的相關(guān)研究,可為海洋測量提供關(guān)鍵的垂直基準(zhǔn)模型。
展開
4.5主題建模(Topic Modeling) 在機器學(xué)習(xí)領(lǐng)域,LDA是兩個常用模型的簡稱:Linear Discriminant Analysis 和 Latent Dirichlet Allocation。本文的LDA僅指代Latent Dirichlet Allocation. LDA 在主題模型中占有非常重要的地位,常用來文本分類。 LDA由Blei、 David M.、Ng, Andrew Y.、Jordan于2003年提出,用來推測文檔的主題分布。它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題分布后,便可以根據(jù)主題分布進行主題聚類或文本分類。 LDA是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。它采用了詞袋(bag of words)的方法,這種方法將每一篇文檔視為一個詞頻向量,從而將文本信息轉(zhuǎn)化為了易于建模的數(shù)字信息。但是詞袋方法沒有考慮詞與詞之間的順序,這簡化了問題的復(fù)雜性,同時也為模型的改進提供了契機。每一篇文檔代表了一些主題所構(gòu)成的一個概率分布,而每一個主題又代表了很多單詞所構(gòu)成的一個概率分布。 第五章:第三次浪潮期-2006年以后 第三次人工智能浪潮興起的標(biāo)志可能要數(shù)2006杰弗里·辛頓(Geoffrey Hinton)等人提出的深度學(xué)習(xí),或者說Hinton等人吹響了這次浪潮的號角。
展開
主題聚類圖2

主題聚類的最新內(nèi)容

Citespace可以根據(jù)文獻數(shù)據(jù)集構(gòu)造一系列的引文對象及引文網(wǎng)絡(luò),可以在數(shù)據(jù)基礎(chǔ)上開展主題聚類、網(wǎng)絡(luò)分析、共引分析等[12,14]。Citespace的哲學(xué)基礎(chǔ)是托馬斯的科學(xué)革命的結(jié)構(gòu)[15],而設(shè)計靈感為社交網(wǎng)絡(luò)的結(jié)構(gòu)洞理論[16],兩種時間和空間的基礎(chǔ)理論使得Citespace可以通過引入不同時間所出現(xiàn)的聚類,揭示不同主題的興衰,可以通過結(jié)構(gòu)洞在不同聚類間的連接,探測具有關(guān)鍵作用的節(jié)點。
它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題分布后,便可以根據(jù)主題分布進行主題聚類或文本分類。 LDA是一種非監(jiān)督機器學(xué)習(xí)技術(shù),可以用來識別大規(guī)模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。
2 代碼改進 geotech-st-cluster.py代碼使用了《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》引入的KMeans聚類方法,最初使用的模型是roberta-large-nli-stsb-mean-tokens,在最新的一次試驗中,21M的數(shù)據(jù)文件聚類30個主題共用了大約30分鐘。
(7) An integrated field mapping-numerical modelling approach to characterising discontinuity persistence and intact rock bridges in large open pit slopes 4 發(fā)展方向 零點文本分類是一個非常有趣的主題聚類技術(shù)。
6 主題聚類 相似的主題可以聚合在一起,如下圖所示。