
發布
注冊
/
登錄主題模擬技術的案例
Top2Vec (V1.0.26)主題模擬代碼的改進
1 引言
在目前的工作中,使用了三種主題模擬技術:(1) LDA(LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例); (2) BERTopic(BERTopic(V0.9.0)主題模擬技術); 以及(3)Top2Vec(GeotechSet數據集主題模擬(Topic Modeling); 主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例). 第一種技術由于性能較差逐漸被淘汰,因此著重點主要放在第二種和第三種技術上,這兩種技術的共同點是利用了BERT模型。本文討論了昨天對Top2Vec-Topic-Modeling代碼的一些改進以及應用時的注意事項,這些改進增強了程序的移植性,計算結果的精確性和均衡性以及后處理的便利性。
2 改進要點
2.1 自動化CPU的核心數
盡管Torch提供了GPU的計算能力,但是在目前Top2Vec的訓練過程中仍然使用的是CPU。在大規模的數值計算中都使用了多線程運算,包括FLAC3D和3DEC,參看《FLAC3D 7.0 新特性簡介(P1)---速度提升》和《確定性模式(model deterministic on)》。workers用來設定訓練模型時要使用的工作線程的數量,雖然我們沒有定量地測試過workers數量對運行速度的影響,但總的來說,較大的數量將導致更快的訓練。使用下面的代碼最大化地使用CPU的core,這樣在不同機器運行代碼時就不必手工改寫數字了。目前我的計算機CPU的核心數是16.
展開 主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例
1 引言
如前所說(GeotechSet數據集主題模擬(Topic Modeling); LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例), 主題模擬是一種從大量非結構化文本中提取隱藏主題的技術, 主要挑戰是如何從大量文本中提取出清晰、分離而且有意義的高質量主題,這在很大程度上取決于文本預處理的質量和尋找最佳主題數量的策略,因此主題模擬在很大程度上是一門藝術。本文使用了一種多階段的主題模擬技術分離出高質量的主題,并通過詞匯云加以展示。
2 限定范圍
從原始的數據集GeotechSet中提取主題不是一個很好的策略。一方面原始數據集太大,運行時間太長;另一方面分離出的主題太多導致主題過于離散。因此第一步需要縮小主題的范圍。在本文中,我們考慮主題"Step-Path Failure", 首先使用代碼geotech-flashtext-passages.py從抽取出所有包含這個短語的段落,得到輸入文件input.txt(715k). 以這個文件作為基礎進行主題模擬。
3 主題模擬
在得到范圍縮小的數據集后,開始進行主題模擬。使用的模型是distiluse-base-multilingual-cased,這是一個多語言的BERT模型,測試結果表明,這個模型比Doc2Vec模型得出的結果好。就像我們預期的一樣,由于數據已經相對集中,因此這個縮小的數據集僅得出2個主題。
(1) 第一個主題
第一個主題的詞匯云圖如上所示。從這個圖中可以看出主題的重要性等級,rockslides和fracture位于第一層次;instability,bridges,cement位于第二層次。
展開 BERTopic(V0.9.0)主題模擬技術
1 引言
BERTopic(最新版本0.9.0,8/7/2021)是一種主題建模技術(BERTopic performs topic Modeling with state-of-the-art transformer models),它利用Transformers和c-TF-IDF來創建密集的集群(clusters),使主題易于解釋,同時在主題描述中保留重要的詞匯。它甚至支持與LDAvis類似的可視化。
主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例
GeotechSet數據集主題模擬(Topic Modeling)
LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例
2 安裝BERTopic
由于BERTopic依賴大量的庫,為了避免發生沖突,建立了虛擬環境bertpoic, 使用默認安裝方式: pip install bertopic; BERTopic也支持Flair嵌入,包括gensim,spacy, 同時需要安裝Tensorflow, 使用pip install bertopic[all]命令可以安裝全部的后臺庫,不過,因為Tensorflow(大約425M)的下載速度太慢,所以目前沒有全部安裝。在默認的安裝狀態下,主要依賴的庫:transformers(V4.9.2), torch(V1.9.0), sentence-transformers(2.0.0).
3 BERTopic的算法
總的來說,BERTopic使用了三個步驟:
(1) 嵌入文檔(Embed documents)
用BERT或任何其他嵌入技術提取文檔嵌入。
展開 GeotechSet數據集主題模擬(Topic Modeling)
1 引言
主題模擬(Topic Modeling)是一種從大量非結構化文本中提取隱藏主題的技術。面臨的挑戰是如何提取出清晰、分離和有意義的高質量主題,這在很大程度上取決于文本預處理的質量和尋找最佳主題數量的策略。Latent Dirichlet Allocation(LDA)是一種流行的主題模擬算法。LDA主題模擬方法的本質是尋找文檔內的關鍵詞分布,通過關鍵詞的聚合確定主題內容,在《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》中我們使用了LdaModel和k-mean算法兩種算法進行了主題模擬。本文在此基礎上討論了主題模擬的最新進展。
rock slopes toppling failure stability analysis
Stability analysis of steep rock slopes
巖石邊坡穩定性分析方法簡述
Stability Analyses of Jointed Rock Slopes with Counter-tilted Failure
Soil-Rock Slope Stability Analysis by Considering the Nonuniformity of Rocks
intake slope
2 小數據集準備
這個小型的數據集由三部分組成:第一部分選擇了GeotechSet數據集的Rock Mechanics子集,把所有的文檔名稱匯集成一個文件,大約5000個文檔標題;第二部分選擇了本公眾號的大約370篇文章的標題,這部分主要是中文;第三部分選擇了Chuquicamata礦和Palabora礦的一些文檔,總的文件尺寸大約730k。
展開 
從模擬到回收:熱塑性復合材料當前主題和趨勢
該活動將介紹最新的發展,從模擬和監測開始。
除了航空和汽車工程領域的主題外,新的技術趨勢將成為焦點。例如,日本金澤理工學院的Hirofumi Nishida博士將首次在ITHEC上展示他與其他材料(如己內酰胺)相比開發的原位聚合熱塑性環氧樹脂的工藝性能。這種樹脂的特殊之處在于聚合可以在任何階段停止,因此不同的流動性能可以起作用。這使得不同的浸漬方法以及各種進一步的處理步驟成為可能,并因此實現了多種應用。
“例如,樹脂已被用于汽車減震器和建筑物的地震保護,”Nishida解釋說。
在Evonik Nutrition&Care,研究人員指出,他們是幾年來第一個使用有機改性硅氧烷(OMS)作為熱塑性復合材料添加劑的公司。他們正在此基礎上為客戶開發定制解決方案。他們的工作成果將首次在2018年ITHEC上向業界公眾展示。研究人員表示,添加影響表面的OMS具有巨大的潛力。例如,他們可以很好地平滑玻璃纖維,從而改善纖維 - 基質的附著力 - 從而改善機械性能 - Dr.-Ing。塞巴斯蒂安·赫斯納
“另一個例子是,與市售的纖維增強塑料相比,OMS改性聚酰胺可以改善金屬和聚合物之間的粘合性。”
另一個創新技術領域是回收利用,這將在今年的ITHEC上首次成為人們關注的焦點。一個方面是再循環碳纖維絕對可以用于生產具有高性能的材料。
“到目前為止,仍然缺乏對基于再生材料的這類產品的接受,”位于德國薩克森州的紡織研究機構SchsischesTextilforschungsinstitutChemnitz(STFI)的Marcel Hofmann說。
STFI,Faserinstitut Bremen(FIBER)和四個工業合作伙伴的目標是通過RecyCarb項目改變現狀,確保從回收到生產的再現性。
“現在,質量控制等方面根本就沒有標準或規范,”霍夫曼說。
展開 2024 Cadence中國技術巡回研討會 — CFD專場研討會(“旋轉機械”主題)
Altair官方線下培訓日程公布-5月29日,上海,CFD專場研討會(“旋轉機械”主題)
培訓地點:上海
溫馨提示:
線下公開培訓僅支持報名后當天觀看線上直播,暫不提供回看錄播。
培訓席位有限,請至少提前一周報名,報名入口請耐心等待帖子更新或添加客服。
#線下培訓教室地點:
上海辦公室:
上海市浦東新區東育路221弄1號前灘世貿中心三期A棟 5樓培訓室
如您有其他問題請聯系技術鄰客服jishulink888回復【線下】咨詢↑
2024 Cadence中國技術巡回研討會 — CFD專場研討會(“地面交通”主題)
Altair官方線下培訓日程公布-5月23日,重慶,CFD專場研討會(“地面交通”主題)
培訓地點:重慶富力凱悅酒店
溫馨提示:
線下公開培訓僅支持報名后當天觀看線上直播,暫不提供回看錄播。
培訓席位有限,請至少提前一周報名,報名入口請耐心等待帖子更新或添加客服。
#線下培訓教室地點:
重慶富力凱悅酒店:
重慶市江北區北城天街11號
如您有其他問題請聯系技術鄰客服jishulink888回復【線下】咨詢↑
2024 Cadence中國技術巡回研討會 — CFD專場研討會(“地面交通”主題)
<p class="ql-align-justify"><strong>Altair官方線下培訓日程公布-5月21日,上海,CFD專場研討會(“地面交通”主題)</strong></p><p class="ql-align-justify"><strong>培訓地點:上海</strong></p><p class="ql-align-justify"><strong>溫馨提示:</strong></p><ul><li><strong>線下公開培訓</strong>僅支持報名后當天觀看線上直播,暫不提供回看錄播。</li><li>培訓席位有限,請至少<strong>提前一周</strong>報名,報名入口請耐心等待帖子更新或添加客服。
展開 一鍵了解LS-DYNA技術與MBSE主題分會場最新議程
無論您是仿真領域的專家,還是對LS-DYNA技術充滿興趣的從業者,我們期待您的蒞臨,共同探討仿真技術的未來!
分會場1:汽車碰撞安全【9月13日上午】
聚焦整車碰撞與零部件仿真,探索最新應用與技術趨勢。
LS-DYNA作為汽車行業的標桿工具,在碰撞失效、安全氣囊、安全帶、假人模型、行人保護、電池分析、鈑金成形分析等方面有著獨特的技術和功能。本會場內容將由來自行業前沿用戶、整車和零部件頭部企業、以及DYNAmore專家等,一起探討LS-DYNA在整車碰撞及零部件仿真領域的最新應用案例和技術發展方向。
分會場2:先進模擬技術【9月13日上午】
聚焦先進模擬技術在各行業中的創新應用與發展。
LS-DYNA不僅是強大的顯式動力學分析工具,更是先進的通用多物理場分析仿真軟件。以“One Code,Multi-physics”作為軟件開發策略,因其強大的非線性分析能力和大規模并行加速能力,在非汽車行業也有著廣泛的應用,如電子設備、家電、鋼鐵、爆炸、土木、航空等。本會場將邀請多位行業專家、開發人員對所屬領域的LS-DYNA應用、材料模型、鈑金成形等領域進行分享,實現不同行業間的模擬方法技術的相互借鑒和啟發。
2.數字化安全技術大會
2024 Digital Safety Conference
技術日新月異,放眼當今世界,諸如5G、人工智能、高性能芯片等新興技術被越來越多的企業應用于自動駕駛、飛行汽車、電氣化、智能化、網聯化的開發研制上,從而進一步推動各行業的發展,而這些技術都有一個共同點:更高的安全要求。
展開 就在今日丨5大主題會場:共探中小企業如何利用仿真融合AI技術加速創新研發
SIMULATE AT THE SPEED OF DESIGN
全球線上直播會議
2025年5月15日,來自全球不同行業的知名企業專家將分享他們的仿真實戰經驗,歡迎您加入我們,一同探討:如何利用仿真技術加快產品研發速度、 CAE 和有限元分析技術的應用如何在產品研發中實現降本增效?
我們非常歡迎您參加本次會議,與全球企業一起共探仿真技術如何實現降本增效!
會議時間:2025年 5 月 15 日 (周四)
會議形式:線上直播(提供 AI 實時翻譯)
會議語言:英語(提供中文同聲傳譯)
立即報名
溫馨提示:因服務器地域問題,掃碼后需等待5秒,請耐心等待自動跳轉至報名頁哦~
特邀演講(部分)
會議日程
* 最終日程以會議當天為準
報名方式
掃描下方二維碼或點擊按鈕,立即報名
↓↓↓
立即報名
2025 Altair 區域技術交流會
華北站·華東站·西南站·華南站
當前,全球制造業正經歷深刻的數字化轉型,仿真、高性能計算、人工智能技術的融合,正在徹底改變產品研發與工程仿真的范式。面對日益復雜的市場需求和嚴苛的研發周期,眾多企業開始成功實踐應用AI增強的仿真技術,實現更智能的設計優化、更高效的虛擬驗證,以及更精準的決策支持。
在此背景下, Altair 作為計算智能領域的全球領導者,將分別在北京、上海、成都、深圳舉辦 “AI驅動,仿真未來”Altair 區域技術交流會。
展開 “數據中心智能硬件熱管理”主題沙龍活動成功舉辦| 2024熱管理材料技術展 | 導熱散熱展 |液冷展 | 熱管理展
6月3日下午,由[DT新材料]聯合[廣東灣區智能終端工業設計研究院有限公司(以下簡稱研究院)]共同組織的iTherMTalks第6期線下主題沙龍——數據中心智能硬件熱管理——在研究院成功舉辦。20多位行業專家及企業代表齊聚一堂,就數據中心中服務器等智能硬件的新近發展趨勢和熱管理解決方案進行深入交流和探討。
本次沙龍活動伊始,研究院盧煥瑜部長對大家的到來表示了熱烈歡迎,并對研究院概況做了簡要介紹。
沙龍活動現場
報告環節,熱設計網聯合創始人陳繼良先生帶來《高功率電子產品的熱管理挑戰和應對思路》的主題報告分享;研究院采購負責人從企業切實發展,介紹了公司在服務器等智能硬件領域的熱管理解決方案需求;隨后,大家針對報告環節的疑問與需求進行了充分交流討論。
報告與交流討論
與會嘉賓參觀研究院展廳
沙龍活動合影留念
"第二屆熱管理材料技術博覽會”(iTherMEXPO2024)將于2024年11月6-8日在深圳國際會展中心7號館舉辦,將高效呈現熱管理產業鏈的一站式價值對接平臺,以滿足和促進熱管理行業各單位交流、合作和共贏發展。創新型的材料、儀器、設備、設計與仿真、解決方案、應用場景、專利技術等薈聚鏈接和呈現將是博覽會的重要組成部分;熱管理領域科學、材料、技術和工程等相關專題論壇、圓桌/閉門、專家問診、創新創業項目展示、新品發布、需求對接等活動也將精彩同期呈現,特別是科研單位創新性的技術和成果也將獲得從實驗室對接轉移到市場的機會。
?
展開 
零點文本分類(Zero Shot Text Classification)
1 引言
在過去的文章中,我們使用了不同的技術來進行主題模擬,主要包括LDA,Top2Vec和BERTopic, 這些技術能夠從大量文本中進行文本分類聚合出一類主題。
主題模擬的藝術(The Art of Topic Modeling)---以Step-Path Failure為例
BERTopic(V0.9.0)主題模擬技術
GeotechSet數據集主題模擬(Topic Modeling)
Top2Vec (V1.0.26)主題模擬代碼的改進
LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例
另一種非常有趣的主題模擬技術稱為零點文本分類(Zero Shot Text Classification),這種技術是根據用戶指定的分類標簽來判斷一段文本是否屬于這個類別。例如:“one day I will see the world"這個句子,我們給定三個分類標簽['travel', 'cooking', 'dancing'],盡管句子中沒有出現"travel", 通過學習我們可以判別出這個句子屬于'travel'類別。這就是零點文本分類的核心。
2 模型選擇
在本次試驗中,我們使用了兩個預訓練模型,這兩個模型的區別是微調使用的數據集不同。 一個是bart-large-mnli,這是bart-large在MultiNLI(MNLI)數據集上訓練后的檢查點[BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension]。
展開 精彩回顧丨Altair攜手汽車工程學會舉辦主題網絡研討會,共探AI與無網格技術助力汽車行業智能未來
SimSolid無網格仿真:釋放汽車結構設計效率
會中,湯凱利工程師以“無網格仿真技術突破網格枷鎖,擁抱下一代仿真方法論”為主題,通過福特、捷豹路虎等知名汽車公司的應用實踐分享,介紹了Altair SimSolid無網格技術如何助力汽車結構仿真提效增速,并進行了現場演示,展示出無網格仿真驗證概念設計的速度優勢、易用性與精準度。
AI重塑仿真未來:Altair助力汽車行業智能升級
在會議尾聲,Altair技術專家總結道:“AI正以前所未有的速度重塑仿真技術,從云圖預測到設計優化,我們致力于通過工具革新幫助工程師釋放創造力,加速產品研發。”研討會與會者紛紛表示,研討會內容兼具前瞻性與實用性,為汽車及制造業的數字化轉型提供了寶貴參考。
本期講座吸引近百名參會者云端聚首,未來Altair期待與江蘇省汽車工程學會繼續攜手合作,共同推動AI與仿真技術的深度結合,助力汽車行業邁向更智能、更高效的研發新時代。
A
申請免費試用
如您對 Altair 產品及解決方案感興趣
歡迎掃描二維碼申請免費試用:
近期會議推薦
Altair 今年將分別在北京、上海、成都、深圳舉辦 “AI驅動,仿真未來” 2025 Altair 區域技術交流會。會議將匯聚不同行業專家與先鋒企業,共同探討仿真智能化如何賦能工業創新,分享最新仿真與 AI 技術的應用實踐。歡迎在您就近的區域報名參會,與我們進行技術交流和行業分享。
展開 BERT模型的應用回顧(階段性總結)
BERT的預訓練有兩個目標: (1) Masked Language Modeling (MLM): 掩蔽語言模擬(MLM)---取一個句子,模型隨機掩蔽輸入中15%的單詞,然后通過模型運行整個掩蔽的句子預測掩蔽的單詞。這與傳統的遞歸神經網絡RNN不同,RNN通常是一個接一個地看單詞,或者與自回歸模型GPT不同,GPT在內部屏蔽未來的標記, 而MLM允許模型學習句子的雙向表示,這樣的訓練為需要雙向語境的下游任務,如SQuAD奠定了堅實基礎。程序為 geotech-fill-mask.py, 代表性例子:完形填空---遮蔽式語言模擬(Masked Language Modeling). (2) Next Sentence Prediction (NSP): 下一句預測(NSP)---模型在預訓練期間將兩個被掩蓋的句子連接起來作為輸入。作為隨機變量, 有時它們對應于原文中彼此相鄰的句子,有時則不是,然后該模型預測這兩個句子是否彼此相接。
BERT模型可以用來提取對下游任務有用的特征, 是我們迄今為止使用最廣泛的模型,這個筆記簡要總結了目前BERT在我們工作中的應用,包括使用的工具及其技術。
2 主題模擬
主題模擬(Topic Modeling)是一種從大量非結構化文本中提取隱藏主題的技術,面臨的挑戰是如何提取出清晰、分離和有意義的高質量主題,這在很大程度上取決于文本預處理的質量和尋找最佳主題數量的策略,因此主題模擬在很大程度上是一門藝術。BERT在主題模擬方面表現突出,目前主要使用下述方法進行主題模擬:
(1) BERTopic---利用Transformers等模型嵌入,用UMAP來降低嵌入的維度; 用HDBSCAN對減少的嵌入進行聚類,并創建語義相似的文件群,用c-TF-IDF提取和減少主題,提高具有最大邊際相關性的詞匯連貫性。
展開 三個庫更新到了最新版本---Transformers, BERTopic和Gensim
不得已而為之---CPU下使用gpt2-large模型進行微調訓練
GeotechSet數據集在GPT2上的訓練過程
3 Bertopic
2021年9月1日, 發布了bertopic 0.9.1, 主要用它進行主題模擬.
BERTopic(V0.9.0)主題模擬技術
4 Gensim
2021年8月30日, 發布了gensim 4.1.0, 主要使用它的Word2Vec功能;
語義相似模型(Doc2Vec)在雙語教學中的應用
5 Spacy
2021年8月20日, 發布了spacy 3.1.2, 主要使用基于這個庫的sense2Vec和pytextrank.
sense2vec---基于語境的詞向量(Contextually-keyed word vectors)
PyTextRank---文本關鍵字(keywords)的自動取出
展開