發(fā)布

主題模擬的案例

GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling)

1 引言 主題模擬(Topic Modeling)是一種從大量非結(jié)構(gòu)化文本中提取隱藏主題的技術(shù)。面臨的挑戰(zhàn)是如何提取出清晰、分離和有意義的高質(zhì)量主題，這在很大程度上取決于文本預(yù)處理的質(zhì)量和尋找最佳主題數(shù)量的策略。Latent Dirichlet Allocation(LDA)是一種流行的主題模擬算法。LDA主題模擬方法的本質(zhì)是尋找文檔內(nèi)的關(guān)鍵詞分布，通過關(guān)鍵詞的聚合確定主題內(nèi)容，在《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》中我們使用了LdaModel和k-mean算法兩種算法進(jìn)行了主題模擬。本文在此基礎(chǔ)上討論了主題模擬的最新進(jìn)展。 rock slopes toppling failure stability analysis Stability analysis of steep rock slopes 巖石邊坡穩(wěn)定性分析方法簡述 Stability Analyses of Jointed Rock Slopes with Counter-tilted Failure Soil-Rock Slope Stability Analysis by Considering the Nonuniformity of Rocks intake slope 2 小數(shù)據(jù)集準(zhǔn)備這個小型的數(shù)據(jù)集由三部分組成：第一部分選擇了GeotechSet數(shù)據(jù)集的Rock Mechanics子集，把所有的文檔名稱匯集成一個文件，大約5000個文檔標(biāo)題；第二部分選擇了本公眾號的大約370篇文章的標(biāo)題，這部分主要是中文；第三部分選擇了Chuquicamata礦和Palabora礦的一些文檔，總的文件尺寸大約730k。

展開

主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例

1 引言如前所說(GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling); LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例), 主題模擬是一種從大量非結(jié)構(gòu)化文本中提取隱藏主題的技術(shù), 主要挑戰(zhàn)是如何從大量文本中提取出清晰、分離而且有意義的高質(zhì)量主題，這在很大程度上取決于文本預(yù)處理的質(zhì)量和尋找最佳主題數(shù)量的策略，因此主題模擬在很大程度上是一門藝術(shù)。本文使用了一種多階段的主題模擬技術(shù)分離出高質(zhì)量的主題，并通過詞匯云加以展示。 2 限定范圍從原始的數(shù)據(jù)集GeotechSet中提取主題不是一個很好的策略。一方面原始數(shù)據(jù)集太大，運(yùn)行時間太長；另一方面分離出的主題太多導(dǎo)致主題過于離散。因此第一步需要縮小主題的范圍。在本文中，我們考慮主題"Step-Path Failure", 首先使用代碼geotech-flashtext-passages.py從抽取出所有包含這個短語的段落，得到輸入文件input.txt(715k). 以這個文件作為基礎(chǔ)進(jìn)行主題模擬。 3 主題模擬 在得到范圍縮小的數(shù)據(jù)集后，開始進(jìn)行主題模擬。使用的模型是distiluse-base-multilingual-cased，這是一個多語言的BERT模型，測試結(jié)果表明，這個模型比Doc2Vec模型得出的結(jié)果好。就像我們預(yù)期的一樣，由于數(shù)據(jù)已經(jīng)相對集中，因此這個縮小的數(shù)據(jù)集僅得出2個主題。 (1) 第一個主題第一個主題的詞匯云圖如上所示。從這個圖中可以看出主題的重要性等級，rockslides和fracture位于第一層次；instability,bridges,cement位于第二層次。

展開

BERTopic(V0.9.0)主題模擬技術(shù)

(3) 創(chuàng)建主題表征(Create topic representation) 用c-TF-IDF提取和減少主題; 提高具有最大邊際相關(guān)性的詞匯的連貫性. 4 產(chǎn)生主題為了便于比較，使用《主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例》中的數(shù)據(jù)集，這是一個基于關(guān)鍵詞step-path failure的數(shù)據(jù)集，在那篇筆記中，采用Top2Vec庫進(jìn)行了主題模擬，結(jié)果產(chǎn)生出兩個非常近似的主題, 其中最核心的關(guān)鍵詞是rockslides和fracture。 BERTopic默認(rèn)的模型是paraphrase-MiniLM-L6-v2, 以前曾經(jīng)使用過這個模型(聯(lián)合6種Transformers預(yù)訓(xùn)練模型). 同樣的數(shù)據(jù)使用BERTopic產(chǎn)生出如下19個主題。

展開

Top2Vec (V1.0.26)主題模擬代碼的改進(jìn)

1 引言在目前的工作中，使用了三種主題模擬技術(shù)：(1) LDA(LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例); (2) BERTopic(BERTopic(V0.9.0)主題模擬技術(shù)); 以及(3)Top2Vec(GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling); 主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例). 第一種技術(shù)由于性能較差逐漸被淘汰，因此著重點(diǎn)主要放在第二種和第三種技術(shù)上，這兩種技術(shù)的共同點(diǎn)是利用了BERT模型。本文討論了昨天對Top2Vec-Topic-Modeling代碼的一些改進(jìn)以及應(yīng)用時的注意事項(xiàng)，這些改進(jìn)增強(qiáng)了程序的移植性，計(jì)算結(jié)果的精確性和均衡性以及后處理的便利性。 2 改進(jìn)要點(diǎn) 2.1 自動化CPU的核心數(shù) 盡管Torch提供了GPU的計(jì)算能力，但是在目前Top2Vec的訓(xùn)練過程中仍然使用的是CPU。在大規(guī)模的數(shù)值計(jì)算中都使用了多線程運(yùn)算，包括FLAC3D和3DEC，參看《FLAC3D 7.0 新特性簡介(P1)---速度提升》和《確定性模式(model deterministic on)》。workers用來設(shè)定訓(xùn)練模型時要使用的工作線程的數(shù)量，雖然我們沒有定量地測試過workers數(shù)量對運(yùn)行速度的影響，但總的來說，較大的數(shù)量將導(dǎo)致更快的訓(xùn)練。使用下面的代碼最大化地使用CPU的core，這樣在不同機(jī)器運(yùn)行代碼時就不必手工改寫數(shù)字了。目前我的計(jì)算機(jī)CPU的核心數(shù)是16.

展開

從模擬到回收：熱塑性復(fù)合材料當(dāng)前主題和趨勢

該活動得到了來自世界各地的50家研究機(jī)構(gòu)和公司的支持 - 比以往任何時候都更加重要，并且標(biāo)志著該主題的重要性。碳纖維布https://www.hongyantu.com/index.php?r=new%2Fview&id=2859

BERT模型的應(yīng)用回顧(階段性總結(jié))

BERT的預(yù)訓(xùn)練有兩個目標(biāo): (1) Masked Language Modeling (MLM): 掩蔽語言模擬(MLM)---取一個句子，模型隨機(jī)掩蔽輸入中15%的單詞，然后通過模型運(yùn)行整個掩蔽的句子預(yù)測掩蔽的單詞。這與傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)RNN不同，RNN通常是一個接一個地看單詞，或者與自回歸模型GPT不同，GPT在內(nèi)部屏蔽未來的標(biāo)記, 而MLM允許模型學(xué)習(xí)句子的雙向表示，這樣的訓(xùn)練為需要雙向語境的下游任務(wù)，如SQuAD奠定了堅(jiān)實(shí)基礎(chǔ)。程序?yàn)?geotech-fill-mask.py, 代表性例子：完形填空---遮蔽式語言模擬(Masked Language Modeling). (2) Next Sentence Prediction (NSP): 下一句預(yù)測(NSP)---模型在預(yù)訓(xùn)練期間將兩個被掩蓋的句子連接起來作為輸入。作為隨機(jī)變量, 有時它們對應(yīng)于原文中彼此相鄰的句子，有時則不是，然后該模型預(yù)測這兩個句子是否彼此相接。 BERT模型可以用來提取對下游任務(wù)有用的特征, 是我們迄今為止使用最廣泛的模型，這個筆記簡要總結(jié)了目前BERT在我們工作中的應(yīng)用，包括使用的工具及其技術(shù)。 2 主題模擬 主題模擬(Topic Modeling)是一種從大量非結(jié)構(gòu)化文本中提取隱藏主題的技術(shù)，面臨的挑戰(zhàn)是如何提取出清晰、分離和有意義的高質(zhì)量主題，這在很大程度上取決于文本預(yù)處理的質(zhì)量和尋找最佳主題數(shù)量的策略，因此主題模擬在很大程度上是一門藝術(shù)。BERT在主題模擬方面表現(xiàn)突出，目前主要使用下述方法進(jìn)行主題模擬： (1) BERTopic---利用Transformers等模型嵌入，用UMAP來降低嵌入的維度; 用HDBSCAN對減少的嵌入進(jìn)行聚類，并創(chuàng)建語義相似的文件群，用c-TF-IDF提取和減少主題，提高具有最大邊際相關(guān)性的詞匯連貫性。

展開

零點(diǎn)文本分類(Zero Shot Text Classification)

1 引言在過去的文章中，我們使用了不同的技術(shù)來進(jìn)行主題模擬，主要包括LDA，Top2Vec和BERTopic, 這些技術(shù)能夠從大量文本中進(jìn)行文本分類聚合出一類主題。 主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例 BERTopic(V0.9.0)主題模擬技術(shù) GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling) Top2Vec (V1.0.26)主題模擬代碼的改進(jìn) LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例另一種非常有趣的主題模擬技術(shù)稱為零點(diǎn)文本分類(Zero Shot Text Classification)，這種技術(shù)是根據(jù)用戶指定的分類標(biāo)簽來判斷一段文本是否屬于這個類別。例如：“one day I will see the world"這個句子，我們給定三個分類標(biāo)簽['travel', 'cooking', 'dancing']，盡管句子中沒有出現(xiàn)"travel", 通過學(xué)習(xí)我們可以判別出這個句子屬于'travel'類別。這就是零點(diǎn)文本分類的核心。 2 模型選擇在本次試驗(yàn)中，我們使用了兩個預(yù)訓(xùn)練模型，這兩個模型的區(qū)別是微調(diào)使用的數(shù)據(jù)集不同。一個是bart-large-mnli，這是bart-large在MultiNLI(MNLI)數(shù)據(jù)集上訓(xùn)練后的檢查點(diǎn)[BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension]。

展開

三個庫更新到了最新版本---Transformers, BERTopic和Gensim

不得已而為之---CPU下使用gpt2-large模型進(jìn)行微調(diào)訓(xùn)練 GeotechSet數(shù)據(jù)集在GPT2上的訓(xùn)練過程 3 Bertopic 2021年9月1日, 發(fā)布了bertopic 0.9.1, 主要用它進(jìn)行主題模擬. BERTopic(V0.9.0)主題模擬技術(shù) 4 Gensim 2021年8月30日, 發(fā)布了gensim 4.1.0, 主要使用它的Word2Vec功能; 語義相似模型(Doc2Vec)在雙語教學(xué)中的應(yīng)用 5 Spacy 2021年8月20日, 發(fā)布了spacy 3.1.2, 主要使用基于這個庫的sense2Vec和pytextrank. sense2vec---基于語境的詞向量(Contextually-keyed word vectors) PyTextRank---文本關(guān)鍵字(keywords)的自動取出

展開

巖石邊坡工程大數(shù)據(jù)處理---階段性總結(jié)(R1)

這項(xiàng)研究的核心內(nèi)容是運(yùn)用先進(jìn)的自然語言處理技術(shù)來處理巖石邊坡工程文獻(xiàn)，其最終目的主要有兩個：一個是從大數(shù)據(jù)挖掘中產(chǎn)生新的概念，主題以及論文的自動生成；另一個是改進(jìn)和輔助雙語教學(xué)。這個研究報(bào)告由兩大部分組成，第一部分描述了數(shù)據(jù)集的建立，第二部分討論了數(shù)據(jù)處理使用的工具和技術(shù)。 2 數(shù)據(jù)集建立整個數(shù)據(jù)集按照巖石邊坡工程的核心主題劃分為如下子集： (1) 巖石強(qiáng)度和變形； (2) 離散斷裂網(wǎng)絡(luò)和巖橋; (3) 工程巖體分類; (4) 邊坡穩(wěn)定性分析; (5) 巖石錨桿; (6) 地表沉降; (7) Itasca軟件模擬; (8) 其它軟件模擬；(Plaxis, Rocscience，Abaqus) (9) 場地安全地震評價; (10) 邊坡工程實(shí)例; (11) 大型露天礦，包括Chuquicamata, Bingham Canyon, Palabora, Diavik 3 數(shù)據(jù)處理這一部分主要是通過一系列代碼處理上述發(fā)展的數(shù)據(jù)集。

展開

巖體不連續(xù)提取工具---Discontinuity Set Extractor (DSE)

DSE使用了MATLAB的兩個工具箱(toolbox)，一個是Computer Vision Toolbox (CVT)，可以對3D點(diǎn)云進(jìn)行快速的可視化；另一個是Statistics and Machine Learning Toolbox (SMLT)，SMLT使用了dbscan功能，一種機(jī)器學(xué)習(xí)的聚類算法，我們在自然語言處理中曾經(jīng)使用過dbscan算法【BERT模型的應(yīng)用回顧(階段性總結(jié))；BERTopic(V0.9.0)主題模擬技術(shù)】。 3 應(yīng)用一個巖石邊坡使用LiDAR激光掃描儀獲得了1,515,722個掃描點(diǎn)，其間距小于2厘米，加載數(shù)據(jù)XYZI(坐標(biāo)和反射率)。對每個點(diǎn)搜索其knn最相鄰的點(diǎn)，然后進(jìn)行共面性測試，計(jì)算法向矢量和極點(diǎn)的密度，提取出最具代表性的極點(diǎn)，因此得到主要平面的產(chǎn)狀。使用DSE對點(diǎn)云進(jìn)行分類，然后進(jìn)行聚類分析，取出5個不連續(xù)組(J1~J5)。

展開

完整日程搶先看！Altair EDEM 離散元仿真技術(shù)大會火熱報(bào)名中

演講主題：DEM 方法在山鋼煉鐵工藝中的應(yīng)用 + + + + + 朱咸磊 Altair EDEM 技術(shù)工程師演講主題：API 開發(fā)、模型優(yōu)化及人工智能的融合應(yīng)用 + + + + + 宋孚楊總經(jīng)理 | 深圳市德頤姆科技有限公司演講主題：基于離散元技術(shù)的破碎工藝仿真分析 + + + + + 龔明技術(shù)總監(jiān) | 北京合工仿真技術(shù)有限公司演講主題：顆粒多相流模擬技術(shù)最新進(jìn)展及工程應(yīng)用 + + + + + 陳金秋技術(shù)經(jīng)理 | 深圳市德頤姆科技有限公司演講主題：斗輪掘進(jìn)機(jī)仿真分析來自工程機(jī)械、鋼鐵冶金、水泥、醫(yī)藥和環(huán)保等行業(yè)的重量級嘉賓，將在機(jī)械和運(yùn)載工程及過程工藝和裝備兩大分會場進(jìn)行特邀演講。

展開

元宇宙 | Ansys XR模擬/驗(yàn)證技術(shù)在線論壇即將上線

3月24日，一場主題為「XR模擬/驗(yàn)證技術(shù)在線論壇」即將上線，擁有業(yè)內(nèi)最完整光學(xué)仿真解決方案的Ansys將詳細(xì)展示如何利用OpticalStudio、Lumerical、Speos與Mechanical四大仿真工具，在元宇宙中構(gòu)建出涵蓋設(shè)計(jì)、仿真、性能與散熱可靠度驗(yàn)證的完整XR設(shè)備開發(fā)流程，論壇還邀請到佐臻董事長梁文隆前來解析AR產(chǎn)業(yè)的發(fā)展趨勢。這場結(jié)合產(chǎn)業(yè)與技術(shù)兩大趨勢的在線論壇，將是相關(guān)從業(yè)人員系統(tǒng)性了解仿真技術(shù)在元宇宙中應(yīng)用的絕佳機(jī)會，本次活動參會名額有限，請盡快報(bào)名預(yù)留席位！

Benchmark test 札記——記錄時間都去哪兒了

1 國際大壩委員會（International Commission On Large Dams, ICOLD）數(shù)值模擬專委會(Computational Aspects of Analysis and Design of Dams) &中國大壩工程學(xué)會——大壩數(shù)值模擬專業(yè)委員會中國大壩工程學(xué)會與國際大壩委員會聯(lián)系緊密。由國際大壩委員會舉辦，2019年9月9日至2019年9月11日在意大利米蘭召開了第15屆國際大壩委員會大壩數(shù)值分析基準(zhǔn)研討會（15th International Benchmark Workshop on Numerical Analysis of Dams），發(fā)布了。為促進(jìn)我國數(shù)值模擬方法和技術(shù)的發(fā)展，2019年11月11日中國大壩工程學(xué)會數(shù)值模擬專委會舉辦了數(shù)值模擬進(jìn)展與展望專題研討會，確定計(jì)劃于2020年11月舉辦中國大壩工程學(xué)會數(shù)值模擬專委會第一屆數(shù)值分析基準(zhǔn)研討會，并參照第15屆國際benchmark發(fā)布的主題，于2020年2月發(fā)布了三個benchmark競賽問題（題目發(fā)布網(wǎng)址：http://damcenter.cn/nd.jsp?id=528），包括重力壩地震反應(yīng)的數(shù)值模擬、土石壩地震反應(yīng)的數(shù)值模擬和土堤變形破壞的數(shù)值模擬等主題，給出了考例詳細(xì)的幾何模型、材料、工況條件、計(jì)算要求等詳細(xì)基本要求。 2 美國有限元方法協(xié)會（NAFEMS），Benchmark雜志美國有限元方法協(xié)會（National Association for Finite Element Methods Society, NAFEMS）協(xié)會網(wǎng)址：https://www.nafems.org/。

展開

演講嘉賓揭曉！Ansys 2024 全球仿真大會邀您共赴蘇州參會交流

包永濤 | 重慶金康賽力斯新能源汽車設(shè)計(jì)院有限公司整車安全部約束系統(tǒng)工程師演講主題：基于LS-DYNA的Thor AV假人大傾角零重力座椅仿真分析黃宇鵬 | Ansys DYNAmore主任應(yīng)用工程師演講主題：虛擬測評流程和WorldSID50th假人模型開發(fā)更新第六屆LS-DYNA中國技術(shù)論壇分會場2：先進(jìn)模擬技術(shù) 易長平 | 呂勒奧理工大學(xué) 采礦與巖土工程系/瑞典爆破研究中心高級講師演講主題：基于LS-DYNA的地下工程爆破模擬薛飛 | 中泰模具研發(fā)總工程師演講主題：Ansys Forming最新開發(fā)進(jìn)展及應(yīng)用介紹潘小飛 | Ansys 首席研發(fā)工程師演講主題：LS-DYNA ISPG方法更新及其在制造過程仿真中的應(yīng)用張?zhí)鞐?| 寶山鋼鐵股份有限公司中央研究院助理研究員演講主題：超高強(qiáng)鋼焊點(diǎn)碰撞失效模擬研究唐克輝 | TTI 工程部經(jīng)理演講主題：LS-DYNA助力電動工具開發(fā) 車全偉 | 中車青島四方機(jī)車車輛股份有限公司國家工程技術(shù)研究中心主任研發(fā)師演講主題：軌道交通裝備碰撞安全關(guān)鍵技術(shù)應(yīng)用研究柳春 | 廣東和立交通養(yǎng)護(hù)科技有限公司副總工兼研發(fā)中心主任演講主題：偶然沖擊荷載作用下土木工程結(jié)構(gòu)的仿真評估分析白琳琳 | 巴斯夫（中國）有限公司 PM工程師演講主題：鞋底防滑性能仿真王凱 | Ansys 主任研發(fā)工程師演講主題：LS-PrePost 4.12最新功能和開發(fā)進(jìn)展數(shù)字化安全技術(shù)大會分會場1：安全分析王科 | 辰致科技股份有限公司線控轉(zhuǎn)向產(chǎn)品部功能安全經(jīng)理演講主題：MA在轉(zhuǎn)向系統(tǒng)開發(fā)中的實(shí)際應(yīng)用張嬋 | 南德商品檢測（上海）有限公司功能安全工程師

展開

主題模擬的相關(guān)專題、標(biāo)簽、搜索

主題模擬主題模擬技術(shù)主題聚類 ansys主題背景顏色技術(shù)鄰主題館國產(chǎn)AI生態(tài)主題特展主題 autodyn主題無法合并主題 ai cae主題月國家漢語主題詞表 cimdata 發(fā)布plm論壇主題

共14條

首頁 1 尾頁 , 到第頁

不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

主題模擬的案例

主題模擬的相關(guān)專題、標(biāo)簽、搜索