不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

主題模擬的案例

GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling)
1 引言 主題模擬(Topic Modeling)是一種從大量非結(jié)構(gòu)化文本中提取隱藏主題的技術(shù)。面臨的挑戰(zhàn)是如何提取出清晰、分離和有意義的高質(zhì)量主題,這在很大程度上取決于文本預(yù)處理的質(zhì)量和尋找最佳主題數(shù)量的策略。Latent Dirichlet Allocation(LDA)是一種流行的主題模擬算法。LDA主題模擬方法的本質(zhì)是尋找文檔內(nèi)的關(guān)鍵詞分布,通過關(guān)鍵詞的聚合確定主題內(nèi)容,在《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》中我們使用了LdaModel和k-mean算法兩種算法進(jìn)行了主題模擬。本文在此基礎(chǔ)上討論了主題模擬的最新進(jìn)展。 rock slopes toppling failure stability analysis Stability analysis of steep rock slopes 巖石邊坡穩(wěn)定性分析方法簡述 Stability Analyses of Jointed Rock Slopes with Counter-tilted Failure Soil-Rock Slope Stability Analysis by Considering the Nonuniformity of Rocks intake slope 2 小數(shù)據(jù)集準(zhǔn)備 這個小型的數(shù)據(jù)集由三部分組成:第一部分選擇了GeotechSet數(shù)據(jù)集的Rock Mechanics子集,把所有的文檔名稱匯集成一個文件,大約5000個文檔標(biāo)題;第二部分選擇了本公眾號的大約370篇文章的標(biāo)題,這部分主要是中文;第三部分選擇了Chuquicamata礦和Palabora礦的一些文檔,總的文件尺寸大約730k。
展開
主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例
1 引言 如前所說(GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling); LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例), 主題模擬是一種從大量非結(jié)構(gòu)化文本中提取隱藏主題的技術(shù), 主要挑戰(zhàn)是如何從大量文本中提取出清晰、分離而且有意義的高質(zhì)量主題,這在很大程度上取決于文本預(yù)處理的質(zhì)量和尋找最佳主題數(shù)量的策略,因此主題模擬在很大程度上是一門藝術(shù)。本文使用了一種多階段的主題模擬技術(shù)分離出高質(zhì)量的主題,并通過詞匯云加以展示。 2 限定范圍 從原始的數(shù)據(jù)集GeotechSet中提取主題不是一個很好的策略。一方面原始數(shù)據(jù)集太大,運(yùn)行時間太長;另一方面分離出的主題太多導(dǎo)致主題過于離散。因此第一步需要縮小主題的范圍。在本文中,我們考慮主題"Step-Path Failure", 首先使用代碼geotech-flashtext-passages.py從抽取出所有包含這個短語的段落,得到輸入文件input.txt(715k). 以這個文件作為基礎(chǔ)進(jìn)行主題模擬。 3 主題模擬 在得到范圍縮小的數(shù)據(jù)集后,開始進(jìn)行主題模擬。使用的模型是distiluse-base-multilingual-cased,這是一個多語言的BERT模型,測試結(jié)果表明,這個模型比Doc2Vec模型得出的結(jié)果好。就像我們預(yù)期的一樣,由于數(shù)據(jù)已經(jīng)相對集中,因此這個縮小的數(shù)據(jù)集僅得出2個主題。 (1) 第一個主題 第一個主題的詞匯云圖如上所示。從這個圖中可以看出主題的重要性等級,rockslides和fracture位于第一層次;instability,bridges,cement位于第二層次。
展開
BERTopic(V0.9.0)主題模擬技術(shù)
(3) 創(chuàng)建主題表征(Create topic representation) 用c-TF-IDF提取和減少主題; 提高具有最大邊際相關(guān)性的詞匯的連貫性. 4 產(chǎn)生主題 為了便于比較,使用《主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例》中的數(shù)據(jù)集,這是一個基于關(guān)鍵詞step-path failure的數(shù)據(jù)集,在那篇筆記中,采用Top2Vec庫進(jìn)行了主題模擬,結(jié)果產(chǎn)生出兩個非常近似的主題, 其中最核心的關(guān)鍵詞是rockslides和fracture。 BERTopic默認(rèn)的模型是paraphrase-MiniLM-L6-v2, 以前曾經(jīng)使用過這個模型(聯(lián)合6種Transformers預(yù)訓(xùn)練模型). 同樣的數(shù)據(jù)使用BERTopic產(chǎn)生出如下19個主題
展開
Top2Vec (V1.0.26)主題模擬代碼的改進(jìn)
1 引言 在目前的工作中,使用了三種主題模擬技術(shù):(1) LDA(LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例); (2) BERTopic(BERTopic(V0.9.0)主題模擬技術(shù)); 以及(3)Top2Vec(GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling); 主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例). 第一種技術(shù)由于性能較差逐漸被淘汰,因此著重點(diǎn)主要放在第二種和第三種技術(shù)上,這兩種技術(shù)的共同點(diǎn)是利用了BERT模型。本文討論了昨天對Top2Vec-Topic-Modeling代碼的一些改進(jìn)以及應(yīng)用時的注意事項(xiàng),這些改進(jìn)增強(qiáng)了程序的移植性,計(jì)算結(jié)果的精確性和均衡性以及后處理的便利性。 2 改進(jìn)要點(diǎn) 2.1 自動化CPU的核心數(shù) 盡管Torch提供了GPU的計(jì)算能力,但是在目前Top2Vec的訓(xùn)練過程中仍然使用的是CPU。在大規(guī)模的數(shù)值計(jì)算中都使用了多線程運(yùn)算,包括FLAC3D和3DEC,參看《FLAC3D 7.0 新特性簡介(P1)---速度提升》和《確定性模式(model deterministic on)》。workers用來設(shè)定訓(xùn)練模型時要使用的工作線程的數(shù)量,雖然我們沒有定量地測試過workers數(shù)量對運(yùn)行速度的影響,但總的來說,較大的數(shù)量將導(dǎo)致更快的訓(xùn)練。使用下面的代碼最大化地使用CPU的core,這樣在不同機(jī)器運(yùn)行代碼時就不必手工改寫數(shù)字了。目前我的計(jì)算機(jī)CPU的核心數(shù)是16.
展開
主題模擬圖1
模擬到回收:熱塑性復(fù)合材料當(dāng)前主題和趨勢
該活動得到了來自世界各地的50家研究機(jī)構(gòu)和公司的支持 - 比以往任何時候都更加重要,并且標(biāo)志著該主題的重要性。 碳纖維布https://www.hongyantu.com/index.php?r=new%2Fview&id=2859
BERT模型的應(yīng)用回顧(階段性總結(jié))
BERT的預(yù)訓(xùn)練有兩個目標(biāo): (1) Masked Language Modeling (MLM): 掩蔽語言模擬(MLM)---取一個句子,模型隨機(jī)掩蔽輸入中15%的單詞,然后通過模型運(yùn)行整個掩蔽的句子預(yù)測掩蔽的單詞。這與傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)RNN不同,RNN通常是一個接一個地看單詞,或者與自回歸模型GPT不同,GPT在內(nèi)部屏蔽未來的標(biāo)記, 而MLM允許模型學(xué)習(xí)句子的雙向表示,這樣的訓(xùn)練為需要雙向語境的下游任務(wù),如SQuAD奠定了堅(jiān)實(shí)基礎(chǔ)。程序?yàn)?geotech-fill-mask.py, 代表性例子:完形填空---遮蔽式語言模擬(Masked Language Modeling). (2) Next Sentence Prediction (NSP): 下一句預(yù)測(NSP)---模型在預(yù)訓(xùn)練期間將兩個被掩蓋的句子連接起來作為輸入。作為隨機(jī)變量, 有時它們對應(yīng)于原文中彼此相鄰的句子,有時則不是,然后該模型預(yù)測這兩個句子是否彼此相接。 BERT模型可以用來提取對下游任務(wù)有用的特征, 是我們迄今為止使用最廣泛的模型,這個筆記簡要總結(jié)了目前BERT在我們工作中的應(yīng)用,包括使用的工具及其技術(shù)。 2 主題模擬 主題模擬(Topic Modeling)是一種從大量非結(jié)構(gòu)化文本中提取隱藏主題的技術(shù),面臨的挑戰(zhàn)是如何提取出清晰、分離和有意義的高質(zhì)量主題,這在很大程度上取決于文本預(yù)處理的質(zhì)量和尋找最佳主題數(shù)量的策略,因此主題模擬在很大程度上是一門藝術(shù)。BERT在主題模擬方面表現(xiàn)突出,目前主要使用下述方法進(jìn)行主題模擬: (1) BERTopic---利用Transformers等模型嵌入,用UMAP來降低嵌入的維度; 用HDBSCAN對減少的嵌入進(jìn)行聚類,并創(chuàng)建語義相似的文件群,用c-TF-IDF提取和減少主題,提高具有最大邊際相關(guān)性的詞匯連貫性。
展開
零點(diǎn)文本分類(Zero Shot Text Classification)
1 引言 在過去的文章中,我們使用了不同的技術(shù)來進(jìn)行主題模擬,主要包括LDA,Top2Vec和BERTopic, 這些技術(shù)能夠從大量文本中進(jìn)行文本分類聚合出一類主題主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例 BERTopic(V0.9.0)主題模擬技術(shù) GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling) Top2Vec (V1.0.26)主題模擬代碼的改進(jìn) LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例 另一種非常有趣的主題模擬技術(shù)稱為零點(diǎn)文本分類(Zero Shot Text Classification),這種技術(shù)是根據(jù)用戶指定的分類標(biāo)簽來判斷一段文本是否屬于這個類別。例如:“one day I will see the world"這個句子,我們給定三個分類標(biāo)簽['travel', 'cooking', 'dancing'],盡管句子中沒有出現(xiàn)"travel", 通過學(xué)習(xí)我們可以判別出這個句子屬于'travel'類別。這就是零點(diǎn)文本分類的核心。 2 模型選擇 在本次試驗(yàn)中,我們使用了兩個預(yù)訓(xùn)練模型,這兩個模型的區(qū)別是微調(diào)使用的數(shù)據(jù)集不同。 一個是bart-large-mnli,這是bart-large在MultiNLI(MNLI)數(shù)據(jù)集上訓(xùn)練后的檢查點(diǎn)[BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension]。
展開
三個庫更新到了最新版本---Transformers, BERTopic和Gensim
不得已而為之---CPU下使用gpt2-large模型進(jìn)行微調(diào)訓(xùn)練 GeotechSet數(shù)據(jù)集在GPT2上的訓(xùn)練過程 3 Bertopic 2021年9月1日, 發(fā)布了bertopic 0.9.1, 主要用它進(jìn)行主題模擬. BERTopic(V0.9.0)主題模擬技術(shù) 4 Gensim 2021年8月30日, 發(fā)布了gensim 4.1.0, 主要使用它的Word2Vec功能; 語義相似模型(Doc2Vec)在雙語教學(xué)中的應(yīng)用 5 Spacy 2021年8月20日, 發(fā)布了spacy 3.1.2, 主要使用基于這個庫的sense2Vec和pytextrank. sense2vec---基于語境的詞向量(Contextually-keyed word vectors) PyTextRank---文本關(guān)鍵字(keywords)的自動取出
展開
巖石邊坡工程大數(shù)據(jù)處理---階段性總結(jié)(R1)
這項(xiàng)研究的核心內(nèi)容是運(yùn)用先進(jìn)的自然語言處理技術(shù)來處理巖石邊坡工程文獻(xiàn),其最終目的主要有兩個:一個是從大數(shù)據(jù)挖掘中產(chǎn)生新的概念,主題以及論文的自動生成;另一個是改進(jìn)和輔助雙語教學(xué)。這個研究報(bào)告由兩大部分組成,第一部分描述了數(shù)據(jù)集的建立,第二部分討論了數(shù)據(jù)處理使用的工具和技術(shù)。 2 數(shù)據(jù)集建立 整個數(shù)據(jù)集按照巖石邊坡工程的核心主題劃分為如下子集: (1) 巖石強(qiáng)度和變形; (2) 離散斷裂網(wǎng)絡(luò)和巖橋; (3) 工程巖體分類; (4) 邊坡穩(wěn)定性分析; (5) 巖石錨桿; (6) 地表沉降; (7) Itasca軟件模擬; (8) 其它軟件模擬;(Plaxis, Rocscience,Abaqus) (9) 場地安全地震評價; (10) 邊坡工程實(shí)例; (11) 大型露天礦,包括Chuquicamata, Bingham Canyon, Palabora, Diavik 3 數(shù)據(jù)處理 這一部分主要是通過一系列代碼處理上述發(fā)展的數(shù)據(jù)集。
展開
巖體不連續(xù)提取工具---Discontinuity Set Extractor (DSE)
DSE使用了MATLAB的兩個工具箱(toolbox),一個是Computer Vision Toolbox (CVT),可以對3D點(diǎn)云進(jìn)行快速的可視化;另一個是Statistics and Machine Learning Toolbox (SMLT),SMLT使用了dbscan功能,一種機(jī)器學(xué)習(xí)的聚類算法,我們在自然語言處理中曾經(jīng)使用過dbscan算法【BERT模型的應(yīng)用回顧(階段性總結(jié));BERTopic(V0.9.0)主題模擬技術(shù)】。 3 應(yīng)用 一個巖石邊坡使用LiDAR激光掃描儀獲得了1,515,722個掃描點(diǎn),其間距小于2厘米,加載數(shù)據(jù)XYZI(坐標(biāo)和反射率)。 對每個點(diǎn)搜索其knn最相鄰的點(diǎn),然后進(jìn)行共面性測試,計(jì)算法向矢量和極點(diǎn)的密度,提取出最具代表性的極點(diǎn),因此得到主要平面的產(chǎn)狀。 使用DSE對點(diǎn)云進(jìn)行分類,然后進(jìn)行聚類分析,取出5個不連續(xù)組(J1~J5)。
展開
完整日程搶先看!Altair EDEM 離散元仿真技術(shù)大會火熱報(bào)名中
演講主題:DEM 方法在山鋼煉鐵工藝中的應(yīng)用 + + + + + 朱咸磊 Altair EDEM 技術(shù)工程師 演講主題:API 開發(fā)、模型優(yōu)化及人工智能的融合應(yīng)用 + + + + + 宋孚楊 總經(jīng)理 | 深圳市德頤姆科技有限公司 演講主題:基于離散元技術(shù)的破碎工藝仿真分析 + + + + + 龔明 技術(shù)總監(jiān) | 北京合工仿真技術(shù)有限公司 演講主題:顆粒多相流模擬技術(shù)最新進(jìn)展及工程應(yīng)用 + + + + + 陳金秋 技術(shù)經(jīng)理 | 深圳市德頤姆科技有限公司 演講主題:斗輪掘進(jìn)機(jī)仿真分析 來自工程機(jī)械、鋼鐵冶金、水泥、醫(yī)藥和環(huán)保等行業(yè)的重量級嘉賓,將在機(jī)械和運(yùn)載工程及過程工藝和裝備兩大分會場進(jìn)行特邀演講。
展開
主題模擬圖2
元宇宙 | Ansys XR模擬/驗(yàn)證技術(shù)在線論壇即將上線
3月24日,一場主題為「XR模擬/驗(yàn)證技術(shù)在線論壇」即將上線,擁有業(yè)內(nèi)最完整光學(xué)仿真解決方案的Ansys將詳細(xì)展示如何利用OpticalStudio、Lumerical、Speos與Mechanical四大仿真工具,在元宇宙中構(gòu)建出涵蓋設(shè)計(jì)、仿真、性能與散熱可靠度驗(yàn)證的完整XR設(shè)備開發(fā)流程,論壇還邀請到佐臻董事長梁文隆前來解析AR產(chǎn)業(yè)的發(fā)展趨勢。 這場結(jié)合產(chǎn)業(yè)與技術(shù)兩大趨勢的在線論壇,將是相關(guān)從業(yè)人員系統(tǒng)性了解仿真技術(shù)在元宇宙中應(yīng)用的絕佳機(jī)會,本次活動參會名額有限,請盡快報(bào)名預(yù)留席位!
Benchmark test 札記——記錄時間都去哪兒了
1 國際大壩委員會(International Commission On Large Dams, ICOLD)數(shù)值模擬專委會(Computational Aspects of Analysis and Design of Dams) &中國大壩工程學(xué)會——大壩數(shù)值模擬專業(yè)委員會 中國大壩工程學(xué)會與國際大壩委員會聯(lián)系緊密。由國際大壩委員會舉辦,2019年9月9日至2019年9月11日在意大利米蘭召開了第15屆國際大壩委員會大壩數(shù)值分析基準(zhǔn)研討會(15th International Benchmark Workshop on Numerical Analysis of Dams),發(fā)布了。為促進(jìn)我國數(shù)值模擬方法和技術(shù)的發(fā)展,2019年11月11日中國大壩工程學(xué)會數(shù)值模擬專委會舉辦了數(shù)值模擬進(jìn)展與展望專題研討會,確定計(jì)劃于2020年11月舉辦中國大壩工程學(xué)會數(shù)值模擬專委會第一屆數(shù)值分析基準(zhǔn)研討會,并參照第15屆國際benchmark發(fā)布的主題,于2020年2月發(fā)布了三個benchmark競賽問題(題目發(fā)布網(wǎng)址:http://damcenter.cn/nd.jsp?id=528),包括重力壩地震反應(yīng)的數(shù)值模擬、土石壩地震反應(yīng)的數(shù)值模擬和土堤變形破壞的數(shù)值模擬主題,給出了考例詳細(xì)的幾何模型、材料、工況條件、計(jì)算要求等詳細(xì)基本要求。 2 美國有限元方法協(xié)會(NAFEMS),Benchmark雜志 美國有限元方法協(xié)會(National Association for Finite Element Methods Society, NAFEMS)協(xié)會網(wǎng)址:https://www.nafems.org/。
展開
演講嘉賓揭曉!Ansys 2024 全球仿真大會邀您共赴蘇州參會交流
包永濤 | 重慶金康賽力斯新能源汽車設(shè)計(jì)院有限公司 整車安全部約束系統(tǒng)工程師 演講主題:基于LS-DYNA的Thor AV假人大傾角零重力座椅仿真分析 黃宇鵬 | Ansys DYNAmore主任應(yīng)用工程師 演講主題:虛擬測評流程和WorldSID50th假人模型開發(fā)更新 第六屆LS-DYNA中國技術(shù)論壇分會場2: 先進(jìn)模擬技術(shù) 易長平 | 呂勒奧理工大學(xué) 采礦與巖土工程系/瑞典爆破研究中心高級講師 演講主題:基于LS-DYNA的地下工程爆破模擬 薛飛 | 中泰模具 研發(fā)總工程師 演講主題:Ansys Forming最新開發(fā)進(jìn)展及應(yīng)用介紹 潘小飛 | Ansys 首席研發(fā)工程師 演講主題:LS-DYNA ISPG方法更新及其在制造過程仿真中的應(yīng)用 張?zhí)鞐?| 寶山鋼鐵股份有限公司中央研究院 助理研究員 演講主題:超高強(qiáng)鋼焊點(diǎn)碰撞失效模擬研究 唐克輝 | TTI 工程部經(jīng)理 演講主題:LS-DYNA助力電動工具開發(fā) 車全偉 | 中車青島四方機(jī)車車輛股份有限公司 國家工程技術(shù)研究中心主任研發(fā)師 演講主題:軌道交通裝備碰撞安全關(guān)鍵技術(shù)應(yīng)用研究 柳春 | 廣東和立交通養(yǎng)護(hù)科技有限公司 副總工兼研發(fā)中心主任 演講主題:偶然沖擊荷載作用下土木工程結(jié)構(gòu)的仿真評估分析 白琳琳 | 巴斯夫(中國)有限公司 PM工程師 演講主題:鞋底防滑性能仿真 王凱 | Ansys 主任研發(fā)工程師 演講主題:LS-PrePost 4.12最新功能和開發(fā)進(jìn)展 數(shù)字化安全技術(shù)大會分會場1:安全分析 王科 | 辰致科技股份有限公司 線控轉(zhuǎn)向產(chǎn)品部功能安全經(jīng)理 演講主題:MA在轉(zhuǎn)向系統(tǒng)開發(fā)中的實(shí)際應(yīng)用 張嬋 | 南德商品檢測(上海)有限公司 功能安全工程師
展開