不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

<td id="sxoj8"></td>

CAE工程師認證

發(fā)布

GeotechSet的案例

一種快速在GeotechSet數(shù)據(jù)集內(nèi)查詢相似段落的方法

結(jié)果顯示在GeotechSet數(shù)據(jù)集內(nèi)共有87篇論文或段落, 基本上覆蓋了這個分支研究領(lǐng)域的所有結(jié)果。 4 結(jié)束語本文描述了一個在GeotechSet數(shù)據(jù)內(nèi)快速聚合相關(guān)段落的算法。聚合出來的內(nèi)容一方面可以用來深入了解查詢主題的研究進展，另一方面也可以直接把結(jié)果文件作為機器學習的輸入數(shù)據(jù)，例如回答問題(閱讀理解回答問題(Question Answering)---一個更強的BERT預(yù)訓練模型)，文本續(xù)寫(開放式文本生成(Open-Ended Text Generation))和文章總結(jié)(生成摘要(Summarization)的新方法)等。

GeotechSet模型的擴展和優(yōu)化---集成了aitextgen

6 結(jié)束語新的GeotechSet模型擴展了原始數(shù)據(jù)集(5.3M)，并且對數(shù)據(jù)進行了手動清洗，新的句子生成代碼集成了aitextgen，從而在某種程度上增強了結(jié)果的可靠性。我們將繼續(xù)擴展原始數(shù)據(jù)集。

GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling)

對于GeotechSet數(shù)據(jù)集(目前尺寸153M)，運行時間仍然是一個挑戰(zhàn)，按照主題細分為小的數(shù)據(jù)集從時間和質(zhì)量控制來說更有效。BTW，Transformers今天更新到V4.9.2.

GeotechSet數(shù)據(jù)集在GPT2上的訓練過程

5 結(jié)束語本文在有限的條件下使用GPT2在小的GeotechSet數(shù)據(jù)集上進行了訓練，得出了我們自己的geotech數(shù)據(jù)模型。今后逐漸加大輸入數(shù)據(jù)，使模型進化得更為完善。

語義相關(guān)的Doc2Vec模型訓練參數(shù)優(yōu)化

2 數(shù)據(jù)集現(xiàn)代自然語言處理都使用了大規(guī)模開放的預(yù)訓練集，如Gensim, Spacy, Transformers, PyTorch, Tensorflow等，而我們?yōu)榱吮３直緦I(yè)高度的集成性，采用了封閉的GeotechSet數(shù)據(jù)集，這個數(shù)據(jù)集只包括巖土工程領(lǐng)域的數(shù)據(jù)，GeotechSet是一個動態(tài)的數(shù)據(jù)集，由于不斷完善數(shù)據(jù)質(zhì)量和增加新的數(shù)據(jù)，因此產(chǎn)生的結(jié)果隨著時間在不斷變化。 3 訓練時間數(shù)據(jù)量越大，參數(shù)設(shè)置越精細，模型的訓練時間越長。目前GeotechSet的數(shù)據(jù)集為148M, 與所有其他預(yù)訓練模型相比，這個數(shù)據(jù)量還是很小的，但即便如此，訓練時間仍然用了42分鐘。訓練的機器配置CPU Inter(R) Core i7-10700 CPU @2.9GHz，16核，內(nèi)存32G。 import multiprocessingcores = multiprocessing.cpu_count() 模型參數(shù)如下： model = Doc2Vec(dm=0, dbow_words=1, vector_size=200, window=8, min_count=10, epochs=20, workers=cores) epochs顯著地影響了訓練時間，大多數(shù)的出版物使用10~20, 當設(shè)置epochs=20時，訓練時間變?yōu)?5分鐘；當設(shè)置epochs=10時，訓練時間變?yōu)?6分鐘。下面以關(guān)鍵詞UDEC為例，比較epochs為20和10時的結(jié)果。

展開

自回歸式語言XLNet模型的文本生成試驗

從理論上來說，我們可以使用目前的方法訓練出基于GeotechSet的模型。

巖石邊坡工程的數(shù)據(jù)挖掘(Data Mining)

2 整體框架整個工作是基于GeotechSet數(shù)據(jù)集完成的。簡言之，GeotechSet是一個不斷進化的巖土工程文獻數(shù)據(jù)庫，包括巖石力學和土力學兩部分，其中大部分內(nèi)容與我自己的工作相關(guān)，包括論文，研究報告，課程講稿及軟件等。不過，目前所作的這個數(shù)據(jù)挖掘側(cè)重于巖石邊坡工程。一個繼承的概念性結(jié)構(gòu)如下圖所示。主要處理離散斷裂網(wǎng)絡(luò)DFN, 合成巖體SRM和巖橋Rock Bridge這三個核心關(guān)鍵詞。數(shù)據(jù)挖掘的主要內(nèi)容包括：相似性查詢；摘要和關(guān)鍵字取出；主題聚合；產(chǎn)生新的句子四部分。 3 相似性查詢相似性查詢是數(shù)據(jù)挖掘的主要組成部分，主要使用的算法有：Doc2Vec, LSI, Flashtext和Transformer: Doc2Vec Model---段落相似性查詢語義相似模型(Doc2Vec)在雙語教學中的應(yīng)用使用WMD Similarity確定句子之間的相似度使用Transformers確定句子之間的相似度 SentenceTransformers庫更新V2.0.0 聯(lián)合6種Transformers預(yù)訓練模型一個快速的句子和段落相似查詢方法通過Euclidean距離計算向量值來對句子相似度排序基于文檔名稱的相似度查詢 4 摘要和關(guān)鍵字摘要和關(guān)鍵字抽出主要使用了兩個算法：sumy和pyTextRank.

展開

不得已而為之---CPU下使用gpt2-large模型進行微調(diào)訓練

1 引言在之前的《GeotechSet模型的擴展和優(yōu)化---集成了aitextgen》中訓練出GeotechSet，使用的是GPT2預(yù)訓練模型，由于機器只有6G GPU的限制，不能使用GPT2-Large。為了能使用這個模型，改用了CPU進行訓練。這個筆記簡要記錄了改進的過程。 2 GPT2和GPT2-large的差別 GPT2是在一個名為WebText的40GB數(shù)據(jù)集上訓練的，數(shù)據(jù)來源是從網(wǎng)上抓取的。GPT2系列共有 5個模型：distilgpt2-small，gpt2(gpt2-small)，gpt2-medium，gpt2-large和gpt2-xl。目前我們只使用gpt2和gpt2-large這兩個模型。GPT2需要占用500MB的存儲空間來存儲其所有參數(shù)，而GPT2-large是GPT2的13倍，占用超過6.5GB的存儲空間。gpt2共有參數(shù)124439808個，gpt2-large共有參數(shù)774030080個，而gpt2-xl模型應(yīng)該有大約1.5B的參數(shù)。這個測試使用了如下代碼： sum(p.numel() for p in gpt2_model.parameters() if p.requires_grad) 3 使用GPT2-large 在現(xiàn)有的條件下，為了使用GPT2-large, 必須在CPU下才能運行。為此新建了一個虛擬環(huán)境mwu-training,這個新的虛擬環(huán)境是從mwu-transformer克隆過來的，然后在這個新的training環(huán)境中首先卸載CUDA，然后重新安裝torch的CPU版本，整個過程還算順利。

展開

主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例

1 引言如前所說(GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling); LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例), 主題模擬是一種從大量非結(jié)構(gòu)化文本中提取隱藏主題的技術(shù), 主要挑戰(zhàn)是如何從大量文本中提取出清晰、分離而且有意義的高質(zhì)量主題，這在很大程度上取決于文本預(yù)處理的質(zhì)量和尋找最佳主題數(shù)量的策略，因此主題模擬在很大程度上是一門藝術(shù)。本文使用了一種多階段的主題模擬技術(shù)分離出高質(zhì)量的主題，并通過詞匯云加以展示。 2 限定范圍從原始的數(shù)據(jù)集GeotechSet中提取主題不是一個很好的策略。一方面原始數(shù)據(jù)集太大，運行時間太長；另一方面分離出的主題太多導致主題過于離散。因此第一步需要縮小主題的范圍。在本文中，我們考慮主題"Step-Path Failure", 首先使用代碼geotech-flashtext-passages.py從抽取出所有包含這個短語的段落，得到輸入文件input.txt(715k). 以這個文件作為基礎(chǔ)進行主題模擬。 3 主題模擬在得到范圍縮小的數(shù)據(jù)集后，開始進行主題模擬。使用的模型是distiluse-base-multilingual-cased，這是一個多語言的BERT模型，測試結(jié)果表明，這個模型比Doc2Vec模型得出的結(jié)果好。就像我們預(yù)期的一樣，由于數(shù)據(jù)已經(jīng)相對集中，因此這個縮小的數(shù)據(jù)集僅得出2個主題。 (1) 第一個主題第一個主題的詞匯云圖如上所示。從這個圖中可以看出主題的重要性等級，rockslides和fracture位于第一層次；instability,bridges,cement位于第二層次。

展開

Bilingual Learning---巖石邊坡工程雙語教學的構(gòu)想: 方法論和技術(shù)

對于我們要學習的內(nèi)容，從GeotechSet數(shù)據(jù)集中自動查詢與之最相關(guān)的內(nèi)容作為擴展閱讀材料。使用C(n,3)的組合算法[geotech-flashtext-passages.py和geotech-flashtext-words-combination.py]對數(shù)據(jù)集內(nèi)的段落或單句進行聚合。 7 英漢互譯在這個雙語教學構(gòu)想中，使用的第四項關(guān)鍵技術(shù)是英漢互譯。對英語不好的學生這是最受益的一項技術(shù)，通過使用先進的深度學習技術(shù)，能夠在課堂上實時對任何中英文段落實現(xiàn)機器翻譯而不需要人工處理。[中英文機器翻譯模型(Machine Translation)]目前正在訓練更多的專業(yè)術(shù)語，使得翻譯質(zhì)量更加準確和專業(yè)。 8 結(jié)束語在這個雙語教學構(gòu)想中，我們也逐步引入問題對答，完形填空，文本生成等更先進的教學模式?？傊?，通過這個改進的雙語課程學習模式，不僅能讓學生在有趣的教學環(huán)境下學習到邊坡工程的專業(yè)知識，同時也能夠快速提高學生的英文水平和邏輯思維能力，并能在短時間內(nèi)掌握閱讀本課程英文文獻的技巧。

展開

Bert模型微調(diào)---產(chǎn)生自己的訓練數(shù)據(jù)模型

以后我們將逐漸訓練出自己的GeotechSet模型。

液化分析和評價(Liquefaction Analysis and Evaluation)文獻聚合

這個筆記花了近5個小時,聚合了GeotechSet數(shù)據(jù)集中所有與液化分析和評價相關(guān)的文獻. 2 文獻聚合通過對GeotechSet數(shù)據(jù)集聚合(Liquefaction Analysis/Evaluation/Potential), 液化分析和評價集中在如下所示的子集中. {liquefaction analysis} {liquefaction potential} {Canadian Foundation Engineering Manual} {CPTu} {Youd and Noble} {Cetin} {Paul W. Mayne} {bridge damage} {Ishihara and Yoshimine} {excess pore pressure} {Magnitude Scaling Factors} 文獻聚合到目錄:\Geotech\Soil Mechanics\liquefaction analysis, 目前共195篇(750M). 此外, 由Robert W. Day (2002) 編寫的<巖土地震工程手冊>是一本非常不錯的參考書. 3 液化原理土的液化現(xiàn)象可以描述為由于土骨架的孔隙壓力積聚而導致的剪切強度下降。無粘性土的抗剪強度τ主要取決于內(nèi)摩擦角和作用在土骨架上的有效應(yīng)力. 當飽和松散的砂土受到由基巖剪切波向上傳播引起的地震荷載時，砂開始沉降和變密。然而，與水排出所需的時間相比，循環(huán)應(yīng)力作用的持續(xù)時間非常短，以致土的體積收縮不可能立即發(fā)生，多余的孔隙壓力將逐漸累積起來。當孔隙壓力等于總應(yīng)力，從而將有效應(yīng)力降低到零時，砂將暫時完全失去其剛度和剪切強度。

展開

BERT模型的應(yīng)用回顧(階段性總結(jié))

在用GeotechSet數(shù)據(jù)集的測試中，發(fā)現(xiàn)DBMC得出的結(jié)果比Doc2Vec的結(jié)果好。BERTopic默認的數(shù)據(jù)集是paraphrase-MiniLM-L6-v2。程序為 geotech-top2vec-sentences.py，代表性例子： Top2Vec (V1.0.26)主題模擬代碼的改進主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例 GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling) (3) sentence-transformers---SBERT使用sklearn的聚類算法也能產(chǎn)生主題模擬，程序為geotech-st-cluster.py，代表性例子: 使用Transformers確定句子之間的相似度 3 問題對答問題對答是信息檢索和自然語言處理中的一項任務(wù), 也是NLP中最難處理的一項內(nèi)容, 該任務(wù)要求系統(tǒng)正確回答以人類自然語言提出的問題。在提取性問題解答方案中，通過提供一段文字，使用模型根據(jù)上下文來預(yù)測答案在段落中的位置。這是一項非常具有挑戰(zhàn)性的任務(wù)。在這個任務(wù)中，主要使用了三個數(shù)據(jù)集: 第一個數(shù)據(jù)集是mrm8488/bert-multi-cased-finetuned-xquadv1. 這個數(shù)據(jù)集是一個多語言預(yù)訓練模型，由Google創(chuàng)建，并在XQuAD之類的數(shù)據(jù)上進行了微調(diào)，用于多語言(11種不同的語言)的問答任務(wù)。由于數(shù)據(jù)集基于SQuAD v1.1(SQuAD數(shù)據(jù)集包含大約15萬個問題)，所以數(shù)據(jù)中沒有無法回答的問題, 以便模型可以專注于跨語言的轉(zhuǎn)移。

展開

三個庫更新到了最新版本---Transformers, BERTopic和Gensim

不得已而為之---CPU下使用gpt2-large模型進行微調(diào)訓練 GeotechSet數(shù)據(jù)集在GPT2上的訓練過程 3 Bertopic 2021年9月1日, 發(fā)布了bertopic 0.9.1, 主要用它進行主題模擬. BERTopic(V0.9.0)主題模擬技術(shù) 4 Gensim 2021年8月30日, 發(fā)布了gensim 4.1.0, 主要使用它的Word2Vec功能; 語義相似模型(Doc2Vec)在雙語教學中的應(yīng)用 5 Spacy 2021年8月20日, 發(fā)布了spacy 3.1.2, 主要使用基于這個庫的sense2Vec和pytextrank. sense2vec---基于語境的詞向量(Contextually-keyed word vectors) PyTextRank---文本關(guān)鍵字(keywords)的自動取出

展開

利用主題聚類(Cluster)產(chǎn)生新的數(shù)據(jù)集--模型和代碼改進

1 引言產(chǎn)生新的數(shù)據(jù)集有三種方法：(1) 根據(jù)關(guān)鍵詞手工聚合；(2) 使用geotech-flashtext-passages.py自動聚合(一種快速在GeotechSet數(shù)據(jù)集內(nèi)查詢相似段落的方法)；(3) 使用geotech-st-cluster.py主題聚合。其中(3)既快速又準確，是目前努力發(fā)展的一種數(shù)據(jù)集產(chǎn)生方法。這個筆記簡要描述了這種方法最新改進的經(jīng)歷。 2 代碼改進 geotech-st-cluster.py代碼使用了《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》引入的KMeans聚類方法，最初使用的模型是roberta-large-nli-stsb-mean-tokens，在最新的一次試驗中，21M的數(shù)據(jù)文件聚類30個主題共用了大約30分鐘。另一方面已經(jīng)注意到，下面三個模型由于產(chǎn)生的句子嵌入質(zhì)量低已經(jīng)被廢棄: (1) roberta-large-nli-stsb-mean-tokens (2) bert-base-nli-mean-tokens (3) distilbert-base-nli-stsb-mean-tokens 在今后的工作中將不再使用這三個模型?，F(xiàn)在改用paraphrase-mpnet-base-v2模型，效果確實比前者要好。這個模型將句子和段落映射到768維的密集向量空間，可用于聚類或語義搜索等任務(wù)。

展開

GeotechSet的相關(guān)專題、標簽、搜索

GeotechSet GeotechSet模型 GeotechSet數(shù)據(jù)集 geotechset geotechset數(shù)據(jù)集 geotechset//u6570//u636e//u96c6 geotechset\\\\\\\\\\\\\\\\u6570\\\\\\\\\\\\\\\\u636e\\\\\\\\\\\\\\\\u96c6 geotechset\\\\\\\\u6570\\\\\\\\u636e\\\\\\\\u96c6 geotechset////////////////////////////////u6570////////////////////////////////u636e////////////////////////////////u96c6

共37條

首頁 123 下一頁尾頁 , 到第頁

<p id="6hlwk"></p>

<td id="6hlwk"></td>

<small id="6hlwk"><tbody id="6hlwk"></tbody></small>

<small id="6hlwk"><tbody id="6hlwk"><dfn id="6hlwk"></dfn></tbody></small>