
發(fā)布
注冊
/
登錄GeotechSet的案例
一種快速在GeotechSet數(shù)據(jù)集內(nèi)查詢相似段落的方法
結(jié)果顯示在GeotechSet數(shù)據(jù)集內(nèi)共有87篇論文或段落, 基本上覆蓋了這個分支研究領(lǐng)域的所有結(jié)果。
4 結(jié)束語
本文描述了一個在GeotechSet數(shù)據(jù)內(nèi)快速聚合相關(guān)段落的算法。聚合出來的內(nèi)容一方面可以用來深入了解查詢主題的研究進展,另一方面也可以直接把結(jié)果文件作為機器學習的輸入數(shù)據(jù),例如回答問題(閱讀理解回答問題(Question Answering)---一個更強的BERT預(yù)訓練模型),文本續(xù)寫(開放式文本生成(Open-Ended Text Generation))和文章總結(jié)(生成摘要(Summarization)的新方法)等。
GeotechSet模型的擴展和優(yōu)化---集成了aitextgen
6 結(jié)束語
新的GeotechSet模型擴展了原始數(shù)據(jù)集(5.3M),并且對數(shù)據(jù)進行了手動清洗,新的句子生成代碼集成了aitextgen,從而在某種程度上增強了結(jié)果的可靠性。我們將繼續(xù)擴展原始數(shù)據(jù)集。
GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling)
對于GeotechSet數(shù)據(jù)集(目前尺寸153M),運行時間仍然是一個挑戰(zhàn),按照主題細分為小的數(shù)據(jù)集從時間和質(zhì)量控制來說更有效。BTW,Transformers今天更新到V4.9.2.
GeotechSet數(shù)據(jù)集在GPT2上的訓練過程
5 結(jié)束語
本文在有限的條件下使用GPT2在小的GeotechSet數(shù)據(jù)集上進行了訓練,得出了我們自己的geotech數(shù)據(jù)模型。今后逐漸加大輸入數(shù)據(jù),使模型進化得更為完善。

語義相關(guān)的Doc2Vec模型訓練參數(shù)優(yōu)化
2 數(shù)據(jù)集
現(xiàn)代自然語言處理都使用了大規(guī)模開放的預(yù)訓練集,如Gensim, Spacy, Transformers, PyTorch, Tensorflow等,而我們?yōu)榱吮3直緦I(yè)高度的集成性,采用了封閉的GeotechSet數(shù)據(jù)集,這個數(shù)據(jù)集只包括巖土工程領(lǐng)域的數(shù)據(jù),GeotechSet是一個動態(tài)的數(shù)據(jù)集,由于不斷完善數(shù)據(jù)質(zhì)量和增加新的數(shù)據(jù),因此產(chǎn)生的結(jié)果隨著時間在不斷變化。
3 訓練時間
數(shù)據(jù)量越大,參數(shù)設(shè)置越精細,模型的訓練時間越長。目前GeotechSet的數(shù)據(jù)集為148M, 與所有其他預(yù)訓練模型相比,這個數(shù)據(jù)量還是很小的,但即便如此,訓練時間仍然用了42分鐘。訓練的機器配置CPU Inter(R) Core i7-10700 CPU @2.9GHz,16核,內(nèi)存32G。
import multiprocessingcores = multiprocessing.cpu_count()
模型參數(shù)如下:
model = Doc2Vec(dm=0, dbow_words=1, vector_size=200, window=8, min_count=10, epochs=20, workers=cores)
epochs顯著地影響了訓練時間,大多數(shù)的出版物使用10~20, 當設(shè)置epochs=20時,訓練時間變?yōu)?5分鐘;當設(shè)置epochs=10時,訓練時間變?yōu)?6分鐘。下面以關(guān)鍵詞UDEC為例,比較epochs為20和10時的結(jié)果。
展開 自回歸式語言XLNet模型的文本生成試驗
從理論上來說,我們可以使用目前的方法訓練出基于GeotechSet的模型。
巖石邊坡工程的數(shù)據(jù)挖掘(Data Mining)
2 整體框架
整個工作是基于GeotechSet數(shù)據(jù)集完成的。簡言之,GeotechSet是一個不斷進化的巖土工程文獻數(shù)據(jù)庫,包括巖石力學和土力學兩部分,其中大部分內(nèi)容與我自己的工作相關(guān),包括論文,研究報告,課程講稿及軟件等。不過,目前所作的這個數(shù)據(jù)挖掘側(cè)重于巖石邊坡工程。一個繼承的概念性結(jié)構(gòu)如下圖所示。
主要處理離散斷裂網(wǎng)絡(luò)DFN, 合成巖體SRM和巖橋Rock Bridge這三個核心關(guān)鍵詞。數(shù)據(jù)挖掘的主要內(nèi)容包括:相似性查詢;摘要和關(guān)鍵字取出;主題聚合;產(chǎn)生新的句子四部分。
3 相似性查詢
相似性查詢是數(shù)據(jù)挖掘的主要組成部分,主要使用的算法有:Doc2Vec, LSI, Flashtext和Transformer:
Doc2Vec Model---段落相似性查詢
語義相似模型(Doc2Vec)在雙語教學中的應(yīng)用
使用WMD Similarity確定句子之間的相似度
使用Transformers確定句子之間的相似度
SentenceTransformers庫更新V2.0.0
聯(lián)合6種Transformers預(yù)訓練模型
一個快速的句子和段落相似查詢方法
通過Euclidean距離計算向量值來對句子相似度排序
基于文檔名稱的相似度查詢
4 摘要和關(guān)鍵字
摘要和關(guān)鍵字抽出主要使用了兩個算法:sumy和pyTextRank.
展開 不得已而為之---CPU下使用gpt2-large模型進行微調(diào)訓練
1 引言
在之前的《GeotechSet模型的擴展和優(yōu)化---集成了aitextgen》中訓練出GeotechSet,使用的是GPT2預(yù)訓練模型,由于機器只有6G GPU的限制,不能使用GPT2-Large。為了能使用這個模型,改用了CPU進行訓練。這個筆記簡要記錄了改進的過程。
2 GPT2和GPT2-large的差別
GPT2是在一個名為WebText的40GB數(shù)據(jù)集上訓練的,數(shù)據(jù)來源是從網(wǎng)上抓取的。GPT2系列共有 5個模型:distilgpt2-small,gpt2(gpt2-small),gpt2-medium,gpt2-large和gpt2-xl。目前我們只使用gpt2和gpt2-large這兩個模型。GPT2需要占用500MB的存儲空間來存儲其所有參數(shù),而GPT2-large是GPT2的13倍,占用超過6.5GB的存儲空間。gpt2共有參數(shù)124439808個,gpt2-large共有參數(shù)774030080個,而gpt2-xl模型應(yīng)該有大約1.5B的參數(shù)。
這個測試使用了如下代碼:
sum(p.numel() for p in gpt2_model.parameters() if p.requires_grad)
3 使用GPT2-large
在現(xiàn)有的條件下,為了使用GPT2-large, 必須在CPU下才能運行。為此新建了一個虛擬環(huán)境mwu-training,這個新的虛擬環(huán)境是從mwu-transformer克 隆過來的,然后在這個新的training環(huán)境中首先卸載CUDA,然后重新安裝torch的CPU版本,整個過程還算順利。
展開 主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例
1 引言
如前所說(GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling); LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例), 主題模擬是一種從大量非結(jié)構(gòu)化文本中提取隱藏主題的技術(shù), 主要挑戰(zhàn)是如何從大量文本中提取出清晰、分離而且有意義的高質(zhì)量主題,這在很大程度上取決于文本預(yù)處理的質(zhì)量和尋找最佳主題數(shù)量的策略,因此主題模擬在很大程度上是一門藝術(shù)。本文使用了一種多階段的主題模擬技術(shù)分離出高質(zhì)量的主題,并通過詞匯云加以展示。
2 限定范圍
從原始的數(shù)據(jù)集GeotechSet中提取主題不是一個很好的策略。一方面原始數(shù)據(jù)集太大,運行時間太長;另一方面分離出的主題太多導致主題過于離散。因此第一步需要縮小主題的范圍。在本文中,我們考慮主題"Step-Path Failure", 首先使用代碼geotech-flashtext-passages.py從抽取出所有包含這個短語的段落,得到輸入文件input.txt(715k). 以這個文件作為基礎(chǔ)進行主題模擬。
3 主題模擬
在得到范圍縮小的數(shù)據(jù)集后,開始進行主題模擬。使用的模型是distiluse-base-multilingual-cased,這是一個多語言的BERT模型,測試結(jié)果表明,這個模型比Doc2Vec模型得出的結(jié)果好。就像我們預(yù)期的一樣,由于數(shù)據(jù)已經(jīng)相對集中,因此這個縮小的數(shù)據(jù)集僅得出2個主題。
(1) 第一個主題
第一個主題的詞匯云圖如上所示。從這個圖中可以看出主題的重要性等級,rockslides和fracture位于第一層次;instability,bridges,cement位于第二層次。
展開 Bilingual Learning---巖石邊坡工程雙語教學的構(gòu)想: 方法論和技術(shù)
對于我們要學習的內(nèi)容,從GeotechSet數(shù)據(jù)集中自動查詢與之最相關(guān)的內(nèi)容作為擴展閱讀材料。使用C(n,3)的組合算法[geotech-flashtext-passages.py和geotech-flashtext-words-combination.py]對數(shù)據(jù)集內(nèi)的段落或單句進行聚合。
7 英漢互譯
在這個雙語教學構(gòu)想中,使用的第四項關(guān)鍵技術(shù)是英漢互譯。對英語不好的學生這是最受益的一項技術(shù),通過使用先進的深度學習技術(shù),能夠在課堂上實時對任何中英文段落實現(xiàn)機器翻譯而不需要人工處理。[中英文機器翻譯模型(Machine Translation)]目前正在訓練更多的專業(yè)術(shù)語,使得翻譯質(zhì)量更加準確和專業(yè)。
8 結(jié)束語
在這個雙語教學構(gòu)想中,我們也逐步引入問題對答,完形填空,文本生成等更先進的教學模式??傊?,通過這個改進的雙語課程學習模式,不僅能讓學生在有趣的教學環(huán)境下學習到邊坡工程的專業(yè)知識,同時也能夠快速提高學生的英文水平和邏輯思維能力,并能在短時間內(nèi)掌握閱讀本課程英文文獻的技巧。
展開 Bert模型微調(diào)---產(chǎn)生自己的訓練數(shù)據(jù)模型
以后我們將逐漸訓練出自己的GeotechSet模型。

液化分析和評價(Liquefaction Analysis and Evaluation)文獻聚合
這個筆記花了近5個小時,聚合了GeotechSet數(shù)據(jù)集中所有與液化分析和評價相關(guān)的文獻.
2 文獻聚合
通過對GeotechSet數(shù)據(jù)集聚合(Liquefaction Analysis/Evaluation/Potential), 液化分析和評價集中在如下所示的子集中.
{liquefaction analysis}
{liquefaction potential}
{Canadian Foundation Engineering Manual}
{CPTu}
{Youd and Noble}
{Cetin}
{Paul W. Mayne}
{bridge damage}
{Ishihara and Yoshimine}
{excess pore pressure}
{Magnitude Scaling Factors}
文獻聚合到目錄:\Geotech\Soil Mechanics\liquefaction analysis, 目前共195篇(750M). 此外, 由Robert W. Day (2002) 編寫的<巖土地震工程手冊>是一本非常不錯的參考書.
3 液化原理
土的液化現(xiàn)象可以描述為由于土骨架的孔隙壓力積聚而導致的剪切強度下降。無粘性土的抗剪強度τ主要取決于內(nèi)摩擦角和作用在土骨架上的有效應(yīng)力. 當飽和松散的砂土受到由基巖剪切波向上傳播引起的地震荷載時,砂開始沉降和變密。然而,與水排出所需的時間相比,循環(huán)應(yīng)力作用的持續(xù)時間非常短,以致土的體積收縮不可能立即發(fā)生,多余的孔隙壓力將逐漸累積起來。當孔隙壓力等于總應(yīng)力,從而將有效應(yīng)力降低到零時,砂將暫時完全失去其剛度和剪切強度。
展開 BERT模型的應(yīng)用回顧(階段性總結(jié))
在用GeotechSet數(shù)據(jù)集的測試中,發(fā)現(xiàn)DBMC得出的結(jié)果比Doc2Vec的結(jié)果好。BERTopic默認的數(shù)據(jù)集是paraphrase-MiniLM-L6-v2。程序為 geotech-top2vec-sentences.py,代表性例子:
Top2Vec (V1.0.26)主題模擬代碼的改進
主題模擬的藝術(shù)(The Art of Topic Modeling)---以Step-Path Failure為例
GeotechSet數(shù)據(jù)集主題模擬(Topic Modeling)
(3) sentence-transformers---SBERT使用sklearn的聚類算法也能產(chǎn)生主題模擬,程序為geotech-st-cluster.py,代表性例子:
使用Transformers確定句子之間的相似度
3 問題對答
問題對答是信息檢索和自然語言處理中的一項任務(wù), 也是NLP中最難處理的一項內(nèi)容, 該任務(wù)要求系統(tǒng)正確回答以人類自然語言提出的問題。在提取性問題解答方案中,通過提供一段文字,使用模型根據(jù)上下文來預(yù)測答案在段落中的位置。這是一項非常具有挑戰(zhàn)性的任務(wù)。在這個任務(wù)中,主要使用了三個數(shù)據(jù)集: 第一個數(shù)據(jù)集是mrm8488/bert-multi-cased-finetuned-xquadv1. 這個數(shù)據(jù)集是一個多語言預(yù)訓練模型,由Google創(chuàng)建,并在XQuAD之類的數(shù)據(jù)上進行了微調(diào),用于多語言(11種不同的語言)的問答任務(wù)。由于數(shù)據(jù)集基于SQuAD v1.1(SQuAD數(shù)據(jù)集包含大約15萬個問題),所以數(shù)據(jù)中沒有無法回答的問題, 以便模型可以專注于跨語言的轉(zhuǎn)移。
展開 三個庫更新到了最新版本---Transformers, BERTopic和Gensim
不得已而為之---CPU下使用gpt2-large模型進行微調(diào)訓練
GeotechSet數(shù)據(jù)集在GPT2上的訓練過程
3 Bertopic
2021年9月1日, 發(fā)布了bertopic 0.9.1, 主要用它進行主題模擬.
BERTopic(V0.9.0)主題模擬技術(shù)
4 Gensim
2021年8月30日, 發(fā)布了gensim 4.1.0, 主要使用它的Word2Vec功能;
語義相似模型(Doc2Vec)在雙語教學中的應(yīng)用
5 Spacy
2021年8月20日, 發(fā)布了spacy 3.1.2, 主要使用基于這個庫的sense2Vec和pytextrank.
sense2vec---基于語境的詞向量(Contextually-keyed word vectors)
PyTextRank---文本關(guān)鍵字(keywords)的自動取出
展開 利用主題聚類(Cluster)產(chǎn)生新的數(shù)據(jù)集--模型和代碼改進
1 引言
產(chǎn)生新的數(shù)據(jù)集有三種方法:(1) 根據(jù)關(guān)鍵詞手工聚合;(2) 使用geotech-flashtext-passages.py自動聚合(一種快速在GeotechSet數(shù)據(jù)集內(nèi)查詢相似段落的方法);(3) 使用geotech-st-cluster.py主題聚合。其中(3)既快速又準確,是目前努力發(fā)展的一種數(shù)據(jù)集產(chǎn)生方法。這個筆記簡要描述了這種方法最新改進的經(jīng)歷。
2 代碼改進
geotech-st-cluster.py代碼使用了《LDA Topic Modeling(主題建模): 以Rocscience 2021用戶會議為例》引入的KMeans聚類方法,最初使用的模型是roberta-large-nli-stsb-mean-tokens,在最新的一次試驗中,21M的數(shù)據(jù)文件聚類30個主題共用了大約30分鐘。另一方面已經(jīng)注意到,下面三個模型由于產(chǎn)生的句子嵌入質(zhì)量低已經(jīng)被廢棄:
(1) roberta-large-nli-stsb-mean-tokens
(2) bert-base-nli-mean-tokens
(3) distilbert-base-nli-stsb-mean-tokens
在今后的工作中將不再使用這三個模型?,F(xiàn)在改用paraphrase-mpnet-base-v2模型,效果確實比前者要好。這個模型將句子和段落映射到768維的密集向量空間,可用于聚類或語義搜索等任務(wù)。
展開 GeotechSet的相關(guān)專題、標簽、搜索
GeotechSetGeotechSet模型GeotechSet數(shù)據(jù)集 geotechsetgeotechset數(shù)據(jù)集geotechset//u6570//u636e//u96c6geotechset\\\\\\\\\\\\\\\\u6570\\\\\\\\\\\\\\\\u636e\\\\\\\\\\\\\\\\u96c6geotechset\\\\\\\\u6570\\\\\\\\u636e\\\\\\\\u96c6geotechset////////////////////////////////u6570////////////////////////////////u636e////////////////////////////////u96c6