Doc2Vec Model---段落相似性查詢

Doc2Vec Model---段落相似性查詢的圖1

1 引言

Doc2Vec Model---基于段落相似性查詢是巖石邊坡工程大數(shù)據(jù)項(xiàng)目的其中一部分內(nèi)容,計(jì)劃單列一章討論這個(gè)主題。Doc2Vec Model的算法基于Word2Vec Model, 主要進(jìn)行段落的語(yǔ)義相似比較。這個(gè)筆記簡(jiǎn)要描述了Doc2Vec的工作機(jī)理和測(cè)試結(jié)果,詳細(xì)的理論背景,用法和結(jié)果將在研究報(bào)告中描述。 


2 Doc2Vec Model

Doc2Vec用矢量來(lái)表示每個(gè)文檔傳統(tǒng)的Bag-of-words(詞袋)模型對(duì)應(yīng)的是單詞,不能表達(dá)單詞的順序,例如“FLAC3D models slope stability”和“3DEC models slope stability” 對(duì)應(yīng)著相同的矢量,這個(gè)缺陷可以使用n-grams方法來(lái)表示一個(gè)固定長(zhǎng)度的矢量(使用Trigram獲取文檔的中心思想)。此外,詞袋模型不能學(xué)習(xí)出語(yǔ)義相似的詞匯,矢量之間的距離不能反映出詞匯意義上的不同。Word2Vec算法解決了這個(gè)問題。


Word2Vec使用淺層神經(jīng)網(wǎng)絡(luò)將單詞嵌入到低維的矢量空間中,基于上下文具有相似的含義以及彼此的距離把意義相近的一組詞聚集在一起。 例如Step-path和rock bridge雖然字面上不一樣,但具有相近的含義。利用Word2Vec,可以計(jì)算一個(gè)文檔中每個(gè)單詞的矢量,如果要計(jì)算整個(gè)文檔的矢量,可以平均文檔中每個(gè)單詞的矢量。雖然這種方法有點(diǎn)粗糙,但也很有用。


然而,有一個(gè)更好的方法是引入段落矢量(Paragraph Vector)Doc2Vec. 該算法通常優(yōu)于Word2Vec矢量的簡(jiǎn)單平均值。兩種算法可以實(shí)現(xiàn)段落矢量: (1) Distributed Memory (PV-DM); (2) Distributed Bag of Words (PV-DBOW)。 盡管Doc2Vec的原始作者建議使用第一種PV-DM算法,但我目前測(cè)試使用的是第二種算法,即dbow_words=1。

Doc2Vec Model---段落相似性查詢的圖2

3 測(cè)試結(jié)果

在這個(gè)試驗(yàn)中,使用了巖橋破壞的數(shù)據(jù)集進(jìn)行測(cè)試,這個(gè)數(shù)據(jù)集大約100M左右。查詢語(yǔ)句為"step-path failure modeling". 結(jié)果分析如下:

(1) dfnWorks- A discrete fracture network framework for modeling.pdf (dfnWorks.txt)

(2) Elmo D. and D Stead (2018) Definition and characterisation of intact rock bridges: implications for 2D and 3D slope stability problems. Symposium in Slope Stability in Open Pit Mining and Civil Engineering. Seville, Spain, April 11-13, 2018. (Definition of rock bridges.txt)

(3) Assumptions made in typical 2D rock bridge and step-path failure approaches (Challenges in the characterisation of intact rock bridges in rock slopes.txt)

(4) STEP-PATH DISCONTINUITIES AND ROCK SLOPE FAILURE---Step-path fractures and failure surfaces are prevalent in numerous rock slopes. (Step-path characterisation in rock slopes.txt)

(5) simulation of step-path brittle failure in rock slopes.txt

(6) A fundamental step towards a more realistic rock slope analysis is the quantitative characterisation of 2-D intact rock bridges as a function of fracture intensity parameters. (The Importance of Intact Rock Bridges in the Stability of High Rock.txt)

(7) Karimi L. et al. (2016) Simulation of rock bridge failure at the laboratory scale using a combined FDEM modeling and discrete crack network approach. 50th U.S. Rock Mechanics Symposium. Houston, Texas, June 2016. Paper 588.

(8) Scholtès, L., and Donzé, F. V. (2015). “A DEM analysis of step-path failure in jointed rock slopes.”Comptes Rendus Mécanique, Mechanics of granular and polycrystalline solids, 343(2), 155–165.

(9) Mendoza-Torres, F., et al. (2017). "Bernstein copula modeling for 2D discrete fracture network simulations." Journal of Petroleum Science and Engineering 156: 710-720. 

(10) Abdullah, R. A., et al. (2010). "Selecting shear strength models for joints - experience with modeling of complex rock slope failure in UDEC." Rock Mechanics in Civil and Environmental Engineering: 543-546.


4 相關(guān)文章

過去一年里,為了完成這個(gè)mini項(xiàng)目,對(duì)Doc2Vec模型作了一些初步研究,這些初步的想法包括在下面的公眾號(hào)文章中,在最后階段將對(duì)這些過程和結(jié)果作進(jìn)一步的改進(jìn)和補(bǔ)充。

Data Mining---巖土工程的數(shù)據(jù)挖掘

畢設(shè)訓(xùn)練(4): 巖石邊坡工程大數(shù)據(jù)系統(tǒng)設(shè)計(jì)

一個(gè)快速的句子和段落相似查詢方法

使用WMD Similarity確定句子之間的相似度

畢業(yè)論文查重就是一個(gè)坑

使用Transformers確定句子之間的相似度


登錄后免費(fèi)查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項(xiàng)目客服
  • 培訓(xùn)客服
  • 平臺(tái)客服

TOP