一個新的巖土工程數據集SSGeotech
1 引言
基于最近的工作:《從Semantic Scholar批量獲得最新巖土工程文獻》和《參數化檢測Semantic Scholar巖土工程文獻數量》,一個新的巖土工程數據集SSGeotech正式建立起來了。與先前發展的GeotechSet數據集不同,SSGeotech的全部數據來自于Semantic Scholar, 通俗點兒來說,SSGeotech自動采集Semantic Scholar的巖土工程數據。SSGeotech的特點如下:
(1) 全英文論文,去掉了所有非英文字符;
(2) 每篇論文只包含論文題目和摘要,不包含其它信息;
(3) 每天在不斷擴充。
2 數據格式
由于發展這個數據集的目的是為了進行機器學習,因此數據格式沒有使用Json,而是使用普通的文本格式txt, 具體地,每篇論文由一行組成:論文題目---摘要,論文與摘要之間用---連接。如果一篇論文沒有摘要,那么只顯示論文題目,這個在代碼中能夠自動處理。例如:
Measurement of local stress and estimation of regional stress associated with stability assessment of an open-pit rock slope---This paper discusses the concept of a new methodology for rock slope stability assessment. Then, results on rock stress measurement using the compact conical-ended borehole overcoring (CCBO) technique at Torigata limestone mine in Japan are presented. A procedure for back analysis of the regional strain and stress field with the 3-D finite element method, using the measured local stress, is suggested and demonstrated successfully in relation to Torigata limestone mine. Finally, to estimate the state of stress at the mine excavation level, 3-D finite element analyses were performed using boundary conditions from the analyzed regional strain and stress field. It is shown that the horizontal stress at the present excavation level is not reduced, and that the horizontal stress component cannot be disregarded in estimating the stability of rock slopes at this location, even though the mine is located near the top of a mountain. 【與露天巖坡穩定性評估有關的局部應力測量和區域應力估算--本文討論了巖坡穩定性評估新方法的概念。然后,介紹了在日本Torigata石灰石礦使用緊湊型錐端鉆孔過孔(CCBO)技術測量巖石應力的結果。提出了利用測量的局部應力,用三維有限元方法對區域應變和應力場進行反分析的程序,并在Torigata石灰巖礦成功地進行了演示。最后,為了估計礦井挖掘層的應力狀態,利用分析的區域應變和應力場的邊界條件進行了3-D有限元分析。結果表明,目前挖掘層的水平應力并沒有減少,在估計這個地方的巖坡穩定性時,不能不考慮水平應力部分,盡管該礦位于山頂附近。】
3 問題處理
Semantic Scholar使用了語義相似對查詢結果進行了排列,排名越靠后的結果與我們的查詢目的距離越遠,這將導致數據集中會出現一些與巖土工程毫不相關的論文,舉例來說,rock wedge stability查得共有37753篇論文,實際上不可能有這么多篇這樣的論文。因為其它學科也可能組合出這樣的關鍵字。"joint fracture"在巖體力學里指的是節理斷裂,但這個詞在醫學領域指的是關節斷裂,因此如果用這個短語來聚合,將會出現大量的醫學論文。在這種情況下,我們必須手動清理數據集的內容。考慮到這種偏差,目前只自動收集前300篇論文。通過設計下面這樣一個循環來自動取出有意義的論文。
3 SSGeotech的發展
通過一個大約40行的代碼,自動采集Semantic Scholar與巖土工程相關的論文題目與摘要,目前的數據是大約27600篇論文。這個數據集將在短期內迅速擴大并于SS同步。SSGeotech數據集傳遞到代碼geotech-flashtext-passages.py中進行二次處理,從而得出更精確的解答。
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















