
發布
注冊
/
登錄數據集服務的案例
工業仿真的基礎數據庫:Granta數據集
<p>10月28日,Ansys官方『工業仿真的基礎數據庫:Granta數據集』研討會為您展開介紹Granta數據集在材料數據整合、材料屬性分析、智能推薦加速選材決策等等,感興趣的下滑預約學習??</p><p><br></p><p><br></p><figure style="text-align: center;" class="ql-align-center">
<figure class="figure-image" contenteditable="false" data-img="https://img.jishulink.com/202511/attachment/79e870b44cbc498aab536d3dfc36bdff.png" style="display: inline-block;">
<img src="https://img.jishulink.com/202511/attachment/79e870b44cbc498aab536d3dfc36bdff.png" data-mobile-src="https://img.jishulink.com/202511/attachment/79e870b44cbc498aab536d3dfc36bdff.png?image_process=/format,webp" data-pc-src="https://img.jishulink.com/202511/attachment/79e870b44cbc498aab536d3dfc36bdff.png?
展開 Python零基礎入門數據分析實戰之小費數據集應用
一、數據來源
本節選用的是Python的第三方庫seaborn自帶的數據集,該小費數據集為餐飲行業收集的數據,其中total_bill為消費總金額、tip為小費金額、sex為顧客性別、smoker為顧客是否吸煙、day為消費的星期、time為聚餐的時間段、size為聚餐人數。
import numpy as np
from pandas import Series,DataFrame
import pandas as pd
import seaborn as sns #導入seaborn庫 tips=sns.load_dataset('tips') #seaborn庫自帶的數據集 tips.head()
二、問題探索
小費金額與消費總金額是否存在相關性?
性別、是否吸煙、星期幾、聚餐人數和小費金額是否有一定的關聯?
小費金額占小費總金額的百分比是否服從正態分布?
三、數據清洗
tips.shape #數據集的維度
(244,7)
共有244條數據,7列。
tips.describe() #描述統計
描述統計結果如上所示。
tips.info() #查看缺失值信息
此例無缺失值。
四、數據探索
tips.plot(kind='scatter',x='total_bill',y='tip') #繪制散點圖
由圖可看出,小費金額與消費總金額存在正相關性。
展開 一個新的巖土工程數據集SSGeotech
3 問題處理
Semantic Scholar使用了語義相似對查詢結果進行了排列,排名越靠后的結果與我們的查詢目的距離越遠,這將導致數據集中會出現一些與巖土工程毫不相關的論文,舉例來說,rock wedge stability查得共有37753篇論文,實際上不可能有這么多篇這樣的論文。因為其它學科也可能組合出這樣的關鍵字。"joint fracture"在巖體力學里指的是節理斷裂,但這個詞在醫學領域指的是關節斷裂,因此如果用這個短語來聚合,將會出現大量的醫學論文。在這種情況下,我們必須手動清理數據集的內容。考慮到這種偏差,目前只自動收集前300篇論文。通過設計下面這樣一個循環來自動取出有意義的論文。
3 SSGeotech的發展
通過一個大約40行的代碼,自動采集Semantic Scholar與巖土工程相關的論文題目與摘要,目前的數據是大約27600篇論文。這個數據集將在短期內迅速擴大并于SS同步。SSGeotech數據集傳遞到代碼geotech-flashtext-passages.py中進行二次處理,從而得出更精確的解答。
展開 GeotechSet數據集主題模擬(Topic Modeling)
對于GeotechSet數據集(目前尺寸153M),運行時間仍然是一個挑戰,按照主題細分為小的數據集從時間和質量控制來說更有效。BTW,Transformers今天更新到V4.9.2.

GeotechSet數據集在GPT2上的訓練過程
5 結束語
本文在有限的條件下使用GPT2在小的GeotechSet數據集上進行了訓練,得出了我們自己的geotech數據模型。今后逐漸加大輸入數據,使模型進化得更為完善。
頂板冒落(Roof Collapse)數據集的建立
這個事件促使我們快速產生出一個新的數據集----頂板冒落(Roof Collapse), 主要包括:
(1) roof collapse.txt;
(2) ..\Surface Subsidence Prediction
(3) ..\rockbolting
?
以及UDEC模擬. 本公眾號先前與頂板冒落相關的主要文章參考如下鏈接:
GIIC-UDEC操作教程(3)---巷道頂板冒落
使用RMR估算巷道支護壓力 (Support Pressure)
巖爆和沖擊地壓災害分類(Rock Burst Hazard)
礦山沖擊地壓控制(Coal Mine Burst Prevention Controls)
本筆記簡要描述了在發展這個數據集時想到的一些問題, 想到哪寫到哪, 沒有太多的邏輯.
2 頂板冒落引起地面斷裂
如果是淺部大面積的頂板冒落, 有可能會導致冒落上方地面巖體產生斷裂或引起地表沉降. 地表巖體會產生由應力引起的斷裂(stress induced fractures), 如下圖所示. 這種斷裂通常能用肉眼觀察到.
2 導致頂板冒落的主要因素
(1) 地質構造. 地質構造直接決定了頂板是否穩定. 如果遇到大的斷層或不連續巖體, 可以考慮避開該地段或者改變開挖方向, 不過, 這對實踐的采礦工程師和地質工程師來說確實是一項非常大的挑戰.
(2) 應力集中. 當開挖深度很大或者開挖尺寸很大時, 巖體內部由構造作用產生的原巖應力以及巖體的自重會導致頂板產生應力集中. 特別是原巖應力的大小和方向對開挖起著主要作用, 因此必須對開挖尺寸和開挖方向進行優化設計, 避免應力集中區域.
(3) 開采順序.
展開 yolov7-pytorch可用于訓練自己的數據集
訓練步驟
a、訓練VOC07+12數據集
數據集的準備
本文使用VOC格式進行訓練,訓練前需要下載好VOC07+12的數據集,解壓后放在根目錄
數據集的處理
修改voc_annotation.py里面的annotation_mode=2,運行voc_annotation.py生成根目錄下的2007_train.txt和2007_val.txt。
開始網絡訓練
train.py的默認參數用于訓練VOC數據集,直接運行train.py即可開始訓練。
訓練結果預測
訓練結果預測需要用到兩個文件,分別是yolo.py和predict.py。我們首先需要去yolo.py里面修改model_path以及classes_path,這兩個參數必須要修改。
model_path指向訓練好的權值文件,在logs文件夾里。
classes_path指向檢測類別所對應的txt。
完成修改后就可以運行predict.py進行檢測了。運行后輸入圖片路徑即可檢測。
b、訓練自己的數據集
數據集的準備
本文使用VOC格式進行訓練,訓練前需要自己制作好數據集,
訓練前將標簽文件放在VOCdevkit文件夾下的VOC2007文件夾下的Annotation中。
訓練前將圖片文件放在VOCdevkit文件夾下的VOC2007文件夾下的JPEGImages中。
數據集的處理
在完成數據集的擺放之后,我們需要利用voc_annotation.py獲得訓練用的2007_train.txt和2007_val.txt。
修改voc_annotation.py里面的參數。第一次訓練可以僅修改classes_path,classes_path用于指向檢測類別所對應的txt。
訓練自己的數據集時,可以自己建立一個cls_classes.txt,里面寫自己所需要區分的類別。
展開 SimData深度解析:高保真虛擬數據集的構建與評測
在自動駕駛感知的下半場,數據已成為驅動算法迭代的核心燃料。然而,真實路測數據面臨著成本高昂、標注困難、極端場景(Corner Cases)難以覆蓋以及安全性受限等“卡脖子”問題。
面對這一核心痛點,虛擬仿真數據已成為解決方案中的關鍵角色,成為確保開發效率與安全性的不可或缺一環。免費獲取 | SimData高保真虛擬數據集開源發布,兼容nuScenes,開箱即用!文章中,簡單介紹了一下SimData數據集情況,本文將深度解析該SimData自動駕駛虛擬數據集——由aiSim仿真平臺構建,從數據生產工具鏈、數據集結構到基于BEVFormer的深度評測,全方位展示高保真合成數據的應用價值。
一、 從仿真到標準格式的工具鏈
虛擬數據要真正落地,首要解決的是與現有主流數據格式的兼容性。SimData方案不僅提供數據,更提供了一套完整的aisim2buscenes自動化轉換工具鏈,并且構建了虛擬數據集的評測流程框架。
虛擬數據集構建以及評測流程框架
1、無縫兼容 nuScenes
我們開發了自動化腳本與GUI工具,實現了從aiSim導出數據到nuScenes標準格式的一鍵轉換。
格式對齊:自動將aiSim原始數據(TGA圖像、LAS點云、Radar JSON)轉換為nuScenes兼容格式(JPG、BIN、PCD)。
結構一致:生成的文件夾結構(maps, samples, sweeps, v1.0-custom)可直接被官方nuscenes-devkit解析,無需修改現有訓練代碼。
智能切片:腳本支持多場景、多地圖轉換,默認每場景40關鍵幀(每10幀抽取1關鍵幀),自動處理非關鍵幀歸檔。
展開 Updated---邊坡穩定性概率分析數據集(Probabilistic Approach)
各向異性材料的概率分析(破壞概率31.5%)
邊坡穩定性概率分析課程將呈現SOTA (State Of The Art) 的研究成果,包括最新的文獻數據集(每日更新,200多篇)以及最先進的概率分析應用現狀。課程主要對象:(1) 需要開展邊坡穩定性研究課題的碩士研究生,能夠極大地幫助學生縮短研究周期,包括從開題到論文完成;(2) 需要進行邊坡穩定性評價的巖土工程師。
SimData:基于aiSim的高保真虛擬數據集生成方案
一、前言
在自動駕駛感知系統的研發過程中,模型的性能高度依賴于大規模、高質量的感知數據集。目前業界常用的數據集包括 KITTI、nuScenes、Waymo Open Dataset 等,它們為自動駕駛算法的發展奠定了重要基礎。
然而,構建真實世界的感知數據集并非易事——不僅需要投入大量人力、物力與時間成本,還需要面對數據采集受限、隱私合規、標注耗時以及極端場景(corner case)難以獲取等諸多挑戰。
在此背景下,高保真虛擬數據集正成為自動駕駛感知算法研究的新方向。通過仿真平臺生成的虛擬數據,不僅能夠快速擴充數據規模,還可靈活構造復雜路況、惡劣天氣及罕見事件,為模型提供更全面的訓練樣本。
基于此,本文介紹全新的高保真虛擬數據集——SimData。SimData依托aiSim的高精度物理建模與逼真視覺渲染能力,能夠生成多傳感器同步數據(包括相機、激光雷達、雷達、IMU 等),實現與真實世界數據一致的多模態特性。SimData數據結構嚴格遵循nuScenes數據集格式規范,可直接使用官方nuscenes-devkit工具解析和可視化,大幅降低開發者上手成本。
本文將介紹SimData的核心特性與構建流程,并展示其在典型感知任務中的表現。SimData 正式版及相關對比測試報告將于近期發布。
二、SimData構建過程
1、傳感器布局
在 aiSim 仿真平臺中,我們嚴格復現了 nuScenes 數據集的傳感器布局,以確保數據結構和多模態同步特性的一致性。 仿真車輛共配置了 6 路環視相機、5 個雷達(Radar)、1 個激光雷達(LiDAR)、1 個慣性測量單元(IMU)以及 1 個定位系統(GPS)。 其中,相機與雷達的采樣頻率均為 40 Hz,激光雷達的采樣頻率為 80 Hz,能夠滿足高時序精度的多傳感器同步采集需求。
展開 UJRM數據集---Ubiquitous Joint Rock Mass Modelling
2 UJRM數據集
目前, Ubiquitous Joint Rock Mass Modelling數據集與下面4個數據集密切相關:
(1) Caving Behaviour (崩落行為)
崩落采礦誘發地表沉降預測的經驗方法(Caving Angle)
丘基卡馬塔(Chuquicamata)銅礦由露天開采轉入地下開采
(2) Palabora mine (帕拉博拉礦)
采礦引起地表沉降的影響因素(Factors Influencing Surface Subsidence)
地下采礦引起的地表沉降分析
露天頂柱(Surface Crown Pillar)的形式及其厚度影響因素
(3) Strength anisotropy (強度各向異性)
[1] Mas Ivars, et al. (2008) Anisotropy and scale dependency in jointed rock-mass strength-A synthetic rock mass study.
[2] Assessing rock mass UCS anisotropy using a coupled DFN-DEM approach at a surface mining project in Artic Canada
[3] Of particular interest is the ability to obtain predictions of rock mass scale effects, anisotropy and brittleness;
[4] Lee, K. M. and R. K. Rowe (1989).
展開 
一種快速在GeotechSet數據集內查詢相似段落的方法
1 引言
在geotech-words-flashtext-combination.py,我們使用的查詢方法是對一個句子進行分詞,然后對分詞進行組合使用C(n,3)對整個數據集進行查詢,從而把數據集中所有包含關鍵詞組合的句子提取出來。這種策略是以單句為基礎的,在需要仔細分析單句表達句子的意思時非常有效。不過,有時我們也需要根據關鍵詞查詢整個段落,這樣可以快速對尋找的主題形成一個總體框架(a big picture)。這個筆記簡要描述了快速實現這種思路的一個方法。
巖石邊坡工程的數據挖掘(Data Mining)
Data Mining---巖土工程的數據挖掘
SentenceTransformers庫更新V2.0.0
巖石邊坡工程大數據系統設計
2 實現步驟
整個工作是基于GeotechSet數據集完成的。GeotechSet是一個不斷進化的巖土工程文獻數據庫,包括巖石力學和土力學兩部分, 主要的用途一方面用于查找相關資料,另一方面用于機器學習。其中大部分內容與我自己的專業相關,包括論文,研究報告,課程講稿及軟件手冊等。為了快速聚合查詢內容,使用了以下的步驟和算法:
(1) 把GeotechSet中的所有數據合并成一個文件;
(2) 讀取數據文件,每個段落作為一個item, 形成一個列表(list);
(3) 目前設置了兩個查詢短語,在大多數情況下已經足夠,如果一個段落內同時包含這兩個短語,則存入文件中。
核心代碼如下:
3 段落性查詢
下面用兩個例子試驗這個算法:
試驗(1) q1='Slope instability' ; q2='wedge failure' 這個查詢的目的是想分析巖石邊坡楔形破壞, 查詢結果應該同時包括這兩個短語。
展開 巖石邊坡傾倒破壞之塊體傾倒(Block Toppling)數據集
3 塊體傾倒數據集
在過去, 已經發展出一個屈曲傾倒數據集"flexural toppling failure", 在此基礎上發展出目前的塊體傾倒"Block Toppling"數據集. 這個數據集的內容主要包括在下面兩個數據集中:
(1)\Step-Path-Failure(Discontinuity Persistence)
(2) \lattice spring model
進一步的優化還在進行之中.
4 參考文獻
[1] Duncan C. Wyllie (2018) Rock Slope Engineering Civil Applications. Fifth Edition. 621p. (pdf)
[2] Guzman, R. S., et al. (2015). "Creep Modeling as a means to Interpret the Behavior of the West Wall of the Chuquicamata Open Pit." Integrating Innovations of Rock Mechanics: 11-18.
[3] Allen, R. H. and X. Duan (1995). "Effects of Linearizing on Rocking-Block Toppling." Journal of Structural Engineering-Asce 121(7): 1146-1149.
[4] Alejano, L. R., et al. (2018). "Block toppling stability in the case of rock blocks with rounded edges."
展開 直播預告 | 基于VTD的Lidar訓練數據集構建方案分享
精彩直播預告
人工智能的快速發展帶動基于深度學習的自動駕駛技術有了長足的進步,無論是基于傳統深度學習的自動駕駛技術還是基于端到端的自動駕駛技術,高質量的數據獲取永遠是關鍵。但是數據獲取通常面臨著著成本高,多場景難以覆蓋,數據標注困難等一系列難題,導致數據獲取效率低,數據質量不高。
海克斯康工業軟件旗下的自動駕駛場景仿真軟件VTD,對常用傳感器如:激光雷達、相機、毫米波雷達等有真實的物理建模,可以獲取高質量的傳感器數據,同時在仿真軟件中可以直接獲取場景中物體的真值,省去數據標注的問題。VTD可以提供自動駕駛數據集所需的全部數據,通過腳本完成數據格式和數據形式的整理后,可以獲得對標真實數據的自動駕駛數據集。
本期海克斯康直播講堂請到了自動駕駛仿真專家葉立斌老師為我們帶來基于VTD的Lidar數據集構建方案,從激光雷達物理建模到數據集獲取方案,為我們帶來高質量數據獲取的最新方法,敬請關注!
8月29日 14:00
▲ 掃碼參與報名
立即預定
直播內容聚焦
?? VTD中激光雷達物理建模簡介
?? VTD中數據集獲取方案介紹
?? VTD中獲取數據在開源3D檢測算法驗證
葉立斌
海克斯康自動駕駛仿真軟件專家
負責VTD基礎功能測試和VTD中各類復雜傳感器的拓展開發以實現VTD在自動駕駛不同階段的測試和應用。深度了解仿真軟件在自動駕駛測試開發中的應用,針對客戶不同需求,提供定制化的解決方案,切實解決客戶問題。
展開 3D目標檢測/點云/遙感數據集匯總
DOTA數據集(images)
數據集是遙感圖像,DOTA1.5是在DOTA基礎上擴增的數據集
DOTA數據集包含2806張航空圖像,尺寸大約為4kx4k,包含15個類別共計188282個實例。其標注方式為四點確定的任意形狀和方向的四邊形(區別于傳統的對邊平行bbox)
標注格式:
在數據集中,每個實例的位置由四邊形邊界框注釋,可以表示為“x 1,y 1,x 2,y 2,x 3,y 3,x 4,y 4”,其中(xi,yi)表示圖像中定向邊界框頂點的位置。頂點按順時針順序排列。以下是采用的注釋方法的可視化。黃點代表起點。它指的是:(a)飛機的左上角,(b)大型車輛鉆石的左上角,(c)扇形棒球的中心。
10. DIOR
“DIOR”是一個用于光學遙感圖像目標檢測的大規模基準數據集。數據集包含23463個圖像和192472個實例,涵蓋20個對象類。這20個對象類是飛機、機場、棒球場、籃球場、橋梁、煙囪、水壩、高速公路服務區、高速公路收費站、港口、高爾夫球場、地面田徑場、天橋、船舶、體育場、儲罐、網球場、火車站、車輛和風磨。
11.LEVIR
LEVIR數據集由大量 800 × 600 像素和0.2m?1.0m /像素的高分辨率Google Earth圖像和超過22k的圖像組成。LEVIR數據集涵蓋了人類居住環境的大多數類型地面特征,例如城市,鄉村,山區和海洋。數據集中未考慮冰川,沙漠和戈壁等極端陸地環境。數據集中有3種目標類型:飛機,輪船(包括近海輪船和向海輪船)和油罐。所有圖像總共標記了11k個獨立邊界框,包括4,724架飛機,3,025艘船和3,279個油罐。
展開