
發布
注冊
/
登錄數據清理的案例
SOLIDWORKS使用文件準備集成快速清理您的數據
對于那些不知道的人,Collaborative Designer for SOLIDWORKS 是一個云連接角色,使您能夠將 SOLIDWORKS 數據連接到 3D EXPERIENCE平臺并利用其數據管理和協作功能。
最新版本包括有助于加快工作流程的增強功能,包括文件準備助手集成、異步批量保存等。
以下是 Collaborative Designer for SOLIDWORKS 的新增功能。
文件準備助手集成- 更快地清理數據。
文件準備助手更易于訪問,因為您可以直接從 SOLIDWORKS 的工具下啟動它,以便在將數據上傳到3D EXPERIENCE平臺之前清理數據。
如果您熟悉這個節省時間的工具,您就會知道您可以讓它檢查重復的文件名、檢測丟失的文件引用和配置引用等等。
使用異步批量保存繼續設計- 保持高效而不會延遲。
批量保存工作流程更加靈活,因為您可以在將數據保存到3D EXPERIENCE 平臺的同時繼續處理模型。批量保存過程現在使用異步保存方法,因此您可以在后臺以小批量保存的方式進行無延遲設計。
查看組件參考信息——為跨其他應用程序的協作提供有價值的信息。
您現在可以在3D EXPERIENCE 平臺上的對象信息面板中包含 SOLIDWORKS 零部件參考值。這有助于您通過映射組件值來識別裝配中的組件實例,在使用產品結構瀏覽器和書簽編輯器等應用程序時,可以在對象信息面板的“實例”選項卡下輕松找到組件值,以便其他用戶可以輕松找到并使用這些信息。
重要的是要注意,“查找編號”引用(在行業中也稱為氣球編號和值)僅在對象保存到 3D EXPERIENCE平臺后才可見。
展開 CAD如何減小文件占用空間、清理多余的圖層設置等參數、數據。
解決方法1:使用PU清除命令
在圖形繪制完畢后,執行清理:PURGE(PU)命令,清理掉多余的數據,如定義了但未使用的塊、圖層、線型、文字樣式、標注樣式等。清理的時候,勾選對話框下面的“清理嵌套項目”,就可以徹底清理干凈,沒有必要反復清理了。
圖形繪制過程中也可以進行清理,這樣可以提高顯示和操作速度,但需要注意清理的內容,例如一些線型、圖層、文字樣式、標注樣式可能后面會用到,就不要清理了,在清理對話框中都可以選,清理過程一定要注意選擇自己需要保留的項目.點擊每個項目前面的“+”可以展開所有的子項目選擇不要的清除或者將全部多余的清除。
解決方法2:用WBLOCK命令。
把需要傳送的圖形用WBLOCK命令以塊的方式產生新的圖形文件,把新生成的圖形文件作為傳送或存檔用。這樣做的效果和清理差不多,因為寫塊文件時多余的數據也不會被寫到塊文件中。
解決方法3:overkill刪除重復對象。
忽略對象特性根據自己需要選擇后點確定,此時多余的重疊的就被刪掉了。
展開 數據建模平臺 - DTEmpower V2.0 正式發布!
新增智能數據清理工具,異常點識別更精準
DTEmpower V2.0新增了智能數據清理工具AIOD,它通過自研的智能調度引擎,管控數十種數據清理算法,包括,Global Outliers Detection、Local Outliers Detection、Contextual Outliers Detection、Regression based OD、Hybrid Auto OD、Cluster Analysis、Classification Analysis等等,多維度綜合打分排序,無需用戶進行算法選擇和參數配置,一鍵完成異常數據清理。
圖 2 智能數據清理
針對工業設計小數據集的智能訓練算法
針對工業設計數據的“小數據集”、”數據分布不均“等特點,天洑研發了一套智能訓練算法AIAgent,其主要特點包括:
1)使用集成算法提升模型精度和穩定性;
2)通過智能分層分類,級聯使用不同置信度來源數據,極小化代理構建成本;
3)通過超參優化,解決參數調節難題,用戶無需介入訓練過程,一鍵得到“最優”模型。
圖 3 智能數據訓練AIAgent, 小數據集下表現遠超傳統算法
在數據建模流程中方便的融入機理模型
DTEmpower支持用戶在數據建模流程中融入機理模型,以改善模型的精度和提高模型的可解釋性。
展開 【DTEmpower案例操作教程】智能數據挖掘
DTEmpower是由天洑軟件自主研發的一款通用的智能數據建模軟件,致力于幫助工程師及工科專業學生,利用工業領域中的仿真、試驗、測量等各類數據進行挖掘分析,建立高質量的數據模型,實現快速設計評估、實時仿真預測、系統參數預警、設備狀態監測等工程應用。軟件內置有圖形化、零編碼的數據分析建模環境,圍繞數據清理、特征生成、敏感性分析和模型訓練等環節提供豐富的AI算法,提供從模型搭建到模型管理應用的一站式解決方案,學習門檻低、模型質量高,零基礎用戶也能快速挖掘得到優秀的數據模型。
案例描述
數據挖掘用于揭示數據背后存在的規律。在科學計算、工程設計、生產運維、商務管理等多個領域,從業人員會獲得大量的數據,通過數據挖掘將其中所隱含的信息顯式地提取出來,可以用于創造更大的價值。在本節中,將介紹包括數據準備、數據清理、模型訓練等典型過程在內的精簡案例,展示DTEmpower在數據挖掘方面的應用。
該案例以基于Styblinski-Tang函數采樣得到的299個算例和1個結果異常的算例作為原始數據,部分算例如圖1所示,其中被紅色標注的算例為結果異常的算例。
展開 
數據挖掘中的數據預處理
數據預處理是數據挖掘過程中的一個重要步驟。它是指清理、轉換和集成數據,以便為分析做好準備。數據預處理的目標是提高數據質量,使其更適合特定的數據挖掘任務。
數據預處理步驟
數據預處理是數據挖掘過程中的一個重要步驟,涉及清理和轉換原始數據以使其適合分析。數據預處理中的一些常見步驟包括:
數據清理:這涉及識別和糾正數據中的錯誤或不一致,例如缺失值、異常值和重復項。可以使用各種技術進行數據清理,例如插補、刪除和轉換。
數據集成:這涉及組合來自多個來源的數據以創建統一的數據集。數據集成可能具有挑戰性,因為它需要處理具有不同格式、結構和語義的數據。可以使用記錄鏈接和數據融合等技術進行數據集成。
數據轉換:這涉及將數據轉換為合適的格式以供分析。數據轉換中使用的常見技術包括規范化、標準化和離散化。標準化用于將數據縮放到公共范圍,而標準化用于將數據轉換為零均值和單位方差。離散化用于將連續數據轉換為離散類別。
數據縮減:這涉及在保留重要信息的同時減小數據集的大小。可以通過特征選擇和特征提取等技術實現數據縮減。特征選擇涉及從數據集中選擇相關特征的子集,而特征提取涉及將數據轉換為較低維空間,同時保留重要信息。
數據離散化:這涉及將連續數據劃分為離散的類別或間隔。離散化通常用于需要分類數據的數據挖掘和機器學習算法。離散化可以通過等寬分箱、等頻分箱和聚類等技術來實現。
數據規范化:這涉及將數據縮放到一個通用范圍,例如介于 0 和 1 之間或 -1 和 1 之間。歸一化通常用于處理具有不同單位和尺度的數據。常見的規范化技術包括最小-最大規范化、z 分數規范化和十進制縮放。
數據預處理在保證數據質量和分析結果的準確性方面起著至關重要的作用。數據預處理中涉及的具體步驟可能因數據的性質和分析目標而異。
展開 流體工程師狂喜:用代理模型做流體力學計算
我們要做的,是基于這些數據得到一個代理模型。之后遇到新的攻角和雷諾數組合,就可以擺脫CFD,直接用代理模型計算了。
創建代理模型第一步,打開數據建模軟件DTEmpower。沒安裝的可到天洑軟件官網下載,安裝就自帶免費試用。
軟件啟動后,新建項目,導入數據表格。
然后創建流程,選擇專業模式。之后在畫布依次拖入數據讀取、空值處理、變量設定、數據清理AIOD以及數據分割節點。
數據清理的作用是給每組數據的風險值打個分,并剔除風險高的異常數據,防止影響建模精度。
數據分割節點的作用是把數據分成兩部分,分別用來做模型訓練和模型精度測試,默認按照3:1的比例分割。
數據處理之后,拖入模型訓練算法。因為不知道哪種算法合適,所以干脆拖入多個,同時訓練,訓練之后選個精度高的。
最后連線,表示數據傳遞。完整的工程界面長這樣↓,很漂亮。
注意,數據分割到模型對比這一條線,傳遞的數據應該是測試集,test data,而不是訓練集。
流程搭建好,點擊“開始”跑起來。軟件運行到某一個節點,需要你輸入時會彈出界面。
在數據清理節點AIOD,大部分數據的風險值都低于0.2。因此可以考慮以0.2為閾值,只保留風險值低于0.2的數據。
訓練結束后查看模型對比結果,精度高低一目了然。
一般我們都看R2,越大越好。發現極端隨機樹算法(ExtraTrees)得到的模型精度對四個輸出變量來說都挺高,不錯,就選它了。
接下來,你期待的時刻:用極端隨機樹代理模型計算攻角和雷諾數組合對應的升阻力系數。
找到ExtraTrees模型,點擊評估,輸入攻角和雷諾數。計算,唰一下就輸出了四個結果。
只要輸入數據和訓練數據相比,范圍相差不太大,評估精度是有保證的。
展開 結構工程師狂喜:如何用代理模型快速評估結構強度
我們這個案例要做的,就是基于這些數據,訓練得到一個代理模型。之后再遇到新的結構就直接用代理模型計算,那速度相比有限元不知道快到哪里去了。
創建代理模型第一步,打開數據建模軟件DTEmpower,沒安裝的可以去天洑軟件官網下載,安裝就自帶免費試用。
軟件啟動后,新建項目導入數據表格。
然后創建流程,選擇專業模式。之后在畫布依次拖入數據讀取、空值處理、變量設定、數據清理AIOD、重要性分析MDA,以及數據分割節點。
然后連線,表示數據傳遞。
這些節點都什么作用呢?
數據讀取不說了。
空值處理,將存在空值的數據行刪除。你打開數據表細看,能發現有些行的數據是存在空值的。那這一行就不能用來做模型訓練,需要刪除。
變量設定,確定模型的自變量和因變量。顯然,X1~X12這12列是自變量,應力就是因變量。
數據清理AIOD,刪除異常數據。AIOD會給每組數據的風險值打個分,分數越高表示它是異常值的風險越大,要抓緊刪除,防止影響模型精度。
MDA節點,刪除不重要的變量。模型的自變量很多,但并不是每個都重要。MDA會評估自變量的重要性,對那些不重要的,也要抓緊刪除,防止影響模型精度。
數據分割節點的作用,是把數據分成兩部分,一部分用來做模型訓練,一部分用來測試模型精度,軟件默認按照3:1的比例分割。
接下來,關鍵的一步:生成代理模型。
但生成過程用什么算法呢?不知道,需要嘗試。
所以我們干脆用多種算法同時訓練,最后做模型精度對比,選精度高的。
然后連線。注意,數據分割到模型對比節點這一條線,別忘了做調整。要注意傳遞的數據應該是測試集,test data,而不是訓練集。
流程搭建好,點擊開始跑起來。軟件運行到某一個節點,需要你輸入時會彈出來。
展開 【技術】基于DTEmpower的旋轉機械故障診斷
DTEmpower簡介
DTEmpower 是一套針對工業用戶的圖形化數據建模平臺,所有的數據及模型操作均以工具箱中模塊的形式提供,用戶無需具備編碼能力,通過簡單的節點拖拽與節點連接即可完成復雜的數據建模流程的構建。
圖1 DTEmpower平臺數據建模流程示例
DTEmpower 圍繞數據清理、特征提取、特征選擇和模型訓練等數據建模的各個環節,在工具箱中以控件的形式提供了上百種常用算法和數種先進的自研算法:包括8 種數據采樣算法、21 種數據清理算法、6 種數據聚類算法、15 種數據降維算法、6 種數據變換算法、5 種特征選擇算法、11 種線性擬合算法、22 種非線性擬合算法、以及其他搭配控件。
圖2 DTEmpower平臺提供的數據建模算法示例
作為一個開放式的數據建模平臺,DTEmpower提供了針對旋轉機械設備故障診斷場景的定制工具箱,包含數據采集、特征提取和模式分類(故障識別)三大主功能。
數據采集主要對信號進行預處理。特征提取主要對振動信號進行特征加工,挖掘出能反應故障表征的特征量。對于模型而言,特征工程決定模型效果的上限,DTEmpower針對旋轉設備診斷提供了豐富的特征提取功能。時域和頻域分析方法在平穩信號的處理方面優勢突出,而旋轉機械由于磨損和削落等故障產生的振動信號具有強非線性和非平穩特性,這類信號中表征故障特征的時域和頻域參數會隨著時間和頻率的變化而發生變化,時頻分析方法能夠分析信號局部特征的,可以對頻譜隨時間變化的特性進行有效分析。
展開 【技術】基于DTEmpower的水處理系統參數預測 - 內因篇
基于DTEmpower的數據建模流程
使用基于內因的樣本集構造方法構建的數據集,基于DTEmpower平臺完成數據預處理、特征篩選、特征工程、模型訓練和評估的數據建模流程。本次水處理系統參數預測的建模流程如圖2所示。
圖2 水處理系統參數預測建模流程
圖2中建模流程的說明如下:
① 讀取用戶上傳的數據集。
② 刪除數據集中存在的空值。
③ 選擇模型的輸入數據和輸出數據。
④ 對數據集中的異常點進行清理。圖2中的AIOD是天洑軟件自研的智能數據清理算法的調度策略,具有強大的默認設置和自適應性,可以滿足絕大多數異常點識別場景。用戶可以根據AIOD生成的_risk_score_自主選擇需要刪除的異常點。
圖3 AIOD-一鍵式的智能數據清理
⑤ 將輸入數據中的冗余特征剔除。圖2中的MDI控件可以計算輸入特征的重要性數值,通過設定重要性閾值即可完成特征篩選的工作。
圖4 MDI-重要性分析
⑥ 將輸入數據進行降維。數據降維節點提供了線性降維算法PCA和非線性降維算法isomap等15種降維算法。
⑦ 劃分模型的測試集和訓練集。
⑧ 使用不同算法對訓練集進行訓練。本次實驗使用了 GBDT(Gradient Boosting Decision Tree)、Bagging、隨機森林(Random Forest, RF)和極端隨機樹(ExtraTrees)4種非線性回歸算法。
⑨ 使用測試集對模型進行評估和對比。圖2中的模型對比控件可以得到不同模型的預測指標,如R2、RMSE、MAPE等,并提供了模型下載和保存和數據可視化功能。
圖5 真實值和預測值的對比
4. 實驗結果和分析
通過以上模型對累計流量、濁度、壓差等6個參數變量進行t+12h的長窗預測,實驗結果如表1所示。
展開 智能數據建模軟件DTEmpower 2023R2新版本功能介紹
DTEmpower是由天洑軟件自主研發的一款通用的智能數據建模軟件,致力于幫助工程師及工科專業學生,利用工業領域中的仿真、試驗、測量等各類數據進行挖掘分析,建立高質量的數據模型,實現快速設計評估、實時仿真預測、系統參數預警、設備狀態監測等工程應用。軟件內置有圖形化、零編碼的數據分析建模環境,圍繞數據清理、特征生成、敏感性分析和模型訓練等環節提供豐富的AI算法,提供從模型搭建到模型管理應用的一站式解決方案,學習門檻低、模型質量高,零基礎用戶也能快速挖掘得到優秀的數據模型。
一、DTEmpower功能特色
● 豐富且先進的智能算法
● 便利的圖形化數據建模流程搭建界面
● 數據分析建模全流程覆蓋
● 專業且靈活的數據可視化探索
● 低學習門檻
● 國產自主可控
二、版本更新介紹
DTEmpower 2023R2在軟件功能和操作體驗上均實現了升級:
● 模型可視化功能豐富
● 時序數據分析算法提升
● 用戶自定義數據處理算法支持
● UI交互界面升級
圖1 智能數據建模軟件DTEmpower 2023R2啟動界面
1)模型可視化功能豐富
DTEmpower 2023R2版本豐富了對數據清理、數據聚類、數據降維、數據變換等多種算法模型的可視化功能。此類數據預處理及特征工程算法的正確使用可以大幅提升數據建模的精度效果。
展開 使用線性回歸預測降雨量 ¥2
數據集,無論大小,都伴隨著各種問題 - 無效字段、缺失值和附加值,以及形式與我們所需的值不同的值。為了將其變為可行或結構化的形式,我們需要 “清理” 我們的數據,并使其隨時可用。一些常見的清理包括解析、轉換為 one-hot、刪除不必要的數據等。在我們的示例中,我們的數據有一些日期沒有記錄某些因素。如果有微量降水,以 cm 為單位的降雨量被標記為 T。我們的算法需要數字,因此我們無法處理數據中彈出的字母。因此,我們需要在將數據應用于模型之前清理數據。在 Python 中清理數據:
Python3 語言
使用線性回歸預測降雨量-1.py
清理數據后,可以將其用作線性回歸模型的輸入。線性回歸是一種在因變量和許多自解釋變量之間形成關系的線性方法。這是通過繪制一條最適合我們的散點圖的線來完成的,即誤差最小。這通過替換線方程中的獨立值來給出值預測,即多少。我們將使用 Scikit-learn 的線性回歸模型來訓練我們的數據集。一旦模型經過訓練,我們就可以為各種列(例如溫度、露點、壓力等)提供自己的輸入,以根據這些屬性預測天氣。
使用線性回歸預測降雨量-2.py
輸出:
The precipitation in inches for the input is: [[1.33868402]]
The precipitation trend graph:
?編輯
Precipitation vs selected attributes 圖表:
降水量約為 2 英寸的一天(紅色)跨多個參數進行跟蹤(同一天跨溫度、壓力等多個特征進行跟蹤)。x 軸表示天數,y 軸表示特征的大小,例如溫度、壓力等。
展開 
FE-SAFE使用Abaqus的fil文件進行疲勞運算(一)
同時,我們需要對上次所留下的數據進行清理,點擊Tools>>Clear Data and Settings…,選中所有的選項,點擊OK,數據清理完成。。。。。。
接下來的步驟附件中會有詳細說明,大家可以先看看,相互交流,相互學習,有什么好資料好想法希望大家都可以拿出來分享下!
FE-SAFE使用Abaqus的fil文件進行疲勞運算.pdf
【DTEmpower案例操作教程】智能模型預警
圖2 新建項目
2)添加數據集
新建項目之后,即會進入到DTEmpower的工程主頁面,如圖3所示。
圖3 工程主頁
進入工程主頁之后,點擊“導入數據”,即跳出數據集文件上傳窗口。點擊窗口中的“選擇文件”按鈕,即可選擇本地磁盤中的數據文件加載至當前項目中,如圖4所示。
圖
4
上傳原始數據
數據集添加完成后即出現在左側的資源菜單中,如圖5所示。
圖5 數據集上傳結果
3)加入流程
上傳數據集之后,單擊選中數據集,在數據集的右上方,點擊選擇“數據建?!?,會即彈出數據建模的兩種模式選擇,點擊選擇專業模式,如圖6所示。這里可以根據用戶自身需求更改流程名稱和描述(非必須操作),然后點擊確定按鈕。
圖6
專業模式數據建模
點擊確定之后,原始數據的載入即以“數據讀取”節點的形式加入至建模流程中。在建模畫布與左側資源樹中均可以觀察到新增的節點,如圖7所示。
圖7
數據集加入流程
4)變量設定
將工具箱切換至數據操作,從中將變量設定節點拖拽至畫布中,并連接數據讀取節點,如圖8所示。
圖8 添加變量設定節點
點擊開始,當流程運行至變量設定節點時,在彈出配置窗口中將“反滲透二段壓差”選為輸出變量,其余(除時間)變量選為輸入變量,如圖9所示。
圖9 變量設定配置
5)數據清理
將工具箱切換至數據清理,從中將AIOD節點拖拽至畫布中,并連接變量設定節點,如圖10所示。
展開 用機器學習破解新能源領域的“棄風”難題
下面展示一個案例,用數據預測風電功率。來自清華大學孫逸凡團隊,主題《面向復雜風電數據的核密度清洗與功率預測分區模型》。
該案例榮獲第三屆“天洑杯”數據建模大賽的特等獎。
數據采集自陜西某風電場,規模相當龐大,有442809 條,59個維度。
這59個維度,其中一個是輸出功率,即因變量。另外58個是自變量,包括風速、溫度、風向、葉片槳距角等等,它們或多或少都會影響輸出功率。
工具采用DTEmpower,一款門檻超低上手簡單的智能數據建模軟件。
建模過程包括數據讀取、數據清理、敏感性分析、模型訓練、模型對比等步驟,下面為完整工程界面。
其中:
數據清理部分,項目團隊基于軟件的數據處理模塊,開發自編程清洗程序,實現數據高效批量化處理。同時考慮風機工作特征和數據異常原因,將建模過程結合業務背景。
敏感性分析部分篩選掉“不重要”的自變量,提高建模精度。
模型訓練部分,先根據風電特征將數據分區,然后分別用不同的訓練算法做模型訓練。
模型對比階段,用測試集對基于不同算法訓練得到的模型進行精度對比。
最后一步模型聚合,將優選出的分區模型合并為一個。
最終經測試集數據測試,合并后的模型精度非常高,R2值達到0.99。
這說明基于風速、溫度以及槳距角這些容易測量或容易預測的數據,就能實時預測未來一段時間的風機功率。
如果預測到功率偏低,那就讓火電機組做好準備,甚至讓風電停機檢修。反過來,如果預測到功率偏高,火電就能歇息一陣了。
如此一來,大大提升風機的利用率,降低“棄風”率,讓每一縷風都有機會點亮萬家燈火。
最后,歡迎到天洑軟件官網下載試用DTEmpower,從數據中挖掘價值,預測未來。
展開 Hypermesh聯合Fluent仿真:教你創建CFD邊界層網格 ¥2.9
目錄:數據導入、數據清理、網格劃分、網格導出
1、 數據導入
在數據導入hypermesh之前確保一些大的清理步驟,比如塊的創建、切割、面的縫合等已經過專業的三維數模軟件處理(Hypermesh做這些操作不是很方便)。打開Hypermesh,User Profiles先選擇默認,按圖1的步驟點擊導入數據。
圖1 數據導入