【DTEmpower案例操作教程】智能數據挖掘


DTEmpower是由天洑軟件自主研發的一款通用的智能數據建模軟件,致力于幫助工程師及工科專業學生,利用工業領域中的仿真、試驗、測量等各類數據進行挖掘分析,建立高質量的數據模型,實現快速設計評估、實時仿真預測、系統參數預警、設備狀態監測等工程應用。軟件內置有圖形化、零編碼的數據分析建模環境,圍繞數據清理、特征生成、敏感性分析和模型訓練等環節提供豐富的AI算法,提供從模型搭建到模型管理應用的一站式解決方案,學習門檻低、模型質量高,零基礎用戶也能快速挖掘得到優秀的數據模型。
案例描述 

數據挖掘用于揭示數據背后存在的規律。在科學計算、工程設計、生產運維、商務管理等多個領域,從業人員會獲得大量的數據,通過數據挖掘將其中所隱含的信息顯式地提取出來,可以用于創造更大的價值。在本節中,將介紹包括數據準備、數據清理、模型訓練等典型過程在內的精簡案例,展示DTEmpower在數據挖掘方面的應用。
該案例以基于Styblinski-Tang函數采樣得到的299個算例和1個結果異常的算例作為原始數據,部分算例如圖1所示,其中被紅色標注的算例為結果異常的算例。
【DTEmpower案例操作教程】智能數據挖掘的圖1
圖1 部分原始數據

案例中Styblinski-Tang函數供包含五個輸入變量x0、x1、x2、x3、x4,一個輸出變量y,其中任意兩個輸入變量組成的函數曲面(其它輸入變量值等于零時)如圖2所示。

【DTEmpower案例操作教程】智能數據挖掘的圖2

圖2 Styblinski-Tang函數曲面

針對該案例,利用DTEmpower提供的智能數據清理算法AIOD和智能代理模型訓練算法AIAgent進行智能數據挖掘。

操作流程 

1)新建項目

雙擊打開DTEmpower軟件,即可進入到如圖3所示的界面。單擊新建項目,即可創建一個臨時項目文件,需要注意的是,臨時創建的項目文件不會自動保存。如果想要保存項目文件,用戶可以進入到項目中選擇“文件-保存”,就可以保存工程文件到自己想要的指定位置。

【DTEmpower案例操作教程】智能數據挖掘的圖33 新建項目

2)添加數據集 

新建項目之后,即會進入到DTEmpower的工程主頁面,如圖4所示。

【DTEmpower案例操作教程】智能數據挖掘的圖4

圖4 工程主頁

 進入工程主頁之后,點擊“導入數據”,即跳出數據集文件上傳窗口。點擊窗口中的“選擇文件”按鈕,即可選擇本地磁盤中的數據文件加載至當前項目中,如圖5所示。

【DTEmpower案例操作教程】智能數據挖掘的圖5
5 上傳原始數據

數據集添加完成后即出現在左側的資源菜單中,如圖6所示。

【DTEmpower案例操作教程】智能數據挖掘的圖6

圖6 數據集上傳結果

3)加入流程

上傳數據集之后,單擊選中數據集,在數據集的右上方,點擊選擇“數據建?!?,會即彈出數據建模的兩種模式選擇,點擊選擇專業模式,如圖7所示。這里可以根據用戶自身需求更改流程名稱和描述(非必須操作),然后點擊確定按鈕。

【DTEmpower案例操作教程】智能數據挖掘的圖7
圖7  專業模式數據建模
點擊確定之后,原始數據的載入即以“數據讀取”節點的形式加入至建模流程中。在建模畫布與左側資源樹中均可以觀察到新增的節點,如圖8所示。

【DTEmpower案例操作教程】智能數據挖掘的圖8

圖8  數據集加入流程
4)變量設定
在建模流程中,原始數據載入后,需要依托“數據操作-變量設定”節點將變量指定為輸入變量和輸出變量兩類,后續的數據清洗、特征工程和模型訓練都將依托于輸入和輸出變量進行。

在頂部菜單欄中單擊工具箱中的“數據操作”,即可展開右側工具箱。選擇其中的“變量設定”控件并拖拽至畫布中,即完成了新節點的添加,如圖9所示。

【DTEmpower案例操作教程】智能數據挖掘的圖9

圖9 添加變量設定節點
此時可以單擊添加至建模流程中的變量設定節點,在節點屬性彈窗中修改節點名、節點描述,方便查看和理解,如圖10所示。需要注意的是,該操作不是必須的。
【DTEmpower案例操作教程】智能數據挖掘的圖10
圖10  修改節點名稱及描述

數據讀取節點讀取的原始數據將傳遞至變量設定節點,進行輸入和輸出變量的設定,因此需要連接數據讀取節點和變量設定節點,如圖11所示。

【DTEmpower案例操作教程】智能數據挖掘的圖11

圖11  連接數據載入和變量設定節點

數據讀取節點和變量設定節點連接完成后,會自動彈出節點間輸入輸出量的關聯列表,系統會默認對類型匹配的輸入輸出量進行自動關聯,用戶可以根據自身需求進行增刪改操作,如圖12所示。

【DTEmpower案例操作教程】智能數據挖掘的圖12

圖12  連線配置
5)異常點清洗

DTEmpower提供自研智能數據清理算法AIOD,節點執行完成后,會為每條算例提供一個異常風險評分,分值越高該算例為異常點的可能性越高。工具箱切換為數據清理,然后將AIOD節點加入至建模流程,如圖13所示。

【DTEmpower案例操作教程】智能數據挖掘的圖13
圖13  添加AIOD節點
同變量設定節點一樣,用戶可通過單擊AIOD節點的方式修改節點名稱和描述,具體操作上文已經進行詳細描述,此處不再贅述。
經變量設定節點指定輸入輸出變量的數據將傳遞至AIOD節點,進行數據清洗,因此需要連接變量設定節點和AIOD節點,如圖14所示。
【DTEmpower案例操作教程】智能數據挖掘的圖14
圖14 連接變量設定節點和AIOD節點

如需調整節點的位置與距離以保持畫布整潔,可以同時按住鍵盤“Ctrl”鍵并用鼠標進行框選,在彈出菜單中選擇對齊方式等,如圖15所示。

【DTEmpower案例操作教程】智能數據挖掘的圖15
圖15 節點框選與對齊

6)智能模型訓練——AIAgent

DTEmpower提供自研智能模型訓練算法AIAgent,內嵌集成學習、數據分層分類及超參自學習模塊的AIAgent無需用戶具有算法基礎或調參經驗。

將工具箱切換為回歸訓練,然后將AIAgent節點加入至建模流程,如圖16所示。

【DTEmpower案例操作教程】智能數據挖掘的圖16

圖16 添加AIAgent節點

點擊畫布上的AIAgent節點,右側將彈出節點配置面板。開啟其中的“小數據集優化”選項,如圖17所示。該選項適合在樣本量在1000行上下的數據集開啟,將耗費更多的訓練時長,但模型精度也相對更高。

【DTEmpower案例操作教程】智能數據挖掘的圖17

圖17 AIAgent配置面板

采用同樣的方式可修改節點的名稱,并完成節點間的連接,如圖18所示。
【DTEmpower案例操作教程】智能數據挖掘的圖18

圖18 連接AIOD節點和AIAgent節點

7)執行流程與交互式配置

建模流程搭建完成后,單擊頂部菜單欄“開始”按鈕后,建模流程中的節點即開始依次執行,其中執行至變量設定和AIOD節點時流程執行會自動暫定,用戶在交互式配置彈窗中配置完成后才會繼續向下執行,直至建模流程執行完成。

執行至變量設定節點時,自動彈出的交互式配置彈窗如圖19所示。

【DTEmpower案例操作教程】智能數據挖掘的圖19

圖19 變量設定交互彈窗

如前文所述,變量設定交互式彈窗左側為從原始數據文件表頭中讀取到的變量名稱,右側上欄為輸入變量,右側下欄為輸出變量。用戶在左側勾選變量,然后單擊表格間的移動按鈕,即可實現輸入和輸出變量的設定,分別如圖20、圖21所示。在勾選變量時,支持Shift快捷鍵批量選擇。
【DTEmpower案例操作教程】智能數據挖掘的圖20
圖20   輸入變量設定
【DTEmpower案例操作教程】智能數據挖掘的圖21
圖21 輸出變量設定
輸入輸出變量設定完成后,單擊交互式彈窗右下角的提交按鈕即可繼續向下執行,如圖22所示。

【DTEmpower案例操作教程】智能數據挖掘的圖22

圖22 提交變量設定

流程執行至AIOD節點后,會自動彈出數據清理的交互式彈窗,用戶在該彈窗中可根據右側列表中各算例給定的異常風險值輔以左側的可視化圖表,選擇異常點。需要注意的是,右側的算例列表是按異常風險評分由高到低排序的。左側的可視化圖表包含三種形式:柱狀圖、箱線圖以及散點圖,如圖23所示。

【DTEmpower案例操作教程】智能數據挖掘的圖23

圖23 AIOD節點交互式彈窗

通常而言,異常風險評分明顯高于其他算例的算例是異常點的概率更高。在右側列表中勾選或左側散點圖中雙擊算例點均可將對應算例指定為異常點;在右側列表中取消勾選或在左側散點圖中雙擊已經被指定為異常點的算例,即可將取消對應算例的異常點指定。點擊左側“預覽”按鈕可以查看剔除異常點后的新可視化顯示。
【DTEmpower案例操作教程】智能數據挖掘的圖24

圖24 異常點配置

如圖21所示,異常風險評分最高的算例即為真實的異常點,其異常風險評分在0.70以上,而其它算例異常風險評分最高為0.23。因此,將其指定為異常點后單擊交互式右下角的確定按鈕即可繼續向下執行,直至整個流程執行完成,如圖25所示。
【DTEmpower案例操作教程】智能數據挖掘的圖25

圖25 流程執行完成

效果對比 

建模流程執行完成后,展開資源樹中AIAgent節點,單擊model選項,依次選擇輸出變量、勾選響應面自變量、并配置其它輸入變量的變量值后,單擊開始繪圖按鈕后,右側即顯示訓練得到的模型響應面信息,如圖26所示。
【DTEmpower案例操作教程】智能數據挖掘的圖26
圖26  模型信息查看
為了驗證AIAgent的優越性,本案例同時新建了對比工程,利用集成學習算法Adaboost節點代替AIAgent節點,在其它配置均相同的情況下,兩者響應面對比如圖27所示。

【DTEmpower案例操作教程】智能數據挖掘的圖27

【DTEmpower案例操作教程】智能數據挖掘的圖28

AIAgent的響應面,測試精度99.99% Adaboost的響應面,測試精度79.9%
圖27  訓練效果對比
由圖27可知,AIAgent響應面結果與真實函數空間趨勢幾乎完全一致,而Adaboost的響應面絕大部分區域的細節信息丟失。

DTEmpower更多詳細介紹及軟件試用,請點擊DTEmpower - 智能數據建模軟件,前往查閱。試用無需申請license,下載軟件安裝后可直接免費試用30天

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP