【技術(shù)】DTEmpower核心功能技術(shù)揭秘(7) - ROD基于回歸分析的異常點(diǎn)檢測技術(shù)



【技術(shù)】DTEmpower核心功能技術(shù)揭秘(7) - ROD基于回歸分析的異常點(diǎn)檢測技術(shù)的圖1



概述



《DTEmpower核心功能技術(shù)揭秘》系列的文章圍繞著如何提升機(jī)器學(xué)習(xí)模型的精度,介紹了AIOD、AIAgent、autoML等核心技術(shù)。其中AIOD異常點(diǎn)檢測技術(shù)融合了數(shù)十種常見的異常檢測算法,用以識別數(shù)據(jù)集中的異常點(diǎn);AIAgent和autoML是對訓(xùn)練算法的提升。

本系列的第七篇文章將繼續(xù)圍繞如何讓算法逼近模型上限的問題,介紹一種基于回歸分析的異常點(diǎn)檢測技術(shù)-Regression Based Outlier Detection(ROD)技術(shù)。不同于傳統(tǒng)的異常檢測算法,ROD方法是在模型訓(xùn)練的基礎(chǔ)上后處理的進(jìn)行異常點(diǎn)剔除的方法。所以,如何選擇合適的異常點(diǎn)剔除個數(shù)需要較多的測試,以尋找到最適用于當(dāng)前測試集的模型。

該技術(shù)模塊集成于DTEmpower中的每個回歸算法節(jié)點(diǎn),能夠幫助用戶在剔除“潛在異常點(diǎn)”的同時,提高了模型的精度和泛化能力。

【技術(shù)】DTEmpower核心功能技術(shù)揭秘(7) - ROD基于回歸分析的異常點(diǎn)檢測技術(shù)的圖2

圖1  DTEmpower中每個算法節(jié)點(diǎn)都集成有ROD異常點(diǎn)檢測功能,用戶只需要打開對應(yīng)開關(guān)按鈕“activate_remove_malform”,并配置異常點(diǎn)剔除的個數(shù)“remove_malform_top_N”和迭代次數(shù)“remove_malform_times”,即可開啟算法節(jié)點(diǎn)的ROD異常點(diǎn)檢測功能
基于DTEmpower的ROD建模實戰(zhàn) 

1. 船舶興波阻力回歸分析
① 數(shù)據(jù)集介紹:方案中采用的數(shù)據(jù)集是經(jīng)SHIPFLOW軟件計算興波阻力的數(shù)據(jù)集,該數(shù)據(jù)集中含有5個輸入?yún)?shù),目標(biāo)參數(shù)是興波阻力eval_CWTWC。 
② 建模方法:采用圖2所示的建模方法,對輸入和輸出之間的映射關(guān)系進(jìn)行回歸分析建模。該方法采用了GBDT、Random Forest和ExtraTrees訓(xùn)練算法進(jìn)行回歸分析建模。然后對比在激活ROD和不激活ROD的情況下,模型的R2、MAE等指標(biāo)。
【技術(shù)】DTEmpower核心功能技術(shù)揭秘(7) - ROD基于回歸分析的異常點(diǎn)檢測技術(shù)的圖3
圖2 基于DTEmpower軟件平臺的船舶興波阻力回歸分析,選取了GBDT、RandomForest和ExtraTrees算法建立輸入輸出變量的映射關(guān)系。其中ROD異常點(diǎn)檢測功能在算法節(jié)點(diǎn)的屬性配置界面,用戶需要結(jié)合“activate_remove_malform” “remove_malform_top_N”和“remove_malform_times”3個參數(shù)進(jìn)行搭配使用
③ 實驗分析:針對本數(shù)據(jù)集,可以直觀的發(fā)現(xiàn)部分樣本的eval_CWTWC變量量級較大,因此在使用異常點(diǎn)檢測模塊之前,使用DTEmpower的【變量范圍】節(jié)點(diǎn)刪除量級過大的數(shù)據(jù)(結(jié)果見圖3)。而圖4所示的試驗結(jié)果也證明了ROD在清除異常點(diǎn)、提高模型精度的有效性。

【技術(shù)】DTEmpower核心功能技術(shù)揭秘(7) - ROD基于回歸分析的異常點(diǎn)檢測技術(shù)的圖4

圖3 基于DTEmpower軟件平臺進(jìn)行數(shù)據(jù)過濾前后的數(shù)據(jù)分布,可以看到過濾后的數(shù)據(jù)集整體基本上已經(jīng)處于一個合理的數(shù)據(jù)分布狀態(tài)

【技術(shù)】DTEmpower核心功能技術(shù)揭秘(7) - ROD基于回歸分析的異常點(diǎn)檢測技術(shù)的圖5

圖4 隨著ROD功能模塊不斷的刪除數(shù)據(jù)集中的異常點(diǎn),可以看到3種算法模型的R2指標(biāo)(越大模型精度越高)呈現(xiàn)出明顯的上升趨勢,而其MAE指標(biāo)呈現(xiàn)明顯的下降趨勢。這表明ROD功能模塊在清除異常點(diǎn)、提高模型精度的優(yōu)秀性能

2. 風(fēng)機(jī)測點(diǎn)結(jié)構(gòu)應(yīng)力快速評估
① 數(shù)據(jù)集介紹:某頭部風(fēng)機(jī)制造商提供的結(jié)構(gòu)應(yīng)力評估數(shù)據(jù)集,含有15維輸入特征,共2400個樣本,目標(biāo)是快速評估測點(diǎn)的結(jié)構(gòu)應(yīng)力。
② 建模方法:根據(jù)圖5所示的建模流程,采用隨機(jī)森林算法進(jìn)行模型訓(xùn)練,然后對比在激活ROD和不激活ROD的情況下模型的精度指標(biāo)。

【技術(shù)】DTEmpower核心功能技術(shù)揭秘(7) - ROD基于回歸分析的異常點(diǎn)檢測技術(shù)的圖6

圖5 基于DTEmpower軟件平臺的風(fēng)機(jī)測點(diǎn)結(jié)構(gòu)應(yīng)力快速評估建模方案,方案中選取2種常見算法進(jìn)行模型的訓(xùn)練。DTEmpower提供了一站式的數(shù)據(jù)建模解決方案,通過簡單的節(jié)點(diǎn)拖拽即可搭建完整的建模流程,其中ROD功能更是集成于每一個算法節(jié)點(diǎn),幫助用戶構(gòu)建高精度的機(jī)器學(xué)習(xí)模型

③ 實驗分析:實驗結(jié)果如圖6所示。

【技術(shù)】DTEmpower核心功能技術(shù)揭秘(7) - ROD基于回歸分析的異常點(diǎn)檢測技術(shù)的圖7

圖6 隨著ROD功能模塊不斷的刪除數(shù)據(jù)集中的異常點(diǎn),可以直觀的看到模型的R2指標(biāo)(越大模型精度越高)呈現(xiàn)明顯的上升趨勢(左圖),MAPE指標(biāo)(越小模型精度越高)呈現(xiàn)出明顯的下降趨勢(右圖)。這表明ROD功能模塊在清除異常點(diǎn)、提高模型精度的有效性
總結(jié) 

數(shù)據(jù)和特征決定了模型的上限,數(shù)據(jù)中的異常點(diǎn)會對模型的精度造成嚴(yán)重的影響。而DTEmpower中的ROD技術(shù)直接以提高模型的精度為目標(biāo),尋找并剔除樣本中的“潛在異常點(diǎn)”。

實際工業(yè)場景中的應(yīng)用案例和對比實驗,也證明了ROD功能模塊在挖掘工業(yè)數(shù)據(jù)集中的“潛在異常點(diǎn)”方面的優(yōu)秀性能,可高效地輔助用戶構(gòu)建高精度模型。

DTEmpower軟件平臺提供的數(shù)據(jù)挖掘、特征工程和智能的異常點(diǎn)檢測等一站式解決方案,不僅可以幫助用戶快速、便捷地構(gòu)建精度較高的數(shù)據(jù)模型,其技術(shù)的創(chuàng)新應(yīng)用勢必會給工業(yè)數(shù)據(jù)研究者持續(xù)帶來福音。




登錄后免費(fèi)查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項目客服
  • 培訓(xùn)客服
  • 平臺客服

TOP