【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術

一、概述

在上一篇《DTEmpower核心功能技術揭秘(1)--HierarchicalStratify分層分類技術》中,我們提到工業設計方法中往往大量采用了數據驅動的方式構建代理模型。但數據驅動的技術路線普遍存在著data-hungry數據規模依賴和dimension-curse維度詛咒的問題,而工業設計端的數據又存在著數據集規模小、單點價值密度高的情況。

面對小規模的工業設計數據集,代理模型的精度受到數據集“質量”的嚴重影響。如工業設計數據的分布一致性差異大、數據集中存在較多異常點時,基于機器學習算法的建模效果將被進一步削弱,這甚至影響到了“AI+工業”落地的效率。

針對數據分布一致性差異大、存在多種模式混合的問題,天洑軟件針對性的自研了HierarchicalStratify分層分類技術。那么針對數據集中的異常點,天洑軟件又有哪些創造性的處理方法和基于這些方法的成功應用呢。

       

【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術的圖1

圖1  天洑軟件針對小規模工業設計數據集存在的數據分布一致性差、有較多異常點的問題,在DTEmpower中分別集成了自研的HierarchicalStratify分層分類技術和AIOD智能異常點檢測技術,這為工業AI的落地提供了很大助力

顧名思義,異常點是指數據集中偏離大部分數據的數據點,隨著數據挖掘技術的快速發展,人們在關注數據整體趨勢的同時,也越來越關注那些偏離數據整體趨勢的異常數據點,因為這些數據點往往蘊含著更加重要的信息。因此異常點檢測具有非常強的實際意義和廣泛的應用前景。

目前市場上常見的開源異常點檢測算法有基于統計的、基于聚類的和基于接近度量的等算法。這些算法固然可以實現異常點的檢測,但均具有自身的局限性。
基于以上現狀,天洑軟件綜合考慮了常見異常點檢測算法的應用場景和工業設計數據集的特點,將數十種異常點檢測算法和自研的調度算法有效結合,實現了適用范圍更加廣泛的的檢測技術-AIOD(Artificial Intelligence Outlier Detection )智能異常點檢測技術。

通過對多種異常點檢測算法的有效結合和調度,用戶可以“一鍵觸達”式的使用AIOD智能異常點檢測技術檢測和刪除異常點,而不用疲于算法選型,這為在實際工業應用中落地數據驅動技術掃清了另一障礙。該技術目前已集成于天洑DTEmpower軟件之中。
二、AIOD智能異常點檢測技術簡介

AIOD智能異常點檢測技術將數十種常見算法和自研調度算法有效結合。并支持3種級別的集中調度策略,如圖2所示,分別為快速響應的(檢測等級=1)、性能均衡的(檢測等級=2)和細致搜索的(檢測等級=3)調度策略:

【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術的圖2


圖2 AIOD智能異常點檢測技術的參數配置界面,用戶只需配置異常點檢測等級,模塊即可自動進行檢測

同時,AIOD智能異常點檢測技術具有強大的默認設置和自適應性,如圖3所示,支持一鍵啟動數據清理流程,具有良好的用戶交互特性。在大幅降低用戶使用門檻的情況下,滿足了絕大多數應用場景的異常點識別需求。

【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術的圖3

圖3  AIOD智能異常點檢測技術檢測結果的用戶交互界面,算法會計算出每個樣本的風險評分,并按照從大到小的順序呈現給用戶,方便用戶選擇。支持一鍵選擇數據和一鍵啟動數據清理,具有良好的交互體驗和較低的使用門檻

   

   

   
三、基于DTEmpower的AIOD智能異常點檢測技術建模實驗
 

1. 實驗過程和結果

① 實驗測試1-某工業數據集回歸分析

i. 數據集介紹:該數據集為天洑軟件的客戶提供的工業數據集,含有15維輸入變量V1、V2、...、V15和1維輸出變量EQV1,數據集中共含有2400個樣本,目標是建立輸入變量和輸出變量的回歸模型。

ii. 建模方法:采用圖4所示的建模方法,對輸入和輸出之間的映射關系進行建模。該方法采用了Random Forest隨機森林、GBDT(Gradient Boosting Decision Tree)梯度提升樹、ExtraTrees極限隨機樹和基于Bagging的BaggingDeFo共4種算法進行實驗。

【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術的圖4

圖4 針對某工業數據集,在DTEmpower軟件平臺上搭建回歸分析的建模方案。使用AIOD智能異常點檢測技術進行異常點檢測和刪除。DTEmpower提供了一站式的數據建模解決方案,通過簡單的節點拖拽即可搭建完整的建模流程

iii. 實驗結果:圖5和圖6的實驗結果表明,隨著AIOD智能異常點檢測技術檢測出的異常點被刪除,回歸模型的精度在不斷提高,其中ExtraTrees的R2指標提高到了0.9以上。這充分說明了AIOD智能異常點檢測技術在實際工業場景中的實用性。

【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術的圖5

圖5 隨著刪除異常點的個數從0依次增加到25/50/100/200,4種回歸模型的R2精度指標均在不斷提高

【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術的圖6

圖6 隨著刪除異常點的個數從0依次增加到25/50/100/200,4種回歸模型的NRMSE誤差指標在不斷下降。結合圖5,這充分說明了AIOD智能異常點檢測技術在實際工業場景中的實用性

② 實驗測試2-軸承剩余壽命預測

i. 數據集介紹:實驗選取全生命周期的軸承振動數據集 XJTU_SY_Bearing_Datasets。數據集含有3種工況、每種工況下5個軸承,共計15個軸承的全生命周期的振動數據。

ii. 特征提?。簩⒃紨祿?096個為一組,并計算每組數據的均值、方差、脈沖因子、偏度因子等有量綱和無量綱的12個特征,以此作為樣本輸入,軸承的剩余壽命作為樣本輸出,以此構造訓練和測試樣本。

iii. 建模方案:采用如圖7所示方法對軸承剩余壽命進行建模預測,該方法采用了Linear Regression線性回歸、Bayesian Ridge貝葉斯回歸和Kernel Ridge核嶺回歸等8種算法進行實驗。

在不剔除異常點、剔除25/50/100個異常點的實驗條件下,分別對模型的R2和RMSE指標進行對比。

【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術的圖7

圖7 基于DTEmpower軟件平臺的軸承剩余壽命預測建模方案,使用AIOD智能異常點檢測技術進行異常點檢測和刪除。DTEmpower不僅提供了圖形化的建模方法,還提供有大量算法可供用戶選擇
iv. 實驗結果:圖8和圖9的實驗結果表明,隨著AIOD智能異常點檢測技術檢測出的異常點被刪除,回歸模型的精度有明顯的上升趨勢。這再次說明了AIOD智能異常點檢測技術在另一工業場景中的實用性;

【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術的圖8

圖8 隨著刪除異常點的個數從0依次增加到25/50/100,8種回歸模型的R2精度指標均有明顯的上升趨勢

【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術的圖9

圖9 隨著刪除異常點的個數從0依次增加到25/50/100,8種回歸模型的RMSE誤差指標均有明顯的下降趨勢。結合圖8,這再次說明了AIOD智能異常點檢測技術在實際工業場景中的實用性

【技術】DTEmpower核心功能技術揭秘(2) - AIOD智能異常點檢測技術的圖10

圖10 Kernel Ridge算法的預測結果隨異常點刪除的變化情況,隨著刪除異常點的個數從0依次增加到25/50,模型的預測結果在不斷逼近真實值

2. 實驗結果分析

① 異常點檢測在實際工業場景中有著廣泛的應用和重要的現實意義,目前市場上存在著多種多樣的異常點檢測算法,但每種算法都有各自的應用范圍和局限性。    
② 天洑軟件博采眾多異常檢測算法之長處,融合了數十種常見算法,并結合自研的智能調度策略,實現了適用范圍更加廣泛的異常點檢測方案--AIOD智能異常點檢測技術,并集成在天洑DTEmpower軟件之中。    

③ 在實際工業場景中的應用案例和對比實驗,證明了AIOD智能異常點檢測技術針對不同的應用場景(如基于客戶需求的回歸分析和有著廣泛應用的設備剩余壽命預測)和不同的算法(包括線性的和非線性的),均能輕松、有效的提高模型精度。這恰恰說明了AIOD智能異常點檢測技術的通用性和易用性。

   

   
四、
 

 
總結

面對形式多樣、種類繁多的工業數據集,沒有哪一種算法可以在數據建模中覆蓋所有的應用場景。DTEmpower是天洑軟件憑借著在工業設計和工業運維領域多年的耕耘經驗,自主研發的一款通用的智能數據建模軟件。

DTEmpower致力于為工業數據研究者掃清各種障礙、提供易用可信賴的技術支撐!該軟件平臺不僅提供了一站式的數據建模解決方案,還提供了功能強大的數據挖掘如異常點檢測、高維可視化、特征工程等支撐技術。可以幫助用戶快速、便捷的深入挖掘數據,為建立高精度的數據模型提供了一條高效可落地的實現路徑。

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP

3
2