【技術】DTEmpower核心功能技術揭秘(6) - autoML超參優化技術



【技術】DTEmpower核心功能技術揭秘(6) - autoML超參優化技術的圖1




概述



在上一篇我們圍繞著如何讓算法不斷逼近機器學習模型上限這個問題,介紹了AIAgent智能訓練算法,本系列的第六篇主題將繼續針對該問題介紹autoML超參優化技術。
在數據建模分析的實際應用中,算法中的一些超參數會對最終模型產生重要的影響,因此工程師需要做大量的參數調試工作,以期找到精度最高的模型。但是這個過程往往會花費大量的時間和人力成本。
DTEmpower針對此問題,不僅集成有大量的回歸算法可供用戶選擇,對于每個訓練算法還集成了超參優化功能以節省用戶的超參數調試過程。同時以其良好的用戶交互界面,降低了用戶的使用門檻

【技術】DTEmpower核心功能技術揭秘(6) - autoML超參優化技術的圖21657614401674.jpg

【技術】DTEmpower核心功能技術揭秘(6) - autoML超參優化技術的圖4

圖1  DTEmpower中每個算法節點都集成有超參優化功能,用戶只需要打開“超參優化”功能按鈕,即可在省去大量超參數調試過程的同時,獲取精度較高的模型

基于DTEmpower的超參優化建模實戰 

1. 風機測點結構應力快速評估
① 數據集介紹:某頭部風機制造商提供的結構應力評估數據集,含有15維輸入特征,共2400個樣本,目標是快速評估測點的結構應力。

② 建模方法:根據圖2所示的建模流程,采用GBDT(Gradient Boosting Decision Tree)梯度提升樹算法進行模型訓練,分別在開啟和不開啟超參優化功能的條件下進行對比實驗。

圖2.png

【技術】DTEmpower核心功能技術揭秘(6) - autoML超參優化技術的圖6

圖2 基于DTEmpower軟件平臺的風機測點結構應力快速評估建模方案,選取了GBDT算法建立輸入輸出變量的映射關系。其中超參優化功能在算法節點的屬性配置界面,用戶只需點擊相應按鈕即可一鍵開啟或關閉超參優化功能,非常便于使用

③ 實驗分析:觀察超參優化功能的打開和關閉對最終模型的影響。圖3-1、3-2的實驗結果表明,僅開啟算法節點的超參優化功能,即可有效的提高模型精度,降低模型的預測誤差。

圖3-1.png

【技術】DTEmpower核心功能技術揭秘(6) - autoML超參優化技術的圖8

圖3-1 GBDT算法開啟超參優化和不開啟超參優化的預測值和真實值對比,可以看出開啟超參優化的算法預測值(圖中綠色折線)和真實值(紅色折線)總體上更加接近

圖3-2.png

圖3-2 GBDT算法在兩種情況下的預測誤差分布,誤差分布的提琴圖清晰的表明了開啟有超參優化的算法預測誤差分布更向0值靠攏。結合圖3-1充分說明了超參優化功能在提高模型精度、降低預測誤差方面的優越性

2. 電廠水處理系統參數預測
① 數據集介紹:來源于某電廠污水處理系統的流量、壓差、濁度等時序數據,含有50+特征變量,共21000個樣本,目標是預測水處理設備未來一段時間內的出口濁度。

② 建模和實驗方法:采用圖4所示的建模流程,選取MDI+PCA作為降維工具,并使用GBDT和隨機森林2種算法用以訓練出口濁度預測模型。對每個算法節點分別開啟和關閉超參優化功能,觀察模型的精度變化。

圖4.png

【技術】DTEmpower核心功能技術揭秘(6) - autoML超參優化技術的圖11

圖4 基于DTEmpower軟件平臺的水處理系統參數長窗預測建模方案,方案中選取2種常見算法進行模型的訓練。DTEmpower提供了一站式的數據建模解決方案,通過簡單的節點拖拽即可搭建完整的建模流程,其中超參優化功能更是集成于每一個算法節點,能夠很方便的節省用戶的調參過程

③ 實驗分析:觀察超參優化功能的打開和關閉對最終模型的影響。圖5所示的實驗結果充分表明了超參優化對于提高模型精度的優越性。

圖5.png

【技術】DTEmpower核心功能技術揭秘(6) - autoML超參優化技術的圖13

圖5 基于2種算法的參數預測模型的R2指標(左圖)和MAE指標(右圖)隨超參優化功能的變化趨勢,可以看到開啟超參優化功能后,模型的R2精度指標(越大表示模型精度越高)顯著提升,同時MAE指標(越小表示模型精度越高)顯著下降。這表明超參優化能夠有效的提升模型精度,降低泛化誤差
總結 

數據和特征決定了模型的上限,要讓算法不斷逼近這個上限,需要調試大量的算法超參數。DTEmpower集成了低門檻的autoML超參優化功能,可以幫助用戶節省大量的調參過程。

通過實際工業場景中的應用案例和對比實驗,也證明了autoML功能模塊能輕松、有效尋找算法節點的最優超參數,可高效地輔助用戶構建高精度模型。

DTEmpower軟件平臺提供的數據挖掘、特征工程和模型自動學習等一站式解決方案,不僅可以幫助用戶快速、便捷地構建精度較高的數據模型,其技術的創新應用勢必會給工業數據研究者持續帶來福音。


登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP