概述
在前面《DTEmpower核心功能技術揭秘》系列的文章中,我們提到了機器學習的一個經典理論:數據和特征決定了機器學習模型的上限,而算法則是在不斷逼近這個上限。
如前文所述,基于這個經典理論,天洑軟件自研了一系列的數據挖掘和探索技術,如HierarchicalStratify分層分類技術、AIOD智能異常點檢測等技術,并集成于DTEmpower軟件平臺之中。這些技術都是針對機器學習模型上限的決定性因素-數據和特征提出的一系列提升方案。
我們在關注數據和特征的同時,需要注意到如何讓算法逼近這個上限也是一個需要解決的問題。除了集成市面上常見的訓練算法以供用戶選擇之外,天洑軟件還針對工業設計數據的“小數據集”“數據分布不均”等特點,自主研發了AIAgent功能模塊,并集成在DTEmpower軟件平臺中。
通過AIAgent模塊,用戶可以避免機械式的調參過程并節省大量的時間,這為在實際工業應用中落地數據驅動技術掃清了另一障礙,也是DTEmpower軟件的另一大功能特色。
AIAgent功能模塊簡介
如圖1所示,AIAgent功能模塊配置簡單,使用方便,用戶根據實際問題簡單搭配使用3個按鈕,即可得到“最優”模型。
圖1 AIAgent模塊在使用神經網絡(徑向基核函數網絡)的基礎上,根據大量的工程案例總結,引入“正則多項式”組合的形式構建魯棒性更強的、適用于工業問題的學習算法。同時AIAgent節點配置簡單,無需配置過多參數,只需要根據實際問題打開或關閉“超參優化”、“小數據集優化”和“交叉驗證”開關,用戶即可一鍵得到“最優”模型
基于AIAgent智能訓練算法的建模實驗
1. 風力機輪轂強度回歸分析
① 數據集背景介紹:輪轂是風力發電機組中的關鍵零部件,在運行過程中可能會承受多種極端載荷的疊加作用,造成輪轂結構的破壞。因此需要對輪轂在不同載荷下的應力情況進行分析,并采用數據訓練的手段建立載荷與輪轂應力之間的代理模型,進行快速評估。
模型所采用的數據集中含有3個輸入變量和5個輸出變量,共193個樣本:輸入變量為一組輪轂上三個扭矩,輸出變量為五個節點的應力。
② 建模和實驗方法:采用圖2所示的建模方法,對輸入和輸出之間的映射關系進行回歸分析建模。該方法采用了Random Forest隨機森林、GBDT(Gradient Boosting Decision Tree)梯度提升樹、多項式擬合和AIAgent訓練算法進行回歸分析建模。然后對比不同模型的R2和NRMSE指標。
圖2 針對風力機輪轂強度數據集,在DTEmpower軟件平臺上搭建回歸分析的建模方案。DTEmpower提供了一站式的數據建模解決方案,通過簡單的節點拖拽即可搭建完整的建模流程。其中AIAgent具有非常簡單的節點配置屬性,用戶僅通過“超參優化”、“小數據集優化”和“交叉驗證”三個開關的搭配使用即可得到“最優”模型
③ 實驗結果:圖3所示的實驗結果表明,在風力機輪轂強度數據集上,AIAgent算法在5個輸出變量上的性能指標均優于其他3種常見算法。
圖3-1 采用4種不同的算法對5個輸出變量進行回歸分析,比較其R2精度指標可以發現藍色柱子所示的基于AIAgent算法的模型在5個輸出變量上的R2指標均在0.99以上,甚至非常逼近于1。而相較于其他3種算法的R2值均在0.99以下,AIAgent算法具有非常明顯的優勢。
圖3-2 針對風力機輪轂強度數據集,采用4種不同的算法算法對5個輸出變量進行回歸分析,比較其NRMSE指標可以發現基于AIAgent算法的模型在5個變量上的NRMSE誤差指標均在0.01以下,而相比于其他3種算法,其NRMSE指標值均在0.02以上,甚至更高。結合圖3-1,可以說明AIAgent在風力機輪轂數據集上的優越性
2. 船舶興波阻力回歸分析
① 數據集介紹:本方案中采用的數據集是經SHIPFLOW軟件計算興波阻力的數據集,該數據集輸入參數是draft、Halfbeam、Height、Loa、BulbLengthChange,目標參數是興波阻力eval_CWTWC。
② 建模方法:采用圖4所示的建模方法,對輸入和輸出之間的映射關系進行回歸分析建模。該方法采用了CART、Bagging、Adaboost 和AIAgent訓練算法進行回歸分析建模。然后對比不同模型的R2、MSE、MAPE等指標和在測試集上對目標變量的擬合誤差。
圖4 基于DTEmpower軟件平臺的船舶興波阻力回歸分析建模方案。其中AIAgent節點為本次實驗中用到的回歸訓練算法,無需做過多的節點屬性配置,用戶即可搭建完整的建模流程。
③ 實驗結果:通過表1和圖5不難發現,在船舶興波阻力數據集上,AIAgent訓練算法的R2、NRMSE、MAPE等指標均優于其他3種訓練算法,而在測試集上的擬合誤差圖也進一步說明了AIAgent訓練算法相較于普通訓練算法具有優越的泛化性能。
表1 基于AIAgent和其他3個訓練算法的船舶興波阻力回歸模型的精度指標,通過表中數據可以看到,基于AIAgent訓練算法的模型精度均高于其他算法,這表明了在興波阻力數據集上AIAgent算法相較于其他3種算法的優越性
圖5 基于不同算法的回歸模型在測試集上真實值和預測值的預測誤差,藍色曲線代表AIAgent算法的擬合誤差,不難發現AIAgent算法的擬合誤差基本都在0值上下波動,且波動范圍小于其他3種算法的擬合誤差,這說明了AIAgent算法對于測試集數據具有強于其他3種算法的泛化能力
總結
數據和特征決定了模型的上限,在如何讓算法不斷逼近這個上限的問題上,天洑軟件針對“小數據集”自主研發了AIAgent功能模塊,并集成在DTEmpower軟件平臺中。
在實際工業場景中的應用案例和對比實驗,證明了AIAgent功能模塊能輕松、有效的提高模型精度。在不同應用場景(如風力機強度回歸分析和船舶興波阻力回歸分析)下的實驗結果,也說明AIAgent功能模塊的通用性和易用性。
DTEmpower不僅提供了一站式的數據建模解決方案,同時借助于AIAgent、異常點檢測以及高維可視化等技術的加持,可以幫助用戶快速、便捷的深入挖掘數據和特征,為建立高精度的數據模型提供了一條高效可落地的實現路徑。
----------------The end----------------