【技術(shù)】DTEmpower核心功能技術(shù)揭秘(4)- MDI/MDA特征選擇技術(shù)
概述
“DTEmpower核心功能技術(shù)揭秘”系列文章分享了天洑軟件多年來(lái)工業(yè)數(shù)據(jù)實(shí)戰(zhàn)所遇到的難題挑戰(zhàn)和針對(duì)性的技術(shù)解決方案,如HierarchicalStratify分層分類技術(shù)、AIOD智能異常點(diǎn)檢測(cè)技術(shù)和HDDV高維數(shù)據(jù)可視化技術(shù)。

圖1 MDI(Mean Decrease in Inpurity)屬于嵌入類方法,適用于大規(guī)模數(shù)據(jù)集,MDA(Mean Decrease in Accuracy)屬于包裝類方法,計(jì)算成本稍高但可以找到性能優(yōu)秀的特征子集。重要性評(píng)分結(jié)果以水平柱狀圖的形式顯示每個(gè)的重要性,用戶可以自由設(shè)置重要性閾值進(jìn)行特征子集截取
基于DTEmpower的MDI/MDA特征選擇實(shí)戰(zhàn)
1. 電廠水處理系統(tǒng)參數(shù)預(yù)測(cè)(MDI)
① 數(shù)據(jù)集介紹:來(lái)源于某電廠污水處理系統(tǒng)的流量、壓差、濁度等時(shí)序數(shù)據(jù),含有50+特征變量,共21000個(gè)樣本,目標(biāo)是預(yù)測(cè)水處理設(shè)備未來(lái)一段時(shí)間內(nèi)的出口濁度。
② 建模和實(shí)驗(yàn)方法:采用圖2所示的建模流程,選取MDI節(jié)點(diǎn)作為特征選擇工具,并使用ExtraTrees極限隨機(jī)樹(shù)算法用以訓(xùn)練出口濁度預(yù)測(cè)模型。
③ 實(shí)驗(yàn)分析:考察不同的MDI重要性閾值截?cái)噙x擇對(duì)于建模的影響,設(shè)定不同的MDI重要性閾值,選取模型的R2和MAPE指標(biāo)觀測(cè)模型效果。每組MDI閾值參數(shù)做20次獨(dú)立重復(fù)計(jì)算,取指標(biāo)統(tǒng)計(jì)值得到分析圖3。實(shí)驗(yàn)結(jié)果表明,隨著無(wú)用特征的不斷剔除,模型精度在不斷提高。
圖3 設(shè)備出口濁度預(yù)測(cè)模型的精度指標(biāo)隨MDI閾值的變化趨勢(shì),當(dāng)不進(jìn)行特征選擇(MDI重要性閾值為0)時(shí),R2≈0.90,MAPE≈0.08;MDI重要性閾值設(shè)置為0.010時(shí),剔除明顯的無(wú)用特征,此時(shí)的模型精度顯著提高,R2提高到0.92,MAPE下降至接近0.07;進(jìn)一步增大MDI重要性閾值,模型精度也有了進(jìn)一步的提高。但是當(dāng)閾值設(shè)置過(guò)大時(shí)(本實(shí)驗(yàn)中設(shè)置為0.020),部分對(duì)預(yù)測(cè)結(jié)果有貢獻(xiàn)的特征也會(huì)被剔除,這會(huì)導(dǎo)致模型精度下降
2. 風(fēng)機(jī)測(cè)點(diǎn)結(jié)構(gòu)應(yīng)力快速評(píng)估(MDA)
① 數(shù)據(jù)集介紹:某頭部風(fēng)機(jī)制造商提供的結(jié)構(gòu)應(yīng)力評(píng)估數(shù)據(jù)集,含有15維輸入特征,含有2400個(gè)樣本,目標(biāo)是快速評(píng)估測(cè)點(diǎn)的結(jié)構(gòu)應(yīng)力。
② 建模方法:采用圖4所示的建模流程,采用Random Forest隨機(jī)森林、GBDT(Gradient Boosting Decision Tree)梯度提升樹(shù)、ExtraTrees極限隨機(jī)樹(shù)和Bagging共4種算法進(jìn)行對(duì)比實(shí)驗(yàn)。
圖4 DTEmpower提供了一站式的數(shù)據(jù)建模解決方案,通過(guò)簡(jiǎn)單的節(jié)點(diǎn)拖拽即可搭建完整的建模流程。MDA作為特征選擇工具,能夠剔除“無(wú)用特征”,為搭建高精度模型提供支持
圖5 使用MDA功能模塊計(jì)算出15個(gè)特征變量的重要性值并進(jìn)行排序后的實(shí)驗(yàn)結(jié)果。可以看到:V14、V3、V4等特征的重要性較低;V12、V2等特征的重要性較高;V11、V10等處于中間水平,對(duì)于目標(biāo)變量也有一定的“貢獻(xiàn)度”

圖6 隨著MDA閾值的不斷增加,4種模型的R2指標(biāo)出現(xiàn)了明顯的上升趨勢(shì)。但是當(dāng)閾值增大到一定程度時(shí)(實(shí)驗(yàn)中為0.0450),對(duì)目標(biāo)變量有“貢獻(xiàn)”的特征V11被刪除,此時(shí)模型的精度開(kāi)始下降
圖7 4種模型的NRMSE指標(biāo)隨MDA閾值的變化趨勢(shì),結(jié)合圖6可以看出:不斷刪除“無(wú)用特征”可以有效的幫助用戶提升模型精度,降低模型的預(yù)測(cè)誤差。但是當(dāng)MDA閾值設(shè)置的過(guò)大時(shí),“有用特征”也會(huì)被刪除,建議用戶此時(shí)應(yīng)停止特征篩選
總結(jié)
數(shù)據(jù)和特征決定了模型的上限,因此,在進(jìn)行具體的模型訓(xùn)練之前,進(jìn)行精細(xì)化的特征工程是搭建高精度模型的必要條件。常用的諸如相關(guān)性、灰度矩陣分析法等手段存在一定的交互限制和使用門檻。
DTEmpower集成了低門檻的MDI/MDA特征重要性選擇功能。通過(guò)實(shí)際工業(yè)場(chǎng)景中的應(yīng)用案例和對(duì)比實(shí)驗(yàn),證明了MDI/MDA功能模塊能輕松、有效地輔助用戶提前優(yōu)秀的特征子集,和建模流程的無(wú)縫連接,可高效地輔助用戶搭建高精度模型。
工程師必備
- 項(xiàng)目客服
- 培訓(xùn)客服
- 平臺(tái)客服
TOP




















