【技術】基于DTEmpower的水處理系統參數預測 - 內因+外因篇
在上一篇《基于DTEmpower的水處理系統參數預測 - 內因篇》中,我們實踐了基于監測參數自身時序歷史信息構建預測邏輯,對于部分監測參數實現了較高的預測準確率(R2≈0.9)。但是基于時序歷史信息的內因預測邏輯并非是萬能的,該方法邏輯對于剩余的監測參數預測準確率較低(R2<0.7)。
圖1基于內因的水處理系統參數預測結果
事實上,絕大多數數據驅動的建模流程鏈都是“數據處理+特征工程+算法選擇+超參優化”,每個節點都存在多種方案值得探索。面對復雜建模問題,往往初始的數據建模方案并不能達到較好的結果,這時便需要用戶嘗試盡可能多的方案,選擇效果盡可能好的模型。
這種海量的組合方案的嘗試和探索工作需要很高的程序自動化水平,也是讓普通用戶望而生畏和“勸退”的原因所在。DTEmpower是天洑軟件歷經多年打磨,推出的一款簡潔而嚴謹的通用數據建模軟件,具有極高的自動化和智能化水平,哪怕是零編程基礎、零算法基礎的用戶,也可以高效便捷地在短時間內零編碼地探索大量不同的數據建模方案,尋找匹配實際問題場景的優秀模型。
1. 數據集介紹
以某電廠水處理系統為例,對系統中三類過濾器(多介質過濾器、超濾裝置和反滲透裝置)的32個參數如入口流量、壓差、濁度電導率進行t+12h(對12h之后的數據進行預測)的長窗預測。
圖2 某電廠水處理系統
2. 基于內因+外因的樣本集構造方法
以當前時刻為基準時刻t,取[t-2h,t](使用前2小時內的歷史數據)區間內的預測參數和外部特征參數數據為樣本輸入,t+12h時間點的數據為樣本輸出以此構造單個完整樣本;然后采用滑動時間窗口方法構造算法所需的樣本集。樣本集的構造方法如圖3所示,該方法的輸入數據含有預測參數的歷史數據和外部特征參數,為基于內因+外因的樣本集構造方法。
圖3 基于內因+外因的樣本集構造方法
3. 基于DTEmpower的數據建模和調試
使用基于內因+外因的樣本集構造方法構建的數據集,基于DTEmpower平臺完成數據預處理、特征篩選、特征工程、模型訓練和評估的數據建模流程。在特征變化之后應該選用何種機器學習算法進行訓練呢?DTEmpower提供了多種回歸算法供用戶選擇,并且每種算法都提供了超參優化功能。
本文使用其中的 GBDT(Gradient Boosting Decision Tree)、Bagging、隨機森林(Random Forest, RF)和極端隨機樹(ExtraTrees)4種算法對反滲透一段入口流量進行預測,取4種算法中R2指標最高的模型。
通過復用該模板流程,可以加載基于內因的、基于內因和不同外因的多種數據集;通過調節模板流程中算法節點的參數,如異常點清理(AIOD,AIoutliers drop節點)、重要性閾值(MDI節點)、降維控件(PCA節點)可以為預測模型構建不同的特征,以此為探索不同的數據和特征提供功能強大、使用方便的實驗平臺。
結合DTEmpower的模型復用,對反滲透一段入口流量的試驗過程和結果如圖5所示,通過對不同外因的探索以及模板流程中算法節點參數的調試,可以將預測模型的R2指標從0.68提高到0.94。
圖5 基于DTEmpower實現“層層遞進式”的數據建模水平提升
圖中兩個外因分別指反滲透一段壓差和反滲透一段濃水流量。
① 針對水處理系統的參數預測模型,當基于內因的模型精度較低時,需要對數據和特征進行探索和嘗試,引入預測參數以外的特征是一個值得嘗試的方向。
② 通過合理地選擇外部特征并引入MDI/PCA等特征工程技術,既可以提升輸入信息富集度從而有助于提升模型預測精度,又可以緩解因輸入特征過多導致的維度爆炸、模型難以訓練的問題。
③以反滲透一段入口流量為例,通過引入不同的“內因+外因”特征,能將其預測模型的R2指標從0.68提高到0.94。
數據驅動的建模需要在數據處理、特征工程、算法選擇和超參優化等幾個節點進行大量的嘗試和優化。海量組合方案的嘗試和探索成為了絕大數工業應用邁向數據驅動、智能化的攔路虎!
DTEmpower致力于為工業數據研究者掃清各種陷阱、提供易用可信賴的技術支撐!平臺提供了強大的數據挖掘、特征工程和模型自動學習等一站式的解決方案,可以幫助用戶快速、便捷的構建精度較高的數據模型。為不同工業用戶快速驗證業務數據驅動方案,提供了一條高效可落地的實現路徑。
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















