【技術】基于DTEmpower的水處理系統參數預測 - 內因+外因篇

天洑軟件

2022年1月10日 16:30

概述

在上一篇《基于DTEmpower的水處理系統參數預測 - 內因篇》中，我們實踐了基于監測參數自身時序歷史信息構建預測邏輯，對于部分監測參數實現了較高的預測準確率（R2≈0.9）。但是基于時序歷史信息的內因預測邏輯并非是萬能的，該方法邏輯對于剩余的監測參數預測準確率較低(R2<0.7)。

【技術】基于DTEmpower的水處理系統參數預測 - 內因+外因篇的圖1

圖1基于內因的水處理系統參數預測結果

對于這類時序預測難度較高的監測參數，我們需要擴展模型輸入特征的信息富集度，來嘗試提升時序預測準確率，如考慮引入其他的監測數據，即所謂的“內因+外因”聯合時序預測。

引入外因特征跳出了預測對象自身的限制，通過擬合特征參數與預測參數之間的關系，提高預測模型的準確度。但引入“外因”特征也將延伸出“選擇哪些外部特征？”，“過多的特征是否會導致維度爆炸？”，“特征變化之后選擇何種機器學習算法？”等一系列問題。

事實上，絕大多數數據驅動的建模流程鏈都是“數據處理+特征工程+算法選擇+超參優化”，每個節點都存在多種方案值得探索。面對復雜建模問題，往往初始的數據建模方案并不能達到較好的結果，這時便需要用戶嘗試盡可能多的方案，選擇效果盡可能好的模型。

這種海量的組合方案的嘗試和探索工作需要很高的程序自動化水平，也是讓普通用戶望而生畏和“勸退”的原因所在。DTEmpower是天洑軟件歷經多年打磨，推出的一款簡潔而嚴謹的通用數據建模軟件，具有極高的自動化和智能化水平，哪怕是零編程基礎、零算法基礎的用戶，也可以高效便捷地在短時間內零編碼地探索大量不同的數據建模方案，尋找匹配實際問題場景的優秀模型。

本文便是針對水處理系統中入口流量、壓差、濁度電導率等時序預測難度高的監測參數的預測問題，展示如何使用DTEmpower建模工具，高效便捷地尋找優秀數據模型的探索過程。

基于內因+外因的水處理系統參數預測實驗

1. 數據集介紹

以某電廠水處理系統為例，對系統中三類過濾器（多介質過濾器、超濾裝置和反滲透裝置）的32個參數如入口流量、壓差、濁度電導率進行t+12h（對12h之后的數據進行預測）的長窗預測。

本次實驗選取2020-01-18 00:00:00 到2020-12-24 00:00:00共48960個連續時間點的數據作為本次實驗的數據集，并以10min的采樣間隔讀取預測參數和特征參數數據。

【技術】基于DTEmpower的水處理系統參數預測 - 內因+外因篇的圖2

圖2 某電廠水處理系統

2. 基于內因+外因的樣本集構造方法

以當前時刻為基準時刻t，取[t-2h,t]（使用前2小時內的歷史數據）區間內的預測參數和外部特征參數數據為樣本輸入，t+12h時間點的數據為樣本輸出以此構造單個完整樣本；然后采用滑動時間窗口方法構造算法所需的樣本集。樣本集的構造方法如圖3所示，該方法的輸入數據含有預測參數的歷史數據和外部特征參數，為基于內因+外因的樣本集構造方法。

【技術】基于DTEmpower的水處理系統參數預測 - 內因+外因篇的圖3

圖3 基于內因+外因的樣本集構造方法

整個水處理系統共有16臺設備，180個監測參數，由于過多的特征不經過特征工程處理時會導致維度爆炸，本文選取了與預測參數同屬一臺設備的其他監測參數作為外部特征，比如當預測對象為反滲透一段入口流量時，選取反滲透一段壓差和反滲透一段濃水流量作為外部特征。

3. 基于DTEmpower的數據建模和調試

使用基于內因+外因的樣本集構造方法構建的數據集，基于DTEmpower平臺完成數據預處理、特征篩選、特征工程、模型訓練和評估的數據建模流程。在特征變化之后應該選用何種機器學習算法進行訓練呢？DTEmpower提供了多種回歸算法供用戶選擇，并且每種算法都提供了超參優化功能。

本文使用其中的 GBDT（Gradient Boosting Decision Tree）、Bagging、隨機森林（Random Forest, RF）和極端隨機樹（ExtraTrees）4種算法對反滲透一段入口流量進行預測，取4種算法中R2指標最高的模型。

【技術】基于DTEmpower的水處理系統參數預測 - 內因+外因篇的圖4

圖4 水處理系統參數預測建模流程

如圖4所示，利用DTEmpower集成的數據預處理、模型訓練和模型評估等模塊，搭建了參數預測的模板流程。

通過復用該模板流程，可以加載基于內因的、基于內因和不同外因的多種數據集；通過調節模板流程中算法節點的參數，如異常點清理（AIOD，AIoutliers drop節點）、重要性閾值（MDI節點）、降維控件（PCA節點）可以為預測模型構建不同的特征，以此為探索不同的數據和特征提供功能強大、使用方便的實驗平臺。

結合DTEmpower的模型復用，對反滲透一段入口流量的試驗過程和結果如圖5所示，通過對不同外因的探索以及模板流程中算法節點參數的調試，可以將預測模型的R2指標從0.68提高到0.94。

【技術】基于DTEmpower的水處理系統參數預測 - 內因+外因篇的圖5