【技術】基于DTEmpower的水處理系統參數預測 - 內因篇
污水處理系統的參數預測對于提前識別水處理設備污水凈化能力的變化具有重要意義,而受水處理系統非線性、復雜性等因素的影響,其參數預測多采用基于數據驅動的時間序列長窗預測方法。若樣本集的輸入數據中僅由預測參數的歷史數據組成,將其稱為基于內因的參數預測方法;如果輸入數據除預測參數歷史數據外還有其他特征參數,則將其稱為基于內因+外因的參數預測方法。本文使用DTEmpower數據建模平臺進行水處理過程的參數預測,發現基于內因的方法可以實現部分參數較高準確率的預測,R2指標值在0.90左右,但這種基于內因的方法存在一定局限性。
污水處理過程不僅涉及一系列復雜的物理和化學過程,還需要多個機械化設備、電子設備和測量儀表等儀器相互配合,是一個復雜的工業系統。而污水處理系統的參數預測對于提前識別水處理系統的運行狀態、提前識別水處理設備污水凈化能力的變化及其故障診斷具有重要的現實意義。
水處理系統參數預測屬于時序數據預測的范疇,預測方法可以分為線性時序統計、非線性時序統計和外因統計回歸。線性時序統計方法主要用于擬合時間序列中的線性模型,無法擬合時間序列中的其他復雜模式(非線性/外部特征);非線性時序統計方法要用于擬合時間序列中的非線性關系。
污水處理過程是一個外界干擾強烈、時變性強、耦合性強、非線性的復雜動態生物化學過程,難以對其建立精確的數學模型。而數據驅動的模型建立在大量測量數據的基礎上,這對機理復雜、數據充分的污水處理系統是非常適合的,因此其過程參數預測多采用非線性時序統計方法中的非參數自回歸方法(Nonparametric Auto Regressive, NAR)。該方法通過某種非線性回歸模型,如SVR、KNN、GBDT等,使用對時刻的觀測值進行預測。此外由于水處理過程參數種類繁多,變化規律復雜,需要結合數據清洗、特征選擇、數據降維等算法預測模型,以此保證參數預測的精度。
基于企業對工業數據分析與建模需求,天洑軟件自主研發了一套零編碼、算法齊全、通用的智能化數據建模平臺DTEmpower 。
1. 數據集介紹
2. 基于內因的參數預測樣本集構造方法
以當前時刻為基準時刻t,取[t-2h,t](使用前2小時內的歷史數據)區間內的預測參數數據為樣本輸入,t+12h時間點的數據為樣本輸出以此構造單個完整樣本;然后采用滑動時間窗口方法構造算法所需的樣本集。樣本集的構造方法如圖1所示,該方法的輸入數據僅含有預測參數的歷史數據,為基于內因的樣本集構造方法。
圖1 樣本集構造方法
3. 基于DTEmpower的數據建模流程
使用基于內因的樣本集構造方法構建的數據集,基于DTEmpower平臺完成數據預處理、特征篩選、特征工程、模型訓練和評估的數據建模流程。本次水處理系統參數預測的建模流程如圖2所示。
④ 對數據集中的異常點進行清理。圖2中的AIOD是天洑軟件自研的智能數據清理算法的調度策略,具有強大的默認設置和自適應性,可以滿足絕大多數異常點識別場景。用戶可以根據AIOD生成的_risk_score_自主選擇需要刪除的異常點。
圖3 AIOD-一鍵式的智能數據清理
⑤ 將輸入數據中的冗余特征剔除。圖2中的MDI控件可以計算輸入特征的重要性數值,通過設定重要性閾值即可完成特征篩選的工作。
⑥ 將輸入數據進行降維。數據降維節點提供了線性降維算法PCA和非線性降維算法isomap等15種降維算法。
⑦ 劃分模型的測試集和訓練集。
⑧ 使用不同算法對訓練集進行訓練。本次實驗使用了 GBDT(Gradient Boosting Decision Tree)、Bagging、隨機森林(Random Forest, RF)和極端隨機樹(ExtraTrees)4種非線性回歸算法。
⑨ 使用測試集對模型進行評估和對比。圖2中的模型對比控件可以得到不同模型的預測指標,如R2、RMSE、MAPE等,并提供了模型下載和保存和數據可視化功能。
4. 實驗結果和分析
通過以上模型對累計流量、濁度、壓差等6個參數變量進行t+12h的長窗預測,實驗結果如表1所示。表中定性精度用來表示任意兩個預測值的大小關系與對應的實際值大小關系一致的概率。
A. 基于內因的參數預測方法可以對多介質過濾器累計流量、多介質入口母管濁度和超濾壓差進行較準確的預測,R2準確率均超過了0.90;
通過機器學習的方法可以有效的對水處理系統的部分參數進行長窗預測,DTEmpower軟件平臺提供了數據建模流程中特征提取、特征選擇和模型訓練一站式的解決方案,為客戶提供了使用簡單、功能強大的實驗平臺。
工程師必備
- 項目客服
- 培訓客服
- 平臺客服
TOP




















