
發(fā)布
注冊(cè)
/
登錄預(yù)測(cè)分類的案例
分類預(yù)測(cè) | MATLAB實(shí)現(xiàn)WOA-CNN-LSTM-Attention數(shù)據(jù)分類預(yù)測(cè)
預(yù)測(cè)效果
使用教程
1 基本介紹
1.MATLAB實(shí)現(xiàn)WOA-CNN-LSTM-Attention數(shù)據(jù)分類預(yù)測(cè),運(yùn)行環(huán)境Matlab2021b及以上;
2.基于鯨魚(yú)優(yōu)化算法(WOA)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)的數(shù)據(jù)分類預(yù)測(cè)程序;
3.多特征輸入單輸出的二分類及多分類模型。程序內(nèi)注釋詳細(xì),直接替換數(shù)據(jù)就可以用;過(guò)WOA優(yōu)化算法優(yōu)化學(xué)習(xí)率、卷積核大小、神經(jīng)元個(gè)數(shù),這3個(gè)關(guān)鍵參數(shù),以測(cè)試集精度最高為目標(biāo)函數(shù)
程序語(yǔ)言為matlab,程序可出分類效果圖,迭代優(yōu)化圖,混淆矩陣圖;
4.data為數(shù)據(jù)集,輸入12個(gè)特征,分四類;main為主程序,其余為函數(shù)文件,無(wú)需運(yùn)行,可在下載區(qū)獲取數(shù)據(jù)和程序內(nèi)容。
5.適用領(lǐng)域:適用于各種數(shù)據(jù)分類場(chǎng)景,如滾動(dòng)軸承故障、變壓器油氣故障、電力系統(tǒng)輸電線路故障區(qū)域、絕緣子、配網(wǎng)、電能質(zhì)量擾動(dòng),等領(lǐng)域的識(shí)別、診斷和分類。
使用便捷:直接使用EXCEL表格導(dǎo)入數(shù)據(jù),無(wú)需大幅修改程序。內(nèi)部有詳細(xì)注釋,易于理解。
2 研究?jī)?nèi)容
注意力機(jī)制模塊:
SEBlock(Squeeze-and-Excitation Block)是一種聚焦于通道維度而提出一種新的結(jié)構(gòu)單元,為模型添加了通道注意力機(jī)制,該機(jī)制通過(guò)添加各個(gè)特征通道的重要程度的權(quán)重,針對(duì)不同的任務(wù)增強(qiáng)或者抑制對(duì)應(yīng)的通道,以此來(lái)提取有用的特征。該模塊的內(nèi)部操作流程如圖,總體分為三步:首先是Squeeze 壓縮操作,對(duì)空間維度的特征進(jìn)行壓縮,保持特征通道數(shù)量不變。融合全局信息即全局池化,并將每個(gè)二維特征通道轉(zhuǎn)換為實(shí)數(shù)。實(shí)數(shù)計(jì)算公式如公式所示。該實(shí)數(shù)由k個(gè)通道得到的特征之和除以空間維度的值而得,空間維數(shù)為H*W。其次是Excitation激勵(lì)操作,它由兩層全連接層和Sigmoid函數(shù)組成。
展開(kāi) 2-11 基于matlab的BP-Adaboost的強(qiáng)分類器分類預(yù)測(cè) ¥12.2
基于matlab的BP-Adaboost的強(qiáng)分類器分類預(yù)測(cè),Adaboost是一種迭代分類算法,其在同一訓(xùn)練集采用不同方法訓(xùn)練不同分類器(弱分類器),并根據(jù)弱分類器的誤差分配不同權(quán)重,然后將這些弱分類器組合成一個(gè)更強(qiáng)的最終分類器(強(qiáng)分類器),并一直迭代,直到分類的錯(cuò)誤率達(dá)到之前設(shè)定的閾值或者迭代次數(shù)達(dá)到設(shè)定最大迭代次數(shù)。程序已調(diào)通,可直接運(yùn)行。
基于降噪自編碼器-多層感知機(jī)(DAE-MLP)的手寫(xiě)數(shù)字分類預(yù)測(cè)MATLAB實(shí)戰(zhàn)
今天給大家分享基于DAF-MLP的手寫(xiě)數(shù)字分類預(yù)測(cè)MATLAB實(shí)戰(zhàn) ,主要從算法原理和代碼實(shí)戰(zhàn)展開(kāi)。
一、算法原理
1.1 降噪自編碼器(Denoising Auto-Encoders, DAE)
在介紹降噪自編碼器的原理之前,需要介紹一下自編碼器的原理,這樣才能方便我們理解降噪自編碼器的原理。如圖1所示為自編碼器的網(wǎng)絡(luò)結(jié)構(gòu),它包含有編碼階段和解碼階段。主要應(yīng)用于數(shù)據(jù)去噪和數(shù)據(jù)降維。
圖1 自編碼器的網(wǎng)絡(luò)結(jié)構(gòu)
它的編碼和解碼過(guò)程可表達(dá)為
其中,W1、b1為編碼的權(quán)重和偏置,W2、b2為編碼的權(quán)重和偏置,
自編碼器的目的是使輸出與輸入盡量相同,所以采用的損失函數(shù)可表達(dá)為:
當(dāng)損失函數(shù)J的值越小,那么經(jīng)自編碼器重構(gòu)的數(shù)據(jù)與原始數(shù)據(jù)就盡可能的相同。但在實(shí)際中,我們更關(guān)注的是自編碼器的隱層表達(dá),而不是實(shí)際輸出。自編碼器真正關(guān)心的是隱藏層的特征表達(dá),一個(gè)好的表達(dá)能夠捕獲輸入信號(hào)的穩(wěn)定結(jié)構(gòu),以該目的為出發(fā)出現(xiàn)了降噪自動(dòng)編碼器。
降噪自動(dòng)編碼器的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。降噪自動(dòng)編碼器,首先對(duì)干凈的輸入信號(hào)加入噪聲產(chǎn)生一個(gè)受損的信號(hào)。然后將受損信號(hào)送入傳統(tǒng)的自動(dòng)編碼器中,使其重建回原來(lái)的無(wú)損信號(hào)。降噪自編碼器的優(yōu)點(diǎn)是:它通過(guò)人為的增加噪聲使模型獲得魯棒性的特征表達(dá)。
圖2 降噪自編碼器的網(wǎng)絡(luò)結(jié)構(gòu)
1.2 多層感知機(jī)(Multilayer Perceptron,MLP)
多層感知機(jī)是由單層感知機(jī)推廣而來(lái),最主要的特點(diǎn)是有多個(gè)神經(jīng)元層。一般將MLP的第一層稱為輸入層,中間的層為隱藏層,最后一層為輸出層。如下圖3所示。MLP并沒(méi)有規(guī)定隱藏層的數(shù)量,因此可以根據(jù)實(shí)際處理需求選擇合適的隱藏層層數(shù),且對(duì)于隱藏層和輸出層中每層神經(jīng)元的個(gè)數(shù)也沒(méi)有限制。
展開(kāi) 機(jī)器學(xué)習(xí)與深度學(xué)習(xí)簡(jiǎn)述和工程案例展示
左圖為機(jī)器學(xué)習(xí)中監(jiān)督學(xué)習(xí)的一般方法,右圖為深度學(xué)習(xí)的一般方法
實(shí)際工程案例:
例1 基于卷積神經(jīng)網(wǎng)絡(luò)的心電信號(hào)(ECG)心律失常情況的識(shí)別
卷積神經(jīng)網(wǎng)絡(luò)在一維數(shù)據(jù)中的應(yīng)用,輸入的信號(hào)經(jīng)過(guò)小波變換等降噪處理后放入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行心律失常的分類識(shí)別,準(zhǔn)確率能達(dá)到99.2%。
例2 基于圖卷積網(wǎng)絡(luò)(GCN)的阿茲海默癥疾病預(yù)測(cè)
通過(guò)對(duì)3維的CT圖進(jìn)行數(shù)據(jù)特征提取,并以實(shí)驗(yàn)對(duì)象為節(jié)點(diǎn),結(jié)合非成像數(shù)據(jù)(如性別、年齡等)建立圖網(wǎng)絡(luò),同過(guò)圖神經(jīng)網(wǎng)絡(luò)的方法對(duì)實(shí)驗(yàn)對(duì)象進(jìn)行阿茲海默癥的疾病預(yù)測(cè)分類,檢測(cè)結(jié)果準(zhǔn)確率達(dá)到80.0%。
例3 基于圖神經(jīng)網(wǎng)絡(luò)的水處理廠的傳感器異常檢測(cè)
利用人工智能的方法檢測(cè)傳感器信號(hào)在某段時(shí)間內(nèi)是否存在異常,并通過(guò)建立圖網(wǎng)絡(luò)捕獲水處理廠不同傳感器間的關(guān)系,來(lái)解釋檢測(cè)到異常的根因,能減少人工檢測(cè)的時(shí)間和成本。模型預(yù)測(cè)結(jié)果準(zhǔn)確率達(dá)到99.35%。
展開(kāi) 
理論加案例,一文讀懂?dāng)?shù)據(jù)分析中的分類建模
因?yàn)?em>分類模型好壞的判斷,必須要結(jié)合業(yè)務(wù)背景。
舉個(gè)例子,在地震預(yù)測(cè)時(shí),我們希望盡可能預(yù)測(cè)到所有的地震,哪怕這些預(yù)測(cè)到的地震中只有少數(shù)真正發(fā)生了,這個(gè)時(shí)候我們就可以犧牲精確率。寧愿發(fā)出100 次警報(bào)但只對(duì) 10 次,也不希望預(yù)測(cè)了 10 次,但只有 8 次正確而漏掉2次,因?yàn)橹灰?1 次地震沒(méi)預(yù)測(cè)到都會(huì)造成巨大的損失。這是一個(gè) “寧可抓錯(cuò),不可放過(guò)” 的場(chǎng)景。
但另一個(gè)場(chǎng)景,垃圾郵件分類,我們雖然希望模型能夠找到所有的垃圾郵件,但一旦有一封正常郵件被分到了垃圾信箱里,你肯定很生氣。所以這時(shí)候?qū)幙陕┑衾]件,也不能把正常郵件分錯(cuò)。這就是一個(gè)“寧可放過(guò),不可抓錯(cuò)” 的場(chǎng)景。
能體會(huì)出來(lái)吧?在不同的場(chǎng)合,我們?cè)诮r(shí)需要根據(jù)實(shí)際情況,通過(guò)查看不同的參數(shù)指標(biāo)來(lái)判斷分類模型質(zhì)量。
四、分類建模案例
理論部分講解差不多了,下面做一個(gè)實(shí)際的數(shù)據(jù)建模分類案例。
工程背景是某種新材料的研制,這種材料由很多種配方組成,不同的組成對(duì)應(yīng)不同的材料性能。
工廠經(jīng)過(guò)多年的積累,已經(jīng)有了大量數(shù)據(jù)。其中前83列是原材料,后面幾列是配方對(duì)應(yīng)的材料性能。而我們關(guān)心的是最后一列,耐彎折性。1表示耐彎折性達(dá)標(biāo),0表示不達(dá)標(biāo)。
我們數(shù)據(jù)建模想做的事,是得到一個(gè)分類模型。基于這個(gè)模型,你輸入一種新的配方,讓模型判斷配方組成的新材料的耐彎折性是否達(dá)標(biāo),省去做實(shí)驗(yàn)測(cè)試的過(guò)程。
開(kāi)始操作。啟動(dòng)DTEmpower,新建工程選擇專業(yè)模式,之后在畫(huà)布上依次拖入數(shù)據(jù)讀取、變量剔除、空值處理、變量設(shè)定、數(shù)據(jù)分割節(jié)點(diǎn),然后依次連線,表示數(shù)據(jù)傳遞。
數(shù)據(jù)讀取、變量剔除就不解釋了,字面意思很簡(jiǎn)單。
空值處理的作用是刪除存在空值的數(shù)據(jù)行,而數(shù)據(jù)分割是將數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,默認(rèn)按照3:1的比例分割。
展開(kāi) 01 K-近鄰算法介紹與實(shí)現(xiàn)
實(shí)例:鳶尾花種類預(yù)測(cè)
1. 算法簡(jiǎn)介
核心理念:根據(jù)你的鄰居來(lái)推斷出你的類別。
定義: 如果一個(gè)樣本在特征空間中的k個(gè)最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別。
簡(jiǎn)單講就是定義一組變量描述一個(gè)類,定義一種距離計(jì)算公式描述各個(gè)實(shí)例之間的差異大小,如果被推測(cè)的實(shí)例與某些已知目標(biāo)值的實(shí)例最近(距離公式最短等),那么則仍為被推測(cè)實(shí)例的目標(biāo)值也是該值。
K 近鄰算法使用的模型實(shí)際上對(duì)應(yīng)于對(duì)特征空間的劃分。距離度量、K 值的選擇和分類決策規(guī)則是該算法的三個(gè)基本要素。
適用范圍: 字符識(shí)別、文本分類、圖像識(shí)別等領(lǐng)域。
實(shí)現(xiàn)流程:
計(jì)算已知類別數(shù)據(jù)集中點(diǎn)與當(dāng)前點(diǎn)之間的距離。
按距離遞增次序排序。
選取與當(dāng)前點(diǎn)距離最小的k個(gè)點(diǎn)。
統(tǒng)計(jì)前k個(gè)點(diǎn)所在的類別出現(xiàn)的頻率。
返回前k個(gè)點(diǎn)出現(xiàn)頻率最高的類別作為當(dāng)前點(diǎn)的預(yù)測(cè)分類。
1.1 距離公式
距離公式在k近鄰算法中扮演著至關(guān)重要的角色,直接影響最終預(yù)測(cè)結(jié)果。常見(jiàn)的距離公式有:
歐式距離
曼哈頓距離
契比雪夫距離
閔可夫斯基距離
上述四種距離計(jì)算公式,都將各分量的量綱忽略了,也沒(méi)有考慮各分量的分布。
標(biāo)準(zhǔn)化歐式距離
余弦距離
向量夾角的余弦值,越接近與+1表明夾角越小,越接近于-1表明夾角越大。
漢明距離
兩個(gè)等長(zhǎng)字符串s1與s2的漢明距離為:將其中一個(gè)變?yōu)榱硗庖粋€(gè)所需要做的最小字符替換次數(shù)。
字符串或變量在計(jì)算集中表示為二進(jìn)制后,非零位個(gè)數(shù)的差值。
展開(kāi) 基于灰狼算法優(yōu)化支持向量機(jī)的matlab算法
k1 = length(test_y);
n1 = length(find(predict_label == test_y));
disp('打印測(cè)試集分類準(zhǔn)確率');
Accuracy_1 = n1 / k1 * 100;
k2 = length(train_y);
n2 = length(find(predict_label2 == train_y));
disp('打印測(cè)試集分類準(zhǔn)確率');
Accuracy_2 = n2 / k2 * 100;
%% 結(jié)果分析
% 測(cè)試集的實(shí)際分類和預(yù)測(cè)分類圖
figure;
hold on;
plot(test_y,'b-o');
plot(predict_label,'r-*');
legend('真實(shí)類別','預(yù)測(cè)類別')
xlabel('測(cè)試集')
ylabel('測(cè)試集類別')
string = {'SVM-GWO訓(xùn)練集';['正確率Accuracy = ' num2str(Accuracy_2) '%' ]};
title(string)
%% 顯示程序運(yùn)行時(shí)間toc%fpr 精確率 tpr召回率[Metrics_test,FPR,TPR]=polygonareametric(test_y,predict_label,0);
predict_label2=categorical(predict_label2);train_y=categorical(train_y);predict_label=categorical(predict_label);test_y=categorical(test_y);
figureplotconfusion(predict_label2,train_y)
figureplotconfusion
展開(kāi) 激活學(xué)習(xí):一種挑戰(zhàn)反向傳播的生物啟發(fā)算法
首先是分類任務(wù)
,這時(shí)候激活學(xué)習(xí)網(wǎng)絡(luò)的輸入既包含圖片又包含標(biāo)簽,預(yù)測(cè)分類的過(guò)程就是給定圖片來(lái)推理標(biāo)簽使得整個(gè)網(wǎng)絡(luò)的激活強(qiáng)度是最大的。受到認(rèn)知科學(xué)實(shí)驗(yàn)的啟發(fā)(J. L. McClelland, How Far Can You Go with Hebbian Learning, and When Does it Lead you Astray?), 正確信息的反饋在人類學(xué)習(xí)中起到很重要的作用。例如,人在學(xué)習(xí)某個(gè)東西的時(shí)候,如果識(shí)別錯(cuò)誤,這時(shí)候如果能夠糾正并告訴它正確的結(jié)果,可以明顯提升它的學(xué)習(xí)效果。所以在激活學(xué)習(xí)中,我們引入了反饋并生成正樣本和負(fù)樣本, 正樣本是圖片和正確標(biāo)簽,負(fù)樣本是圖片和最差的錯(cuò)誤標(biāo)簽,給正樣本一個(gè)正的學(xué)習(xí)率,負(fù)樣本一個(gè)負(fù)的學(xué)習(xí)率,可以明顯提高學(xué)習(xí)的分類準(zhǔn)確率。在MNIST上基于2層的全連接網(wǎng)絡(luò)可以達(dá)到約1.36%的錯(cuò)誤率,在CIFAR-10上3層的全連接網(wǎng)絡(luò)可以達(dá)到約37%的錯(cuò)誤率,基本上達(dá)到了跟反向傳播差不多的性能。在CIFAR-10的實(shí)驗(yàn)中,我們發(fā)現(xiàn)全連接網(wǎng)絡(luò)的學(xué)習(xí)收斂性和效果均不如本地連接網(wǎng)絡(luò),而且本地連接網(wǎng)絡(luò)更接近于真實(shí)大腦中的神經(jīng)元連接結(jié)構(gòu),當(dāng)然對(duì)于更大的數(shù)據(jù)集和復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),激活學(xué)習(xí)目前還不能跟反向傳播相比擬。
2. 在分類任務(wù)上,如果我們降低訓(xùn)練樣本的數(shù)量,激活學(xué)習(xí)會(huì)得到明顯優(yōu)于反向傳播的結(jié)果。例如給定600個(gè)MNIST訓(xùn)練樣本,激活學(xué)習(xí)可以得到 9.74%的錯(cuò)誤率,而反向傳播(使用同樣網(wǎng)絡(luò)結(jié)構(gòu)加一層線性分類器)只能得到約16.17%的錯(cuò)誤率;此外,繼續(xù)降低訓(xùn)練樣本數(shù)量,在few-shot learning上激活學(xué)習(xí)也可以獲得很好的效果。
展開(kāi) 極限學(xué)習(xí)機(jī)matlab實(shí)戰(zhàn)
二、極限學(xué)習(xí)機(jī)代碼實(shí)戰(zhàn)
本次實(shí)戰(zhàn)分為預(yù)測(cè)與分類,具體為:辛烷值的預(yù)測(cè)和鳶尾花的分類。
17個(gè)機(jī)器學(xué)習(xí)的常用算法
將算法按照學(xué)習(xí)方式分類是一個(gè)不錯(cuò)的想法,這樣可以讓人們?cè)诮:退惴ㄟx擇的時(shí)候考慮能根據(jù)輸入數(shù)據(jù)來(lái)選擇最合適的算法來(lái)獲得最好的結(jié)果。
1. 監(jiān)督式學(xué)習(xí):監(jiān)督式學(xué)習(xí)(英語(yǔ):Supervised learning),是一個(gè)機(jī)器學(xué)習(xí)中的方法,可以由訓(xùn)練資料中學(xué)到或建立一個(gè)模式(函數(shù) / learning model),并依此模式推測(cè)新的實(shí)例。訓(xùn)練資料是由輸入物件(通常是向量)和預(yù)期輸出所組成。函數(shù)的輸出可以是一個(gè)連續(xù)的值(稱為回歸分析),或是預(yù)測(cè)一個(gè)分類標(biāo)簽(稱作分類)。一個(gè)監(jiān)督式學(xué)習(xí)者的任務(wù)在觀察完一些訓(xùn)練范例(輸入和預(yù)期輸出)后,去預(yù)測(cè)這個(gè)函數(shù)對(duì)任何可能出現(xiàn)的輸入的值的輸出。要達(dá)到此目的,學(xué)習(xí)者必須以"合理"的方式從現(xiàn)有的資料中一般化到非觀察到的情況。在人類和動(dòng)物感知中,則通常被稱為概念學(xué)習(xí)(concept learning)。
2. 非監(jiān)督式學(xué)習(xí):在非監(jiān)督式學(xué)習(xí)中,數(shù)據(jù)并不被特別標(biāo)識(shí),學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)。常見(jiàn)的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)以及聚類等。常見(jiàn)算法包括Apriori算法以及k-Means算法。
3. 半監(jiān)督式學(xué)習(xí):在此學(xué)習(xí)方式下,輸入數(shù)據(jù)部分被標(biāo)識(shí),部分沒(méi)有被標(biāo)識(shí),這種學(xué)習(xí)模型可以用來(lái)進(jìn)行預(yù)測(cè),但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu)以便合理的組織數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)。應(yīng)用場(chǎng)景包括分類和回歸,算法包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸,這些算法首先試圖對(duì)未標(biāo)識(shí)數(shù)據(jù)進(jìn)行建模,在此基礎(chǔ)上再對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè)。如圖論推理算法(Graph Inference)或者拉普拉斯支持向量機(jī)(Laplacian SVM.)等。
4. 強(qiáng)化學(xué)習(xí):在這種學(xué)習(xí)模式下,輸入數(shù)據(jù)作為對(duì)模型的反饋,不像監(jiān)督模型那樣,輸入數(shù)據(jù)僅僅是作為一個(gè)檢查模型對(duì)錯(cuò)的方式,在強(qiáng)化學(xué)習(xí)下,輸入數(shù)據(jù)直接反饋到模型,模型必須對(duì)此立刻作出調(diào)整。常見(jiàn)的應(yīng)用場(chǎng)景包括動(dòng)態(tài)系統(tǒng)以及機(jī)器人控制等。
展開(kāi) 數(shù)據(jù)挖掘(朱明 )(一本好書(shū))
搞數(shù)據(jù)挖掘的人都知道,我就不介紹了
Microsoft Word - 第一章 數(shù)據(jù)挖掘基本知識(shí).pdf
Microsoft Word - 第二章 數(shù)據(jù)預(yù)處理.pdf
Microsoft Word - 第三章 定性歸納.pdf
Microsoft Word - 第四章 分類與預(yù)測(cè).pdf
Microsoft Word - 第五章 關(guān)聯(lián)挖掘.pdf
Microsoft Word - 第六章 聚類分析.pdf
Microsoft Word - 第七章 復(fù)雜數(shù)據(jù)的挖掘.pdf

銀行業(yè)9大數(shù)據(jù)科學(xué)應(yīng)用案例
5 終身價(jià)值預(yù)測(cè)
客戶生命周期價(jià)值(CLV)預(yù)測(cè)了企業(yè)從與客戶的整個(gè)關(guān)系中獲得的所有價(jià)值。這項(xiàng)措施的重要性正在快速增長(zhǎng),因?yàn)樗兄趧?chuàng)建和維持與特定客戶的有利關(guān)系,從而創(chuàng)造更高的盈利能力和業(yè)務(wù)增長(zhǎng)。
獲得和維系有利可圖的客戶對(duì)銀行來(lái)說(shuō)是一個(gè)不斷增長(zhǎng)的挑戰(zhàn)。隨著競(jìng)爭(zhēng)越來(lái)越激烈,銀行現(xiàn)在需要360度全方位了解每位客戶,以便有效地集中資源。 這就是數(shù)據(jù)科學(xué)進(jìn)入的地方。首先,必須考慮大量數(shù)據(jù):如客戶獲得和流失的概念,各種銀行產(chǎn)品和服務(wù)的使用,數(shù)量和盈利能力以及其他客戶的特點(diǎn) 如地理,人口和市場(chǎng)數(shù)據(jù)。
這些 數(shù)據(jù)通常需要大量清洗和操作才能變得可用和有意義 。 銀行客戶的概況,產(chǎn)品或服務(wù)差異很大,他們的行為和期望也不盡相同。 數(shù)據(jù)科學(xué)家的工具中有許多工具和方法來(lái)開(kāi)發(fā)CLV模型,如廣義線性模型(GLM),逐步回歸,分類和回歸樹(shù)(CART)。 建立一個(gè)預(yù)測(cè)模型,以確定基于CLV的未來(lái)營(yíng)銷策略,這對(duì)于在每個(gè)客戶的一生中與該公司保持良好的客戶關(guān)系,實(shí)現(xiàn)更高的盈利能力和增長(zhǎng)是具有非常有價(jià)值的過(guò)程。
6 實(shí)時(shí)和預(yù)測(cè)分析
**分析在銀行業(yè)中的重要性不可低估。**機(jī)器學(xué)習(xí)算法和數(shù)據(jù)科學(xué)技術(shù)可以顯著改善銀行的分析策略,因?yàn)殂y行業(yè)務(wù)的每個(gè)使用案例都與分析密切相關(guān)。隨著信息的可用性和多樣性迅速增加,分析變得更加復(fù)雜和準(zhǔn)確。
可用信息的潛在價(jià)值非常驚人:指示實(shí)際信號(hào)的有意義的數(shù)據(jù)量(不僅僅是噪聲)在過(guò)去幾年呈指數(shù)級(jí)增長(zhǎng),而數(shù)據(jù)處理器的成本和規(guī)模一直在下降。區(qū)分真正相關(guān)的數(shù)據(jù)和噪音有助于有效解決問(wèn)題和制定更明智的戰(zhàn)略決策。**實(shí)時(shí)分析有助于了解阻礙業(yè)務(wù)的問(wèn)題,而預(yù)測(cè)分析有助于選擇正確的技術(shù)來(lái)解決問(wèn)題。**通過(guò)將分析整合到銀行工作流程中,可以實(shí)現(xiàn)更好的結(jié)果,以提前避免潛在的問(wèn)題。
展開(kāi) 使用 Mask R-CNN、GrabCut 和 OpenCV 進(jìn)行圖像分割 ¥5
· 分類和定位:從 CNN 獲得的特征向量被饋送到單獨(dú)的全連接層中。分類層預(yù)測(cè)區(qū)域中存在不同對(duì)象類別的概率,而回歸層細(xì)化邊界框的坐標(biāo),從而提高定位精度。
· 非極大值抑制 (NMS):為了消除冗余檢測(cè),將應(yīng)用非極大值抑制。它刪除了重疊的邊界框,只為每個(gè)對(duì)象實(shí)例保留最可信的檢測(cè)。
2 掩碼 R-CNN
掩碼 R-CNN(基于掩碼區(qū)域的卷積神經(jīng)網(wǎng)絡(luò))是更快的 R-CNN 對(duì)象識(shí)別框架升級(jí),增加了執(zhí)行實(shí)例分割的功能。該研究由 Kaiming He、Georgia Gkioxari、Piotr Dollár 和 Ross Girshick 在 2017 年出版的著作《Mask R-CNN》中提出。
實(shí)例分割的任務(wù)不僅包括檢測(cè)圖像中的對(duì)象,還包括在像素級(jí)別分割每個(gè)對(duì)象實(shí)例,從而為每個(gè)檢測(cè)到的對(duì)象提供二進(jìn)制掩碼。掩碼 R-CNN 在 Faster R-CNN 的兩階段架構(gòu)上開(kāi)發(fā),第三個(gè)分支用于像素級(jí)分割掩碼。
以下是 Mask R-CNN 的基本功能和組件:
1. 區(qū)域提議網(wǎng)絡(luò) (RPN):掩碼 R-CNN 使用 RPN 生成區(qū)域提議,就像 Faster R-CNN 一樣。RPN 生成可能包含感興趣對(duì)象的候選邊界框。
2. 感興趣區(qū)域 (RoI):掩碼 R-CNN 引入了 RoI 對(duì)齊,這是一種更準(zhǔn)確的技術(shù),用于對(duì)齊區(qū)域建議內(nèi)的像素級(jí)特征,而不是更快的 R-CNN 中使用的 RoI 池化。RoI Align 確保從原始圖像特征圖中準(zhǔn)確提取像素級(jí)特征,無(wú)需量化。
3. 實(shí)例分割:更快的 R-CNN 使用兩個(gè)分支:分類和邊界框回歸。掩碼 R-CNN 添加了第三個(gè)分支,用于預(yù)測(cè)每個(gè)區(qū)域提案的分割掩碼。此分支使用 RoI 對(duì)齊特征作為其輸入,為每個(gè)識(shí)別的對(duì)象生成一個(gè)二進(jìn)制掩碼。
展開(kāi) 行業(yè)分享丨TCL華星光電:AI 如何助力LCD顯示模組精準(zhǔn)老化預(yù)測(cè)?
我們的任務(wù)是利用AI建模完成一個(gè)二分類的預(yù)測(cè)任務(wù),實(shí)現(xiàn)60%的SKIP率。
以往在完成對(duì)應(yīng)制程后,需要100%對(duì)模組進(jìn)行Aging測(cè)試,而現(xiàn)在通過(guò)AI預(yù)測(cè)Aging結(jié)果,對(duì)于合格樣本可直接跳過(guò)該環(huán)節(jié),對(duì)于有問(wèn)題的樣本則進(jìn)行正常Aging測(cè)試。
我們的模型應(yīng)用有三大指標(biāo):第一,SKIP率大于60%,要釋放60%的Aging測(cè)試產(chǎn)能;第二,模型精確率需達(dá)到99.95%以上;第三,降低客訴漏放風(fēng)險(xiǎn),使得漏放率低于萬(wàn)分之三。
項(xiàng)目方案的整體實(shí)施過(guò)程主要包括兩部分,第一部分是AI模型的構(gòu)建,第二部分是在系統(tǒng)平臺(tái)進(jìn)行串接。
在模型構(gòu)建部分,我們首先分析了Aging線不良的相關(guān)異常原因,識(shí)別關(guān)鍵參數(shù),下載了約10萬(wàn)片數(shù)據(jù)樣本并進(jìn)行數(shù)據(jù)加工,然后使用AI軟件進(jìn)行模型開(kāi)發(fā)和部署。
模型部署的整體路徑如下:通過(guò)良率管理系統(tǒng)(YMS)的數(shù)據(jù)獲取生產(chǎn)數(shù)據(jù)源,將開(kāi)發(fā)好的模型部署在大數(shù)據(jù)分析平臺(tái),實(shí)現(xiàn)實(shí)時(shí)預(yù)測(cè),預(yù)測(cè)結(jié)果會(huì)推送到制造執(zhí)行系統(tǒng)(MES),模組端的Aging機(jī)臺(tái)讀取預(yù)測(cè)結(jié)果指令后執(zhí)行Aging動(dòng)作,從而實(shí)現(xiàn)精準(zhǔn)Aging功能。
在詳細(xì)介紹案例的實(shí)施過(guò)程之前,需要先介紹一下我們使用的RapidMiner軟件。
對(duì)于我這樣非專業(yè)人員來(lái)說(shuō),它非常友好,無(wú)需懂編程語(yǔ)言,也不需要具備深厚的AI算法領(lǐng)域知識(shí)。
我2019年畢業(yè)于南京大學(xué)化學(xué)工程專業(yè),理論上與AI并無(wú)關(guān)聯(lián),但機(jī)緣巧合從事了仿真相關(guān)工作,接觸到了AI這類新型仿真技術(shù),這款A(yù)I大數(shù)據(jù)分析軟件真正幫助我們實(shí)現(xiàn)了數(shù)據(jù)價(jià)值的挖掘。
下面,正式介紹建模方案。
展開(kāi) 遞歸神經(jīng)網(wǎng)絡(luò)解釋
在 RNN 中,每個(gè)時(shí)間步的輸入通常是表示序列當(dāng)前狀態(tài)的向量,每個(gè)時(shí)間步的輸出是表示該時(shí)間步的預(yù)測(cè)值或分類的向量。隱藏狀態(tài)也是一個(gè)向量,在每個(gè)時(shí)間步中,根據(jù)當(dāng)前輸入和之前的隱藏狀態(tài)進(jìn)行更新。
基本的 RNN 架構(gòu)存在梯度消失問(wèn)題,這使得在長(zhǎng)序列上訓(xùn)練變得困難。為了解決這個(gè)問(wèn)題,已經(jīng)開(kāi)發(fā)了幾種 RNN 變體,例如長(zhǎng)短期記憶 (LSTM) 和門控循環(huán)單元(GRU)網(wǎng)絡(luò),它們使用專門的門來(lái)控制通過(guò)網(wǎng)絡(luò)的信息流并解決梯度消失問(wèn)題。
RNN 的應(yīng)用包括語(yǔ)音識(shí)別、語(yǔ)言建模、機(jī)器翻譯、情感分析和股票預(yù)測(cè)等。總體而言,RNN 是處理順序數(shù)據(jù)和建模時(shí)間依賴關(guān)系的強(qiáng)大工具,使其成為許多機(jī)器學(xué)習(xí)應(yīng)用程序的重要組成部分。
遞歸神經(jīng)網(wǎng)絡(luò) (RNN) 的優(yōu)點(diǎn)是:
處理順序數(shù)據(jù)的能力:RNN 可以處理不同長(zhǎng)度的連續(xù)數(shù)據(jù),使其在自然語(yǔ)言處理、語(yǔ)音識(shí)別和時(shí)間序列分析等應(yīng)用中非常有用。
內(nèi)存:RNN 能夠通過(guò)使用隱藏狀態(tài)來(lái)保留有關(guān)序列中先前輸入的信息。這使 RNN 能夠執(zhí)行預(yù)測(cè)句子中的下一個(gè)單詞或預(yù)測(cè)股票價(jià)格等任務(wù)。
多功能性:RNN 可用于各種任務(wù),包括分類、回歸和序列到序列映射。
靈活性:RNN 可以與其他神經(jīng)網(wǎng)絡(luò)架構(gòu)(如卷積神經(jīng)網(wǎng)絡(luò) (CNN) 或前饋神經(jīng)網(wǎng)絡(luò))結(jié)合使用,為特定任務(wù)創(chuàng)建混合模型。
但是,RNN 也有一些缺點(diǎn):
梯度消失問(wèn)題:梯度消失問(wèn)題可能發(fā)生在 RNN 中,尤其是在具有多層或長(zhǎng)序列的 RNN 中,這使得學(xué)習(xí)長(zhǎng)期依賴關(guān)系變得困難。
計(jì)算成本高昂:RNN 的計(jì)算成本很高,尤其是在處理長(zhǎng)序列或使用復(fù)雜架構(gòu)時(shí)。
缺乏可解釋性:RNN 可能難以解釋,尤其是在理解網(wǎng)絡(luò)如何做出預(yù)測(cè)或決策方面。
總體而言,雖然 RNN 有一些缺點(diǎn),但它們處理順序數(shù)據(jù)和保留先前輸入內(nèi)存的能力使其成為許多機(jī)器學(xué)習(xí)應(yīng)用的強(qiáng)大工具。
?
展開(kāi)