不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

特征工程的案例

[譯] 使用 Python 進行自動化特征工程
Python 中的特征工程自動化 如何自動化地創建機器學習特征 原文地址:Automated Feature Engineering in Python 原文作者:William Koehrsen 譯文出自:掘金翻譯計劃 本文永久鏈接:github.com/xitu/gold-m… 譯者:mingxing47 校對者:yqian1991 Park-ma 機器學習正在利用諸如 H20、TPOT 和 auto-sklearn 等工具越來越多地從手工設計模型向自動化優化管道遷移。以上這些類庫,連同如 random search 等方法一起,目的是在不需要人工干預的情況下找到適合于數據集的最佳模型,以此來簡化器學習的模型選擇和調優部分。然而,特征工程,作為機器學習管道中一個可以說是更有價值的方面,幾乎全部是手工活。 特征工程,也稱為特征創建,是從已有數據中創建出新特征并且用于訓練機器學習模型的過程。這個步驟可能要比實際使用的模型更加重要,因為機器學習算法僅僅從我們提供給他的數據中進行學習,創建出與任務相關的特征是非常關鍵的(可以參照這篇文章 "A Few Useful Things to Know about Machine Learning" —— 《了解機器學習的一些有用的事》,譯者注)。 通常來說,特征工程是一個漫長的手工過程,依賴于某個特定領域的知識、直覺、以及對數據的操作。這個過程可能會非常乏味并且最終獲得的特性會被人類的主觀性和花在上面的時間所限制。自動特征工程的目標是通過從數據集中創建許多候選特征來幫助數據科學家減輕工作負擔,從這些創建了候選特征的數據集中,數據科學家可以選擇最佳的特征并且用來訓練。
展開
機器學習之 特征工程
說到特征工程,就不得不提有這么一句話在業界廣泛流傳:數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已,從而可見,特征工程的重要程度。 一.特征工程的解釋和意義 那么什么是特征工程?首先先看下特征特征: 是指數據中抽取出來的對結果預測有用的信息,也就是數據的相關屬性。 特征工程:使用專業背景知識和技巧處理數據,使得 特征能在機器學習算法上發揮更好的作用的過程 意義: 1.更好的特征意味著更強的靈活度 2.更好的特征意味著只需用簡單模型,就可以訓練出很好的效果 3.更好的特征意味著可以訓練出更好的結果 二.特征工程具體流程 整個流程可以用下面這種圖來概括 ) 1.特征使用方案 在確定好我們的目標后,我們首先要做的就是根據業務場景,分析要實現我們的目標需要哪些數據。也就是基于業務理解,盡可能找出對因變量有影響的所有自變量。 比如:我現在要預測用戶對商品的下單情況,或者我要給 用戶做商品推薦,那我需要采集什么信息呢? 可以分為三個方向去采集, 店家:店家的類別,店家評分,店家所用快遞等 商品:商品的類別,評分,購買人數,顏色等 用戶:歷史購買信息,消費能力,購物車轉換比,商品停留時間,用戶年齡,所在地址等 然后,我們針對我們所需要的數據,需要進行可用性評估 獲取難度,數據我們能夠采集到嗎? 比如對于用戶年齡來說,就比較難于獲取,并不是每個人都在注冊時都會去填寫年齡 覆蓋率,有些數據并不是每個對象都有的,比如對于歷史購買信息,對于新用戶來說,是沒有的 準確率, 像用戶年齡,店家評分,也都會有準確率的問題,因為店家可能刷單,用戶也可能不寫真實年齡 線上實時計算的時候獲取是否快捷?
展開
語音識別系列之脈沖神經網絡特征工程
二、SNN-KWS/ASR特征工程 將SNN應用于語音喚醒(Keyword Spotting, KWS)[1]甚或語音識別(Automatic Speech Recognition, ASR)[2],首要問題即是如何將語音,或更廣一點,音頻轉換為神經脈沖序列(后文將這種轉換簡稱為Audio2Spike),它隸屬SNN在音頻領域的特征工程,決定了SNN-KWS/ASR的性能上限。 (1)物理模型 文獻[1]中SNN-KWS使用的Audio2Spike轉換方法見文獻[3],后者還附帶了Github代碼(以Python單元測試框架Unittest寫就)。該轉換方法對音頻至脈沖的生物過程建立物理模型,考慮了鼓管、前庭管、蝸孔、卵圓窗、圓窗的流體動力學基底模型,將音頻(聲壓)數據轉化為基底膜在不同位置的運動速度數據,再由考慮了離子傳輸機制的毛細胞模型將運動速度數據轉換為神經脈沖,最后由泄露積分發射(Leaky Integrate-and-Fire, LIF)神經元模型完成鎖相。 注1:基底膜在耳蝸底窄而剛(對高頻響應好),在耳蝸頂寬而柔(對低頻響應好),此特性決定耳蝸實際上是一個分頻器,耳蝸各處毛細胞對不同頻率響應能力不同,連接毛細胞的神經纖維形成螺旋神經節后有序地將音調拓撲映像(Tonotopic map)轉繼到腦干中的耳蝸核。 注2:鎖相(Phase locking)是指毛細胞發射的神經脈沖間隔,是該處最佳響應頻率周期的整數倍,或說,毛細胞發射神經脈沖的時刻,對應聲波某個特定相位。由于動作點位啟動后存在不應期,持續約0.1~1ms,所以鎖相現象一般存在于1kHz以下的聲波(否則上一個脈沖還沒結束,下一個還未能發射)。
展開
Creo 學習從入門到成精-4/10(工程特征建模)
Creo 學習從入門到成精-4/10(工程特征建模)
特征工程圖1
人工智能是如何處理數據的?
代表的算法大致包括: 深度學習,包括大部分常見的模型如cnn/rnn/dbn,也包括遷移學習等 某些無監督學習算法,如主成分分析(PCA)通過對數據轉化而使得輸入數據更有意義 某些樹模型可以自動的學習到數據中的特征并同時作出預測 特征工程:模型依賴人為處理的數據特征,而模型的主要任務是預測,比如簡單的線性回歸期待良好的輸入數據(如離散化后的數據) 需要注意的是,這種歸類方法是不嚴謹的,僅為了直觀目的而已。并沒有一種劃分說a算法是表示學習,而b算法不是,只是為了一種便于理解的劃分。 因此,大部分的模型都處于純粹的表示學習和純粹的依賴人工特征之間,程度不同而已,很少有絕對的自動學習模型。 那么好奇的讀者會問: 1. 是不是自動的特征抽取(表示學習)總是更好? 答案是不一定的: 在數據量不夠的時候,自動特征抽取的方法往往不如人為的特征工程。 當使用者對于數據和問題有深刻的理解時,人工的特征工程往往效果更好。 一個極端的例子是,在kaggle比賽中的特征工程總能帶來一些提升,因此人工的特征抽取和處理依然有用武之地。 同時也值得注意,表示學習的另一好處是高度抽象化的特征往往可以被應用于相關的領域上,這也是我們常說的遷移學習(transfer learning)的思路。比如有了大量貓的圖片以后,不僅可以用于預測一個物體是不是貓,也可以用于將抽取到的特征再運用于其他類似的領域從而節省數據開銷。 2. 特征學習(表示學習),特征工程,特征選擇,維度壓縮之間有什么關系? 從某個角度來看,表示學習有“嵌入式的特征選擇”(embedded feature selection)的特性,其表示學習嵌入到了模型中。
展開
【技術】基于DTEmpower的水處理系統參數預測 - 內因+外因篇
平臺提供了強大的數據挖掘、特征工程和模型自動學習等一站式的解決方案,可以幫助用戶快速、便捷的構建精度較高的數據模型。為不同工業用戶快速驗證業務數據驅動方案,提供了一條高效可落地的實現路徑。
基于大數據模型的數字孿生建模方法
SMOTE算法通過對特征向量在特征空間進行插值處理,通過采樣的方式形成新的樣本。而GAN網絡,則是通過生成和對抗網絡進行拉鋸式的博弈,形成新的具有標記的樣本。SMOTE算法適用于一維數據,而GAN網絡則在二維數據的生成中具有較好的效果。 4)特征工程技術 特征工程技術是用目標問題所在的特定領域知識或者自動化的方法來得到能夠使機器學習算法達到最佳性能的特征的技術。通過將原始數據轉化為特征,可以獲取更好的訓練數據使預測模型更好的處理實際問題,提升預測模型的準確率。它對于傳統的淺層學習器(如支持向量機、邏輯回歸等)而言是不可或缺的技術,因為數據和特征決定了機器學習的上限,而模型和算法只是逼近這個上限而已。對于深層學習器(如卷積神經網絡),由于存在特征自學習的隱藏層,可以自動學習原始數據中的敏感特征,對特征工程依賴較少。但是,隱藏層的特征自學習在深層學習的應用范圍是有限的,特征工程在深度學習依然有著不可替代的作用。特征工程其主要對原始數據進行特征提取、特征選擇和特征降維3個方面的工作。 特征提取主要是從信號處理的層面,對原始數據從時域、頻域和時頻域的角度進行特征提取,其目的是將原始數據轉換為一組具有明顯物理意義(比如 Gabor、幾何特征、紋理特征)或者統計意義的特征。時域上一般可以提取最大值、最小值、峰峰值、平均值、方差、RMS、偏度、斜度、裕度等特征,還可以進行相關性分析得到相關系數。頻域上一般可以提取頻率中值、頻譜能量等特征、核心頻率等特征。時頻域上一般可以得到特定成分的能量值等等。這些特征從更稀疏的角度描述了致密的原始數據,某種程度上已經進行了極大的數據量削減。 特征選擇主要是從提取到的眾多特征中提取出與目標問題敏感的特征,其目的是為了去除無關特征降低學習任務的難度,讓模型變得簡單降低計算復雜度和所需時間。
展開
【技術】基于DTEmpower的旋轉機械故障診斷
Algorithm Accuracy RF 74.32% AdaBoost 85.69% MLP 86.14% GBDT 89.53% 表2 江南大學數據集在4種模型上的準確率 從兩方面探索提高模型在江南大學數據集上分類準確率的方法:特征工程和智能訓練。特征工程是通過DTEmpower平臺特征提取的參數配置,增加樣本的特征維數;由于正常類別的樣本是其他故障類型樣本數量的3倍,使用DTEmpower平臺提供的AIAgent模塊,實現針對小規模數據集的智能訓練。 圖5 DTEmpower平臺的特征提取和智能訓練 利用AIAgent模型對新樣本訓練測試,分類準確率可以提高到99%以上。 準確率 準確率提升 原始數據 89.53% 0% 增加特征維數 93.87% +4.34% 智能訓練 98.57% +9.04% 增加特征維數和智能訓練 99.26% +9.73% 表3 江南大學數據集經過特征工程和智能訓練后的準確率 對江南大學數據集進行進一步挖掘,數據集有三個不同工況,分別是轉速600、轉速800和轉速1000。采用AdaBN遷移學習算法分析不同工況下故障識別率,模型訓練中以一個工況作為訓練集,另一個工況作為測試集,對特征權重進行迭代修正,實現泛化的目的。
展開
自動機器學習綜述
DataRobot使用一個稱為模型藍圖的概念來實現自動化特征工程,該概念在機器學習管道中堆疊了不同的預處理步驟。特性工程部分不像在Featuretools中那樣利用原語的概念。然而,它確實對數據應用了一些標準的預處理技術(基于所使用的ML算法,例如隨機森林、邏輯回歸等),如單熱編碼、輸入、類別計數、在自由文本列中出現的n個字符標記、比率等。 H2O的無人駕駛人工智能是一個自動機器學習的平臺。它可以用于自動化特性工程、模型驗證、模型調優、模型選擇和模型部署。在這一部分,我們將只討論無人駕駛AI的自動特性工程部分。無人駕駛智能支持一系列的所謂的“transformers”,可以應用于一個數據集。 tsfresh是一個用于從時間序列數據中計算和提取特征的Python庫。它提取了中位數、均值、樣本熵、分位數、偏度、方差、值計數、峰數等特征。它沒有泛化所有類型的數據集。它更針對于時間序列數據。但是,它可以與上面提到的其他工具一起使用。 自動化特性工程仍然是一項難以完成的任務。也有很多不支持自動化特性工程的爭論,因為它會產生不正確的結果,或者用不透明的方式使用錯誤的標簽對觀察結果進行分類。因此,自動化特性工程需要謹慎對待,特別是在高度管制的環境中,比如金融服務,在每個決策過程中,可解釋性和可說明性都是至關重要的。 自動選擇模型和超參數調整 一旦特征被預處理,你需要找到一個機器學習算法來訓練這些特征,并能夠預測新觀察的目標值。與功能工程不同,模型選擇具有豐富的選擇和選項。有「聚類模型、分類和回歸模型、基于神經網絡的模型、基于關聯規則的模型」等等。
展開
【技術】DTEmpower核心功能技術揭秘(4)- MDI/MDA特征選擇技術
MDA作為特征選擇工具,能夠剔除“無用特征”,為搭建高精度模型提供支持 圖5 使用MDA功能模塊計算出15個特征變量的重要性值并進行排序后的實驗結果。可以看到:V14、V3、V4等特征的重要性較低;V12、V2等特征的重要性較高;V11、V10等處于中間水平,對于目標變量也有一定的“貢獻度” 圖6 隨著MDA閾值的不斷增加,4種模型的R2指標出現了明顯的上升趨勢。但是當閾值增大到一定程度時(實驗中為0.0450),對目標變量有“貢獻”的特征V11被刪除,此時模型的精度開始下降 圖7 4種模型的NRMSE指標隨MDA閾值的變化趨勢,結合圖6可以看出:不斷刪除“無用特征”可以有效的幫助用戶提升模型精度,降低模型的預測誤差。但是當MDA閾值設置的過大時,“有用特征”也會被刪除,建議用戶此時應停止特征篩選 總結 數據和特征決定了模型的上限,因此,在進行具體的模型訓練之前,進行精細化的特征工程是搭建高精度模型的必要條件。常用的諸如相關性、灰度矩陣分析法等手段存在一定的交互限制和使用門檻。 DTEmpower集成了低門檻的MDI/MDA特征重要性選擇功能。通過實際工業場景中的應用案例和對比實驗,證明了MDI/MDA功能模塊能輕松、有效地輔助用戶提前優秀的特征子集,和建模流程的無縫連接,可高效地輔助用戶搭建高精度模型。
展開
【DTEmpower案例操作教程】向導式建模
圖10 向導式中的兩個訓練等級 6)特征工程配置 特征工 程配置包 括特征處理、異常點清理、敏感性分析、數據降維和數據變換。 本案例中通過特征處理將模型的輸入變量設置為V1~V15,輸出變量設置為EQV1,如圖 11 所示。 圖11 特征處理示意圖 如圖12所示,本案例中異常點清理比例配置為5%,并設置快速粗篩的異常點識別等級。 圖12 異常點清理配置 敏感性分析可使用戶選擇對目標變量重要性最大的若干個特征進行后續的建模,如圖13所示,本案例中選擇了重要性最大的5個、8個和12個特征。 圖13 敏感性分析配置 數據降維是特征選擇后對輸入數據的進一步壓縮提純,如圖14所示,本案例開啟數據降維后選擇線性降維的方法,并指定累計貢獻率作為降維的標準,對輸入特征進行壓縮。 圖14 數據降維配置 數據降維后可進行數據變換的配置,如圖15所示,本案例分別對輸入變量和輸出變量進行Z-score和Robust變換。 圖15 數據變換配置 7)模型配置 模型配置包括訓練測試集劃分、算法選擇、精度指標和優化配置4部分內容。本案例中的訓練測試集來自同一份數據集,因此數據集來源選擇基于同一數據集拆分,測試集占比配置為默認的25%。 圖16 訓練/測試集配置 訓練算法選擇默認的基礎線性回歸和梯度提升決策樹兩種算法,精度指標和優化配置都選用默認配置。配置完成之后點擊保存按鈕。 8)模型訓練和結果查看 建模流程配置完成之后點擊訓練按鈕,如圖17,即可開始模型的訓練。 圖1 7 開啟模型訓練 模型訓練完成之后,向導式建模會以圖表的形式向用戶展示模型的評價指標。
展開
特征工程圖2
數學系出身,如何從零到一地開始機器學習
通過物品的類別屬性和用戶的基本特征來構造出新的特征,例如特征的內積(inner product)。后來在學習的過程中逐步添加了特征的外積和笛卡爾積,除了特征的交叉之外,還有很多的方法來構造特征,例如把特征標準化,歸一化,離散化,二值化等操作。除了構造特征之外,如何判斷特征的重要性則是一個非常關鍵的問題。 最常見的方法就是查看訓練好的模型的權重,另外還可以使用 Pearson 相關系數和 KL 散度等數學工具來粗糙的判斷特征是否有效。在此期間也寫過一些文章“交叉驗證”,“特征工程簡介”,“KL散度”。關于特征工程,除了閱讀一些必要的書籍之外,最重要的還是要實踐,只有實踐才能夠讓自己的經驗更加豐富。 在做推薦系統的時候,之前都是通過邏輯回歸算法(Logistic Regression)離線地把模型的權重算好,然后導入線上系統,再進行實時的計算和打分。除了離線的算法之外,在 2015 年的 12 月份了解到了能夠在線學習的 FTRL 算法。調研了之后在 2016 年初在組內進行了分享,同時在 zr9558.com 上面分享了自己的總結,最近把該文章轉移到自己的微信公眾號上“Follow the Regularized Leader”。 在做 XX 推薦項目的過程中,了解到了數據才是整個機器學習項目的基石,如果數據的質量不佳,那就需要進行數據的預處理,甚至推動開發人員去解決數據上報的問題。通常來說,要想做好一個推薦項目,除了特征工程和算法之外,最重要的就是數據的核對。當時的經驗是需要核對多方的數據,那就是算法離線計算出來的結果,線上計算出來的結果,真實產品中所展示的結果這三方的數據必須要完全一致,一旦不一致,就需要復盤核查,而不是繼續推進項目。在此期間,踩過無數的數據的坑,因此得到的經驗就是一定要反復的核查數據。
展開
超實用的巖土基本知識
根據巖石建造類型、結構面特征及其組成巖石的巖性和強度等特征,巖體分為巖漿巖、變質巖、碎屑巖、碳酸鹽巖和特殊巖石等5個工程地質巖類。每個巖類再劃分為若干巖組,共計18個巖組。根據土體的成因類型、物質組成及工程特征,土體劃分為兩類11個組。 END
Python零基礎入門Python數據分析最好的實戰項目
不過,這個分析還存在很多問題需要解決,比如: 解決爬蟲獲取的數據源準確度問題; 需要爬取或者尋找更多好的售房特征; 需要做更多地特征工程工作,比如數據清洗,特征選擇和篩選; 使用統計模型建立回歸模型進行價格預測;
【1月16-18日 北京+線上】全國人工智能Python機器學習與深度學習實戰培訓班
1.數據缺失處理 2.特征篩選方法 3.特征工程 4.算法選擇 5.結果評估 十三、深度學習基礎-神經網絡介紹 1.人工神經網絡發展史 2.單層感知器 3.激活函數,損失函數和梯度下降法 4.BP算法介紹 案例:BP算法解決手寫數字識別問題 十四、Tensorflow基礎應用 1.Tensorflow安裝 2.Tensorlfow基礎知識:圖,變量,fetch,feed 3.Tensorflow線性回歸 4.Tensorflow非線性回歸 5.Mnist數據集合Softmax講解 6.使用BP神經網絡搭建手寫數字識別 7.交叉熵(cross-entropy)講解和使用 8.過擬合,正則化,Dropout 9.各種優化器Optimizer 十五、卷積神經網絡CNN應用 1.CNN卷積神經網絡 2.卷積層、池化層(均值池化、最大池化) 3.深度殘差網絡講解 4.CNN實現MNIST數據集分類 5.CNN手寫數字案例 十六、長短時記憶網絡LSTM應用 1.RNN循環神經網絡 2.RNN應用案例(MNIST圖像分類) 3.長短時記憶網絡LSTM 4.LSTM應用案例(MNIST圖像分類) 十七、Google圖像識別模型inception-v3項目實戰 1.使用訓練好的inception-v3完成圖像識別 2.用自己收集的數據訓練圖像識別模型 3.使用遷移學習完成圖像分類 十八、用自己的數據來訓練一個新的氣象識別模型
展開