
發(fā)布
注冊(cè)
/
登錄數(shù)據(jù)處理的案例
數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過(guò)程中的一個(gè)重要步驟。它是指清理、轉(zhuǎn)換和集成數(shù)據(jù),以便為分析做好準(zhǔn)備。數(shù)據(jù)預(yù)處理的目標(biāo)是提高數(shù)據(jù)質(zhì)量,使其更適合特定的數(shù)據(jù)挖掘任務(wù)。
數(shù)據(jù)預(yù)處理步驟
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過(guò)程中的一個(gè)重要步驟,涉及清理和轉(zhuǎn)換原始數(shù)據(jù)以使其適合分析。數(shù)據(jù)預(yù)處理中的一些常見步驟包括:
數(shù)據(jù)清理:這涉及識(shí)別和糾正數(shù)據(jù)中的錯(cuò)誤或不一致,例如缺失值、異常值和重復(fù)項(xiàng)。可以使用各種技術(shù)進(jìn)行數(shù)據(jù)清理,例如插補(bǔ)、刪除和轉(zhuǎn)換。
數(shù)據(jù)集成:這涉及組合來(lái)自多個(gè)來(lái)源的數(shù)據(jù)以創(chuàng)建統(tǒng)一的數(shù)據(jù)集。數(shù)據(jù)集成可能具有挑戰(zhàn)性,因?yàn)樗枰?em>處理具有不同格式、結(jié)構(gòu)和語(yǔ)義的數(shù)據(jù)。可以使用記錄鏈接和數(shù)據(jù)融合等技術(shù)進(jìn)行數(shù)據(jù)集成。
數(shù)據(jù)轉(zhuǎn)換:這涉及將數(shù)據(jù)轉(zhuǎn)換為合適的格式以供分析。數(shù)據(jù)轉(zhuǎn)換中使用的常見技術(shù)包括規(guī)范化、標(biāo)準(zhǔn)化和離散化。標(biāo)準(zhǔn)化用于將數(shù)據(jù)縮放到公共范圍,而標(biāo)準(zhǔn)化用于將數(shù)據(jù)轉(zhuǎn)換為零均值和單位方差。離散化用于將連續(xù)數(shù)據(jù)轉(zhuǎn)換為離散類別。
數(shù)據(jù)縮減:這涉及在保留重要信息的同時(shí)減小數(shù)據(jù)集的大小。可以通過(guò)特征選擇和特征提取等技術(shù)實(shí)現(xiàn)數(shù)據(jù)縮減。特征選擇涉及從數(shù)據(jù)集中選擇相關(guān)特征的子集,而特征提取涉及將數(shù)據(jù)轉(zhuǎn)換為較低維空間,同時(shí)保留重要信息。
數(shù)據(jù)離散化:這涉及將連續(xù)數(shù)據(jù)劃分為離散的類別或間隔。離散化通常用于需要分類數(shù)據(jù)的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法。離散化可以通過(guò)等寬分箱、等頻分箱和聚類等技術(shù)來(lái)實(shí)現(xiàn)。
數(shù)據(jù)規(guī)范化:這涉及將數(shù)據(jù)縮放到一個(gè)通用范圍,例如介于 0 和 1 之間或 -1 和 1 之間。歸一化通常用于處理具有不同單位和尺度的數(shù)據(jù)。常見的規(guī)范化技術(shù)包括最小-最大規(guī)范化、z 分?jǐn)?shù)規(guī)范化和十進(jìn)制縮放。
數(shù)據(jù)預(yù)處理在保證數(shù)據(jù)質(zhì)量和分析結(jié)果的準(zhǔn)確性方面起著至關(guān)重要的作用。數(shù)據(jù)預(yù)處理中涉及的具體步驟可能因數(shù)據(jù)的性質(zhì)和分析目標(biāo)而異。
展開 【高速傳輸】數(shù)據(jù)量激增,處理吃緊?高速光纖通信板實(shí)現(xiàn)的大數(shù)據(jù)高速處理方案
作為參考,表4給出了每個(gè)產(chǎn)品對(duì)內(nèi)存的500MB數(shù)據(jù)的寫入和讀取時(shí)間。
表4 每個(gè)產(chǎn)品的數(shù)據(jù)寫入時(shí)間和讀取時(shí)間
應(yīng)用示例
圖8 一臺(tái)相機(jī)和一個(gè)采集卡的硬件配置圖。
圖9 使用1臺(tái)PC時(shí)的節(jié)拍時(shí)間。
在使用1臺(tái)PC連接一臺(tái)相機(jī)和一個(gè)采集卡的一般環(huán)境中,獲取影像的順序?yàn)榈?個(gè)圖像采集→第1個(gè)圖像處理→第2個(gè)圖像采集→第2個(gè)圖像處理,由此連續(xù)獲取影像。
假如有如圖8所示的設(shè)置,將設(shè)備轉(zhuǎn)換為高分辨率、高速相機(jī),則可能會(huì)因數(shù)據(jù)增加導(dǎo)致數(shù)據(jù)處理時(shí)間延遲,從而降低生產(chǎn)量。
圖10 分散式處理示例。
圖11 使用3臺(tái)PC時(shí)的節(jié)拍時(shí)間。
圖10顯示了一臺(tái)相機(jī)對(duì)三臺(tái)PC的分散式處理。
如圖11所示,相機(jī)正在獲取數(shù)據(jù),通過(guò)在PC1、PC2和PC3依次處理從相機(jī)輸入的圖像數(shù)據(jù),以此來(lái)縮短整體生產(chǎn)節(jié)拍時(shí)間。
圖12 節(jié)拍時(shí)間比較。
如圖12顯示,使用3臺(tái)PC時(shí)的處理速度,比使用1臺(tái)PC時(shí)快約2.5倍。
可見,分散式處理的在高速傳輸高分辨率數(shù)據(jù)的情況下,優(yōu)勢(shì)明顯。用戶可根據(jù)自身應(yīng)用目的,進(jìn)行分散式處理或集中處理。
在分散式處理的情況下,如圖13所示,將一臺(tái)相機(jī)拍攝的圖像數(shù)據(jù)傳輸?shù)饺齻€(gè)節(jié)點(diǎn)。
圖13 分散式處理示例
在集中處理的情況下,如圖14所示,三臺(tái)相機(jī)的影像數(shù)據(jù)被傳輸?shù)揭粋€(gè)節(jié)點(diǎn),作為一個(gè)集中過(guò)程進(jìn)行處理。
圖14 集中處理示例
結(jié)論
GiGA系列是基于光通信進(jìn)行數(shù)據(jù)處理的板卡,它可以傳輸大量數(shù)據(jù)以及圖像,因此應(yīng)用范圍廣泛。
展開 垃圾一樣的數(shù)據(jù),含淚也要處理完呀~Matlab讓你提高數(shù)據(jù)處理效率!
它通過(guò)最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡(jiǎn)便地求得未知的數(shù)據(jù)并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。
那么對(duì)于任意的x值,就會(huì)有一個(gè)實(shí)際值y和一個(gè)擬合值y’,那么對(duì)于所有的x值,最小二乘的就是求解下面公式的最小值:
比如用一次函數(shù)y=ax+b來(lái)擬合,系數(shù)a、b的值就要通過(guò)不斷計(jì)算,使得誤差的平方和最小來(lái)確定。
如果你已知數(shù)據(jù)趨勢(shì),例如低碳鋼拉伸曲線,或者擬合工具箱里的基本函數(shù)已經(jīng)不能滿足需求,也可以自定義曲線函數(shù)來(lái)擬合數(shù)據(jù)噠,我給大家提供一個(gè)算例,關(guān)注公眾號(hào),后臺(tái)回復(fù)“擬合”,即可領(lǐng)取啦!
上面是我處理后的兩張基坑排樁變形圖象呢,有人覺(jué)得這樣圖很丑,那就對(duì)了。畢導(dǎo)也說(shuō)過(guò):學(xué)術(shù)界是一個(gè)以丑為美的領(lǐng)域,沒(méi)有那么多的花里胡哨啦!學(xué)術(shù)圖表配色原則和理工男穿衣搭配原則是類似的!
當(dāng)然數(shù)據(jù)處理是為了總結(jié)規(guī)律,切不可為了強(qiáng)湊規(guī)律而偽造數(shù)據(jù),畢竟我們要尊重科學(xué)!
展開 通過(guò)ADINA后處理導(dǎo)出數(shù)據(jù)進(jìn)行繪圖處理(附matlab程序)
在我們寫論文或?qū)憟?bào)告的時(shí)候,不僅要求有計(jì)算的云圖,而且經(jīng)常會(huì)感興趣的地方進(jìn)行數(shù)據(jù)處理,這個(gè)時(shí)候會(huì)發(fā)現(xiàn)在ADINA中直接繪制圖形導(dǎo)入WORD時(shí)候無(wú)法完成編輯,這個(gè)時(shí)候可以借助txt和excel等簡(jiǎn)單的轉(zhuǎn)化進(jìn)行圖形的繪制,這樣就能完成漂亮的二維曲線圖。
通過(guò)ADINA后處理導(dǎo)出數(shù)據(jù)進(jìn)行繪圖處理.doc
在我們進(jìn)行數(shù)據(jù)處理的過(guò)程中時(shí)常會(huì)對(duì)數(shù)據(jù)的順利進(jìn)行調(diào)整,比如自己按照一定的角度進(jìn)行數(shù)據(jù)整理,但這個(gè)時(shí)候自動(dòng)生成的數(shù)據(jù)又不是按照這樣的順利來(lái)進(jìn)行的,對(duì)于一維的數(shù)據(jù)大家可以通過(guò)matlab進(jìn)行編程計(jì)算,從而節(jié)省整理順序的時(shí)間。
WRY.rar
data.rar
展開 
康謀分享 | 如何應(yīng)對(duì)ADAS/AD海量數(shù)據(jù)處理挑戰(zhàn)?
隨著軟件定義汽車的發(fā)展,車輛生成的數(shù)據(jù)量也以前所未有的速度不斷增加。這些數(shù)據(jù)包含廣泛的信息,包括傳感器數(shù)據(jù)、遙測(cè)數(shù)據(jù)、診斷數(shù)據(jù)等。在開發(fā)過(guò)程中,有效處理這些數(shù)據(jù)并從中獲得見解至關(guān)重要。
對(duì)于原始設(shè)備制造商(OEM)和汽車一級(jí)供應(yīng)商(Tier 1)來(lái)說(shuō),是否自主構(gòu)建和維護(hù)數(shù)據(jù)處理流程是一個(gè)至關(guān)重要的考慮因素。數(shù)據(jù)處理流程是應(yīng)對(duì)當(dāng)下軟件定義汽車所產(chǎn)生的海量數(shù)據(jù)的基礎(chǔ)組件。
一、問(wèn)題背景
在 AWS 等云平臺(tái)上為高級(jí)駕駛輔助系統(tǒng) (ADAS) 和自動(dòng)駕駛 (AD) 數(shù)據(jù)構(gòu)建魯棒的數(shù)據(jù)處理流程,通常需要全面了解各種服務(wù)及其集成。您可能使用的特定服務(wù)可能取決于應(yīng)用程序的要求、數(shù)據(jù)源和處理需求。
為了解決這一問(wèn)題,康謀通過(guò)使用IVEX提出了專門用于應(yīng)對(duì)ADAS/AD海量數(shù)據(jù)的數(shù)據(jù)處理流程。該流程的核心目的是自動(dòng)從原始傳感器數(shù)據(jù)等輸入中識(shí)別出值得關(guān)注的事件和場(chǎng)景。構(gòu)建這樣的數(shù)據(jù)處理流程需要仔細(xì)考慮各種技術(shù)方面,例如:原始傳感器數(shù)據(jù)的云端存儲(chǔ)、基于原始數(shù)據(jù)的算法執(zhí)行(包括需要例如GPU等特定資源的機(jī)器學(xué)習(xí)算法)、事件和場(chǎng)景等后處理數(shù)據(jù)的存儲(chǔ)機(jī)制、算法版本控制、結(jié)果可視化以及確保數(shù)據(jù)僅對(duì)授權(quán)用戶可見。
二、內(nèi)部構(gòu)建或獲取預(yù)組裝解決方案
IVEX的數(shù)據(jù)處理流程基于多種AWS服務(wù)實(shí)現(xiàn)無(wú)縫銜接,以下是經(jīng)過(guò)策略性部署的AWS服務(wù):
1. 原始傳感器的數(shù)據(jù)(包括激光雷達(dá)點(diǎn)云、相機(jī)圖像和GNSS信息)存儲(chǔ)在S3存儲(chǔ)服務(wù)中。S3用作采集數(shù)據(jù)的暫存地,為后期處理的數(shù)據(jù)提供擴(kuò)展存儲(chǔ),并為處理提供經(jīng)濟(jì)高效的短期存儲(chǔ)解決方案。此外,使用S3掛載點(diǎn)功能能讓S3作為主要的“處理卷”,使其能夠像文件系統(tǒng)一樣使用。
展開 有輕功:用3行代碼讓Python數(shù)據(jù)處理腳本獲得4倍提速
Python是一門非常適合處理數(shù)據(jù)和自動(dòng)化完成重復(fù)性工作的編程語(yǔ)言,我們?cè)谟?em>數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型之前,通常都需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,而Python就非常適合完成這項(xiàng)工作,比如需要重新調(diào)整幾十萬(wàn)張圖像的尺寸,用Python沒(méi)問(wèn)題!你幾乎總是能找到一款可以輕松完成數(shù)據(jù)處理工作的Python庫(kù)。
然而,雖然Python易于學(xué)習(xí),使用方便,但它并非運(yùn)行速度最快的語(yǔ)言。默認(rèn)情況下,Python程序使用一個(gè)CPU以單個(gè)進(jìn)程運(yùn)行。不過(guò)如果你是在最近幾年配置的電腦,通常都是四核處理器,也就是有4個(gè)CPU。這就意味著在你苦苦等待Python腳本完成數(shù)據(jù)處理工作時(shí),你的電腦其實(shí)有75%甚至更多的計(jì)算資源就在那閑著沒(méi)事干!
今天我(作者Adam Geitgey——譯者注)就教大家怎樣通過(guò)并行運(yùn)行Python函數(shù),充分利用你的電腦的全部處理能力。得益于Python的 concurrent.futures 模塊,我們只需3行代碼,就能將一個(gè)普通數(shù)據(jù)處理腳本變?yōu)槟懿⑿?em>處理數(shù)據(jù)的腳本,提速4倍。
普通Python處理數(shù)據(jù)方法
比方說(shuō),我們有一個(gè)全是圖像數(shù)據(jù)的文件夾,想用Python為每張圖像創(chuàng)建縮略圖。
展開 康謀分享 | ADTF過(guò)濾器全面解析:構(gòu)建、配置與數(shù)據(jù)處理應(yīng)用
解碼來(lái)自CAN、MOST或FlexRay等設(shè)備的流源數(shù)據(jù)。</p><p>2. 預(yù)處理傳入數(shù)據(jù),為算法實(shí)現(xiàn)做準(zhǔn)備。</p><p>3. 通過(guò)復(fù)雜的算法實(shí)現(xiàn)重新計(jì)算和合并傳入數(shù)據(jù)。</p><p>4. 實(shí)現(xiàn)循環(huán)控制器。</p><p>5. 接收傳入數(shù)據(jù)并進(jìn)行數(shù)據(jù)可視化。</p><h2>五、總結(jié)</h2><p>ADTF過(guò)濾器提供了一個(gè)靈活且強(qiáng)大的平臺(tái),用于構(gòu)建和集成數(shù)據(jù)處理流程。無(wú)論是在汽車、工業(yè)自動(dòng)化等領(lǐng)域,過(guò)濾器都能夠提供定制化的解決方案,滿足特定的技術(shù)需求。通過(guò)合理設(shè)計(jì)和配置過(guò)濾器,可以大大提高數(shù)據(jù)處理的效率和可靠性。</p>
展開 巖石邊坡工程大數(shù)據(jù)處理---階段性總結(jié)(R1)
1 引言
馬上就要開學(xué)了,需要投入新的任務(wù),因此巖石邊坡大數(shù)據(jù)處理工作暫時(shí)告一段落,為此作一個(gè)階段性總結(jié)。這項(xiàng)研究的核心內(nèi)容是運(yùn)用先進(jìn)的自然語(yǔ)言處理技術(shù)來(lái)處理巖石邊坡工程文獻(xiàn),其最終目的主要有兩個(gè):一個(gè)是從大數(shù)據(jù)挖掘中產(chǎn)生新的概念,主題以及論文的自動(dòng)生成;另一個(gè)是改進(jìn)和輔助雙語(yǔ)教學(xué)。這個(gè)研究報(bào)告由兩大部分組成,第一部分描述了數(shù)據(jù)集的建立,第二部分討論了數(shù)據(jù)處理使用的工具和技術(shù)。
2 數(shù)據(jù)集建立
整個(gè)數(shù)據(jù)集按照巖石邊坡工程的核心主題劃分為如下子集:
(1) 巖石強(qiáng)度和變形;
(2) 離散斷裂網(wǎng)絡(luò)和巖橋;
(3) 工程巖體分類;
(4) 邊坡穩(wěn)定性分析;
(5) 巖石錨桿;
(6) 地表沉降;
(7) Itasca軟件模擬;
(8) 其它軟件模擬;(Plaxis, Rocscience,Abaqus)
(9) 場(chǎng)地安全地震評(píng)價(jià);
(10) 邊坡工程實(shí)例;
(11) 大型露天礦,包括Chuquicamata, Bingham Canyon, Palabora, Diavik
3 數(shù)據(jù)處理
這一部分主要是通過(guò)一系列代碼處理上述發(fā)展的數(shù)據(jù)集。
展開 根據(jù)國(guó)標(biāo)GB/T 4783-1984 采用滾下法測(cè)量懸架偏頻--LMS頻偏數(shù)據(jù)處理 ¥5
本文檔根據(jù)GB/T 4783-1984滾下法進(jìn)行整車前后懸架頻偏測(cè)試,使用LMS testlab對(duì)前后懸架主被動(dòng)端的三向加速度傳感器信號(hào)進(jìn)行自譜處理,從而獲得車身和車輪部分固有頻率,即偏頻。
懸架固有頻率數(shù)據(jù)處理---頻率分析法-long_頁(yè)面_01.png
懸架固有頻率數(shù)據(jù)處理---頻率分析法-long_頁(yè)面_03.png
懸架固有頻率數(shù)據(jù)處理---頻率分析法-long_頁(yè)面_02.png
懸架固有頻率數(shù)據(jù)處理---頻率分析法-long_頁(yè)面_05.png
懸架固有頻率數(shù)據(jù)處理---頻率分析法-long_頁(yè)面_04.png
懸架固有頻率數(shù)據(jù)處理---頻率分析法-long_頁(yè)面_06.png
展開 大型鍛件工藝數(shù)據(jù)智能化處理與優(yōu)化系統(tǒng)設(shè)計(jì)
如鍛件尺寸檢測(cè)數(shù)據(jù)得不到有效的反饋,鍛造規(guī)范得不到及時(shí)的修訂,下次年輕的工程技術(shù)人員在處理同類產(chǎn)品時(shí),仍將重蹈覆轍,犯前人犯過(guò)的錯(cuò)誤。在此背景下,企業(yè)開始了大型鍛件工藝數(shù)據(jù)智能化處理與優(yōu)化系統(tǒng)項(xiàng)目。
系統(tǒng)的總體結(jié)構(gòu)
大型鍛件工藝數(shù)據(jù)智能化處理與優(yōu)化系統(tǒng)主要由四個(gè)模塊組成,其流程圖如圖1 所示。
⑴鍛造工藝編制計(jì)算機(jī)輔助系統(tǒng)模塊。此模塊中集成有材料庫(kù)、鍛造規(guī)范、輔具庫(kù)、鋼錠規(guī)格等數(shù)據(jù)庫(kù)。目前,鍛造工藝的輔助設(shè)計(jì)模塊主要針對(duì)形狀簡(jiǎn)單,工藝流程相對(duì)固化的幾種鍛件,如筒節(jié)、餅類件、錐形筒體和臺(tái)階軸。
⑵鍛件尺寸統(tǒng)計(jì)系統(tǒng)模塊。此模塊主要負(fù)責(zé)收集測(cè)控設(shè)備反饋的數(shù)據(jù),并將數(shù)據(jù)反饋給鍛件尺寸數(shù)據(jù)處理系統(tǒng)。
⑶鍛件尺寸數(shù)據(jù)處理反饋系統(tǒng)模塊。此模塊主要負(fù)責(zé)鍛件毛坯尺寸與粗加工尺寸的對(duì)比,結(jié)合企業(yè)自定義判據(jù),分析鍛件添加的余量是否合適。對(duì)于余量過(guò)大或過(guò)小的產(chǎn)品,系統(tǒng)將自動(dòng)發(fā)送預(yù)警信息,建議用戶修改規(guī)范。
⑷鍛造工藝規(guī)范人工智能系統(tǒng)模塊。此模塊主要負(fù)責(zé)鍛造工藝規(guī)范的修訂和優(yōu)化。
圖1 大型鍛件工藝數(shù)據(jù)智能化處理與優(yōu)化系統(tǒng)流程圖
功能介紹
從大型鍛件工藝數(shù)據(jù)智能化處理與優(yōu)化系統(tǒng)流程圖(圖1)可知,“鍛造工藝編制計(jì)算機(jī)輔助系統(tǒng)”模塊是整個(gè)系統(tǒng)的“起始點(diǎn)”。只有“鍛造工藝編制計(jì)算機(jī)輔助系統(tǒng)”模塊設(shè)計(jì)出鍛造工藝,才能有鍛件毛坯為“鍛件尺寸數(shù)據(jù)處理系統(tǒng)”模塊提供相應(yīng)的尺寸數(shù)據(jù),并開展后續(xù)鍛造工藝規(guī)范的修訂。因此,本系統(tǒng)開發(fā)設(shè)計(jì)工作從“鍛造工藝編制計(jì)算機(jī)輔助系統(tǒng)”模塊開始。
目前,大型鍛件工藝數(shù)據(jù)智能化處理與優(yōu)化系統(tǒng)已經(jīng)完成了“鍛造工藝編制計(jì)算機(jī)輔助系統(tǒng)”模塊的相關(guān)設(shè)計(jì)。
展開 【Python數(shù)據(jù)分析基礎(chǔ)】: 數(shù)據(jù)缺失值處理
不處理
補(bǔ)齊處理只是將未知值補(bǔ)以我們的主觀估計(jì)值,不一定完全符合客觀事實(shí),在對(duì)不完備信息進(jìn)行補(bǔ)齊處理的同時(shí),我們或多或少地改變了原始的信息系統(tǒng)。而且,對(duì)空值不正確的填充往往將新的噪聲引入數(shù)據(jù)中,使挖掘任務(wù)產(chǎn)生錯(cuò)誤的結(jié)果。因此,在許多情況下,我們還是希望在保持原始信息不發(fā)生變化的前提下對(duì)信息系統(tǒng)進(jìn)行處理。
在實(shí)際應(yīng)用中,一些模型無(wú)法應(yīng)對(duì)具有缺失值的數(shù)據(jù),因此要對(duì)缺失值進(jìn)行處理。然而還有一些模型本身就可以應(yīng)對(duì)具有缺失值的數(shù)據(jù),此時(shí)無(wú)需對(duì)數(shù)據(jù)進(jìn)行處理,比如Xgboost,rfr等高級(jí)模型。
4 總結(jié)
總而言之,大部分數(shù)據(jù)挖掘的預(yù)處理都會(huì)使用比較方便的方法來(lái)處理缺失值,比如均值法,但是效果上并一定好,因此還是需要根據(jù)不同的需要選擇合適的方法,并沒(méi)有一個(gè)解決所有問(wèn)題的萬(wàn)能方法。具體的方法采用還需要考慮多個(gè)方面的:
數(shù)據(jù)缺失的原因;
數(shù)據(jù)缺失值類型;
樣本的數(shù)據(jù)量;
數(shù)據(jù)缺失值隨機(jī)性等;
關(guān)于數(shù)據(jù)缺失值得思維導(dǎo)圖:
如果大家有任何好的其他方法,歡迎補(bǔ)充。
參考:
http://www.restore.ac.uk/PEAS/imputation.php
https://blog.csdn.net/lujiandong1/article/details/52654703
http://blog.sina.com.cn/s/blog_4b0f1da60101d8yb.html
https://www.cnblogs.com/Acceptyly/p/3985687.html
作者:Python數(shù)據(jù)科學(xué)
來(lái)源:掘金
展開 
人工智能是如何處理數(shù)據(jù)的?
人工智能如何處理數(shù)據(jù)?如果把重點(diǎn)放在數(shù)據(jù)的處理方式上,那么長(zhǎng)期共存的方式大概有兩種:
特征學(xué)習(xí)(feature learning),又叫表示學(xué)習(xí)(representation learning)或者表征學(xué)習(xí) 。
特征工程(feature engineering),主要指對(duì)于數(shù)據(jù)的人為處理提取,有時(shí)候也代指“洗數(shù)據(jù)” 。
不難看出,兩者的主要區(qū)別在于前者是“學(xué)習(xí)的過(guò)程”,而后者被認(rèn)為是一門“人為的工程”。用更加白話的方式來(lái)說(shuō),特征學(xué)習(xí)是從數(shù)據(jù)中自動(dòng)抽取特征或者表示的方法,這個(gè)學(xué)習(xí)過(guò)程是模型自主的。而特征工程的過(guò)程是人為的對(duì)數(shù)據(jù)進(jìn)行處理,得到我們認(rèn)為的、適合后續(xù)模型使用的樣式。
舉個(gè)簡(jiǎn)單的例子,深度學(xué)習(xí)就是一種表示學(xué)習(xí),其學(xué)習(xí)過(guò)程是一種對(duì)于有效特征的抽取過(guò)程。有用的特征在層層學(xué)習(xí)后抽取了出來(lái),最終交給了后面的分類層進(jìn)行預(yù)測(cè)。
一種比較不嚴(yán)謹(jǐn)?shù)庇^的理解可以是,假設(shè)一個(gè)n層的深度學(xué)習(xí)網(wǎng)絡(luò),那么輸入數(shù)據(jù)在被網(wǎng)絡(luò)逐層抽象化,靠前的層(1~k)學(xué)到了低階特征(low level features),中間層(k+1~m)學(xué)到了中階特征(middle level features),而靠后的層上(m+1~n-1)特征達(dá)到了高度的抽象化獲得了高階特征(high level features),最終高度的抽象化的特征被應(yīng)用于分類層(n)上,從而得到了良好的分類結(jié)果。
一個(gè)常用例子是說(shuō)卷積網(wǎng)絡(luò)的前面幾層可以學(xué)到“邊的概念”,之后學(xué)到了“角的概念”,并逐步學(xué)到了更加抽象復(fù)雜的如“圖形的概念”。
下圖就給出了一個(gè)直觀的例子,即圖像經(jīng)過(guò)深度網(wǎng)絡(luò)學(xué)習(xí)后得到了高度抽象的有效特征,從而作為預(yù)測(cè)層的輸入數(shù)據(jù),并最終預(yù)測(cè)目標(biāo)是一只貓。
展開 基于VTK的OpenFOAM數(shù)據(jù)后處理方法
來(lái)源:多相流在線
作者:吳玉欣
OpenFOAM數(shù)據(jù)后處理通常使用ParaView等可視化繪圖工具,在處理大量計(jì)算數(shù)據(jù)時(shí)存在效率低下的問(wèn)題,本篇主要介紹基于VTK的OpenFOAM數(shù)據(jù)后處理方法,該方法通過(guò)Python程序調(diào)用VTK函數(shù)庫(kù)自動(dòng)執(zhí)行數(shù)據(jù)場(chǎng)的3D圖形化渲染,大幅提高了數(shù)據(jù)后處理效率,并可以此為基礎(chǔ)開發(fā)可自定義的新型OpenFOAM后處理程序。
OpenFOAM[1]數(shù)據(jù)后處理通常使用ParaView[2]、Ensight和Tecplot360等可視化繪圖工具,以上工具依賴手動(dòng)操作的方式生成數(shù)據(jù)場(chǎng)的分布云圖,因此在處理多組計(jì)算數(shù)據(jù)時(shí)存在效率低下的問(wèn)題,且難以添加其他自定義功能。為解決以上問(wèn)題,有必要開發(fā)程序自動(dòng)完成數(shù)據(jù)場(chǎng)的3D圖形化渲染輸出,同時(shí)滿足可添加自定義功能的需求。
為實(shí)現(xiàn)以上功能,首先需要尋找支持讀取OpenFOAM數(shù)據(jù)文件的工具,同時(shí)該工具要支持3D圖形化渲染功能。
VTK(visualization toolkit)為免費(fèi)開源的軟件系統(tǒng)[3],可實(shí)現(xiàn)三維模型的計(jì)算機(jī)圖形可視化,被廣泛應(yīng)用于計(jì)算流體數(shù)據(jù)分析、醫(yī)學(xué)建模成像等多個(gè)領(lǐng)域(圖1)。
VTK的閱讀器可直接讀取OpenFOAM的數(shù)據(jù)文件,并通過(guò)數(shù)據(jù)流的方式實(shí)現(xiàn)數(shù)據(jù)場(chǎng)的3D圖形化渲染,因此成為開發(fā)OpenFOAM后處理程序的理想選擇。
展開 實(shí)驗(yàn)數(shù)據(jù)處理基礎(chǔ)
實(shí)驗(yàn)數(shù)據(jù)處理是研究生涯必備,有許多專業(yè)的軟件如origin能夠很好處理實(shí)驗(yàn)獲得的原始數(shù)據(jù),這里著重介紹不需要安裝數(shù)據(jù)處理軟件,在仿真分析軟件abaqus安裝了的基礎(chǔ)上,簡(jiǎn)單地處理實(shí)驗(yàn)獲得的不平滑曲線的方法!
aiData全自動(dòng)化數(shù)據(jù)處理解決方案!
此外內(nèi)置動(dòng)態(tài)診斷機(jī)制,針對(duì)傳感器過(guò)熱、遮擋、同步丟失等問(wèn)題設(shè)定明確閾值,一旦觸發(fā)即向駕駛員發(fā)出干預(yù)提示,確保 500 公里等長(zhǎng)距離采集任務(wù)中數(shù)據(jù)的連續(xù)性與有效性,避免后期才發(fā)現(xiàn)數(shù)據(jù)失效的情況。
優(yōu)化數(shù)據(jù)上傳與管理
數(shù)據(jù)的可訪問(wèn)性直接影響其價(jià)值發(fā)揮,aiData 通過(guò)自動(dòng)化流程與智能管理功能,讓數(shù)據(jù)快速轉(zhuǎn)化為研發(fā)動(dòng)力。
支持熱插拔標(biāo)準(zhǔn)SSD,實(shí)時(shí)顯示數(shù)據(jù)上傳狀態(tài)
在車輛完成采集任務(wù)的現(xiàn)場(chǎng)部署上傳站,支持熱插拔標(biāo)準(zhǔn) SSD,實(shí)現(xiàn)數(shù)據(jù)自動(dòng)上傳并立即啟動(dòng)處理流程,無(wú)需等待數(shù)天甚至數(shù)周讓工程師獲取數(shù)據(jù)。
若連接被測(cè)軟件(SuT),可利用采集過(guò)程中生成的自動(dòng)標(biāo)記,優(yōu)先處理軟件置信度低于預(yù)期的關(guān)鍵數(shù)據(jù);此外能夠通過(guò)跟蹤診斷趨勢(shì)與閾值變化,提前發(fā)現(xiàn)硬件潛在問(wèn)題并及時(shí)處理。所有記錄數(shù)據(jù)及診斷信息均實(shí)現(xiàn)自動(dòng)上傳、處理與索引,確保團(tuán)隊(duì)能夠快速獲取所需數(shù)據(jù),保持研發(fā)敏捷性。
04 結(jié)語(yǔ)
高質(zhì)量數(shù)據(jù)是自動(dòng)駕駛技術(shù)落地的核心基石,而 aiData 憑借覆蓋數(shù)據(jù)采集、標(biāo)注、評(píng)估、管理、補(bǔ)充的全流程自動(dòng)化能力,解決了傳統(tǒng)數(shù)據(jù)處理中成本高、效率低、質(zhì)量差、安全風(fēng)險(xiǎn)大等痛點(diǎn)。
aiData 以精準(zhǔn)高效的技術(shù)能力、靈活安全的部署模式、貼合需求的定制化服務(wù),已經(jīng)成為 OEM 廠商與 Tier-1 供應(yīng)商在自動(dòng)駕駛研發(fā)路上的可靠伙伴。
展開