不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

Python數(shù)據(jù)處理的案例

有輕功:用3行代碼讓Python數(shù)據(jù)處理腳本獲得4倍提速
Python是一門(mén)非常適合處理數(shù)據(jù)和自動(dòng)化完成重復(fù)性工作的編程語(yǔ)言,我們?cè)谟?em>數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型之前,通常都需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,而Python就非常適合完成這項(xiàng)工作,比如需要重新調(diào)整幾十萬(wàn)張圖像的尺寸,用Python沒(méi)問(wèn)題!你幾乎總是能找到一款可以輕松完成數(shù)據(jù)處理工作的Python庫(kù)。 然而,雖然Python易于學(xué)習(xí),使用方便,但它并非運(yùn)行速度最快的語(yǔ)言。默認(rèn)情況下,Python程序使用一個(gè)CPU以單個(gè)進(jìn)程運(yùn)行。不過(guò)如果你是在最近幾年配置的電腦,通常都是四核處理器,也就是有4個(gè)CPU。這就意味著在你苦苦等待Python腳本完成數(shù)據(jù)處理工作時(shí),你的電腦其實(shí)有75%甚至更多的計(jì)算資源就在那閑著沒(méi)事干! 今天我(作者Adam Geitgey——譯者注)就教大家怎樣通過(guò)并行運(yùn)行Python函數(shù),充分利用你的電腦的全部處理能力。得益于Python的 concurrent.futures 模塊,我們只需3行代碼,就能將一個(gè)普通數(shù)據(jù)處理腳本變?yōu)槟懿⑿?em>處理數(shù)據(jù)的腳本,提速4倍。 普通Python處理數(shù)據(jù)方法 比方說(shuō),我們有一個(gè)全是圖像數(shù)據(jù)的文件夾,想用Python為每張圖像創(chuàng)建縮略圖。
展開(kāi)
Python數(shù)據(jù)分析基礎(chǔ)】: 數(shù)據(jù)缺失值處理
處理 補(bǔ)齊處理只是將未知值補(bǔ)以我們的主觀(guān)估計(jì)值,不一定完全符合客觀(guān)事實(shí),在對(duì)不完備信息進(jìn)行補(bǔ)齊處理的同時(shí),我們或多或少地改變了原始的信息系統(tǒng)。而且,對(duì)空值不正確的填充往往將新的噪聲引入數(shù)據(jù)中,使挖掘任務(wù)產(chǎn)生錯(cuò)誤的結(jié)果。因此,在許多情況下,我們還是希望在保持原始信息不發(fā)生變化的前提下對(duì)信息系統(tǒng)進(jìn)行處理。 在實(shí)際應(yīng)用中,一些模型無(wú)法應(yīng)對(duì)具有缺失值的數(shù)據(jù),因此要對(duì)缺失值進(jìn)行處理。然而還有一些模型本身就可以應(yīng)對(duì)具有缺失值的數(shù)據(jù),此時(shí)無(wú)需對(duì)數(shù)據(jù)進(jìn)行處理,比如Xgboost,rfr等高級(jí)模型。 4 總結(jié) 總而言之,大部分數(shù)據(jù)挖掘的預(yù)處理都會(huì)使用比較方便的方法來(lái)處理缺失值,比如均值法,但是效果上并一定好,因此還是需要根據(jù)不同的需要選擇合適的方法,并沒(méi)有一個(gè)解決所有問(wèn)題的萬(wàn)能方法。具體的方法采用還需要考慮多個(gè)方面的: 數(shù)據(jù)缺失的原因; 數(shù)據(jù)缺失值類(lèi)型; 樣本的數(shù)據(jù)量; 數(shù)據(jù)缺失值隨機(jī)性等; 關(guān)于數(shù)據(jù)缺失值得思維導(dǎo)圖: 如果大家有任何好的其他方法,歡迎補(bǔ)充。 參考: http://www.restore.ac.uk/PEAS/imputation.php https://blog.csdn.net/lujiandong1/article/details/52654703 http://blog.sina.com.cn/s/blog_4b0f1da60101d8yb.html https://www.cnblogs.com/Acceptyly/p/3985687.html 作者:Python數(shù)據(jù)科學(xué) 來(lái)源:掘金
展開(kāi)
利用python處理Excel表格中的銷(xiāo)售數(shù)據(jù)
Python版本:Python 3.6。 可視化開(kāi)發(fā)環(huán)境:PyCharm 2017.3.3。 界面設(shè)計(jì)工具:Qt Designer Python內(nèi)置模塊:os、sys、glob、numpy。 第三方模塊:PyQt5、pyqt5-tools、pandas、matplotlib、xlrd。 注意:在使用第三方模塊時(shí),首先需要使用pip install命令安裝該模塊。 運(yùn)行方法打開(kāi)PyCharm開(kāi)發(fā)環(huán)境,然后在主菜單上選擇File→Open菜單項(xiàng),在打開(kāi)的Open File or Project對(duì)話(huà)框中,選擇項(xiàng)目wordhelper,如圖1所示。 圖1 Open File or Project 對(duì)話(huà)框打開(kāi)項(xiàng)目后,在右側(cè)的Project面板中選中程序的主文件dataExcel.py,并且單擊鼠標(biāo)右鍵,在彈出的快捷菜單中選擇"Run 'dataExcel'"菜單項(xiàng)運(yùn)行項(xiàng)目,如圖3所示。 圖2 選擇"Run'wordhelper'" 即可運(yùn)行程序如圖3所示的系統(tǒng)主界面。在該界面中,通過(guò)頂部的工具欄可以選擇所要進(jìn)行的操作。 圖3 系統(tǒng)主界面 具體的操作步驟如下:(1)導(dǎo)入Excel。單擊工具欄中的"導(dǎo)入Excel"按鈕,打開(kāi)文件對(duì)話(huà)框選擇文件夾,如XS1文件夾,系統(tǒng)將遍歷該文件夾中的*.xls文件,并且將文件添加到列表區(qū),效果如圖4所示。 圖4 導(dǎo)入Excel文件 (2)提取列數(shù)據(jù)。單擊工具欄中的"提取列數(shù)據(jù)"按鈕,提取買(mǎi)家會(huì)員名、收貨人姓名、聯(lián)系手機(jī)和寶貝標(biāo)題,效果如圖5所示。提取后的數(shù)據(jù)將保存在程序所在目錄下的mycell.xls文件中。 圖5 提取列數(shù)據(jù) 說(shuō)明:"輸出選項(xiàng)"可以選擇數(shù)據(jù)分析結(jié)果要保存的位置,默認(rèn)是程序所在文件夾。 (3)定向篩選。
展開(kāi)
Abaqus-利用python處理有多個(gè)instances的odb文件,得到inp模型數(shù)據(jù)用于前處理
很多情況下需要得到該odb模型數(shù)據(jù),并將其導(dǎo)入hypermesh進(jìn)行前處理。如果直接從abaqus中得到odb模型數(shù)據(jù)的inp輸入導(dǎo)入到hypermesh中,會(huì)有重合節(jié)點(diǎn)和單元報(bào)錯(cuò),然而利用python可以解決該問(wèn)題。
Python數(shù)據(jù)處理圖1
Python數(shù)據(jù)處理PDF高清文檔免費(fèi)下載
本書(shū)采用基于項(xiàng)目的方法,介紹用Python完成數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)探索、數(shù)據(jù)呈現(xiàn)、數(shù)據(jù)規(guī)模化和自動(dòng)化的過(guò)程。 包括:Python基礎(chǔ)知識(shí),如何從CSV、Excel、XML、JSON和PDF文件中提取數(shù)據(jù),如何獲取與存儲(chǔ)數(shù)據(jù),各種數(shù)據(jù)清洗與分析技術(shù),數(shù)據(jù)可視化方法,如何從網(wǎng)站和API中提取數(shù)據(jù)
Abaqus_Python處理結(jié)點(diǎn)數(shù)據(jù)提取、場(chǎng)變量云圖輸出 ¥1.99
今天體會(huì)了Python腳本操作ODB文件進(jìn)行數(shù)據(jù)的輸出、處理等方面的快速高效。 首先介紹一下背景,同事的項(xiàng)目,計(jì)算case較多。每個(gè)case需要輸出幾個(gè)路徑上的部分節(jié)點(diǎn)值,而且需要針對(duì)不同的case、不同的幀、不同的視角截圖、保存云圖,如果人工出圖和提取節(jié)點(diǎn)數(shù)據(jù),工作量會(huì)非常大,費(fèi)時(shí)會(huì)遠(yuǎn)遠(yuǎn)超出計(jì)算所用時(shí)間;并且,同事還要求我根據(jù)case名稱(chēng)、組件名稱(chēng)(模型有多個(gè)組件組成,且網(wǎng)格是在part上畫(huà)的,所以同一個(gè)節(jié)點(diǎn)編號(hào)可能對(duì)應(yīng)多個(gè)節(jié)點(diǎn))等保存成不同的文件。 結(jié)點(diǎn)溫度數(shù)據(jù)沒(méi)有保存,因此沒(méi)有輸出。下圖是自動(dòng)輸出的png格式云圖。 比較倉(cāng)促,代碼也比價(jià)粗糙。回頭做一個(gè)詳細(xì)的介紹。 主要代碼見(jiàn)下。
展開(kāi)
Abaqus利用python編程進(jìn)行仿真結(jié)果(odb)數(shù)據(jù)圖片批量處理的案例講解
Abaqus:利用python編程進(jìn)行仿真結(jié)果(odb)數(shù)據(jù)圖片批量處理案例講解(下)
Abaqus Python 二次開(kāi)發(fā)-歷程輸出數(shù)據(jù)提取的python實(shí)現(xiàn) ¥3.49
此時(shí),如果想提取數(shù)據(jù),一些關(guān)于Abaqus 二次開(kāi)發(fā)的書(shū)籍里提供的方式是:odb.step['Step-1'].historyRegions['Node PART-TRIMMED-MESH.288422']. historyOutputs['U1'].data 。這種方式,需要輸入 'Node PART-TRIMMED-MESH.288422' 這種很長(zhǎng)的字符串,繁瑣且容易出錯(cuò)。 在付費(fèi)內(nèi)容中,提供了一種便捷的方法,得到長(zhǎng)字符串,提取相關(guān)的數(shù)據(jù),并將數(shù)據(jù)保存為csv文件。
展開(kāi)
Python二次開(kāi)發(fā)—?jiǎng)?chuàng)建輸出數(shù)據(jù)庫(kù)并添加數(shù)據(jù)
本期內(nèi)容轉(zhuǎn)載本人公眾號(hào): 易木木響叮當(dāng),源代碼可在公眾號(hào)內(nèi)回復(fù): 創(chuàng)建數(shù)據(jù)庫(kù),即可自動(dòng)獲取 。 Python二次開(kāi)發(fā)更新啦~ 最近由于木木學(xué)業(yè)壓力比較大,故更文速度有點(diǎn)小慢,請(qǐng)大家諒解諒解。廢話(huà)不多說(shuō),進(jìn)入今天的正題: 本期內(nèi)容將編寫(xiě)腳本創(chuàng)建輸出數(shù)據(jù)庫(kù),并向其中添加模型數(shù)據(jù)、場(chǎng)數(shù)據(jù)和歷史數(shù)據(jù),在后處理模塊中顯示位移場(chǎng)變量計(jì)算結(jié)果,最后保存ODB文件。源腳本來(lái)自于曹老師的《Python語(yǔ)言在Abaqus中的應(yīng)用》,好書(shū)值得推薦! 編程思路: 導(dǎo)入相應(yīng)模塊。本例中將創(chuàng)建輸出數(shù)據(jù)庫(kù),并向其中添加數(shù)據(jù),于是應(yīng)添加:odbAccess、odbMaterial、odbSection、和abaqusConstants等模塊; 創(chuàng)建輸出數(shù)據(jù)庫(kù)時(shí),數(shù)據(jù)庫(kù)不包含任何模型需要調(diào)用相應(yīng)函數(shù)構(gòu)造對(duì)象。一般情況下需要?jiǎng)?chuàng)建以下對(duì)象:材料屬性(Material模塊)、截面(Section模塊)、部件實(shí)例(Assembly模塊)、分析步和幀(Step模塊)、節(jié)點(diǎn)和單元(Mesh模塊); 向輸出數(shù)據(jù)庫(kù)中添加場(chǎng)數(shù)據(jù)和歷程數(shù)據(jù),本例中只向輸出數(shù)據(jù)庫(kù)中添加了節(jié)點(diǎn)位移,場(chǎng)輸出為默認(rèn)輸出; 創(chuàng)建完數(shù)據(jù)庫(kù)后,應(yīng)調(diào)用save( )方法保存數(shù)據(jù)庫(kù)文件,然后調(diào)用close( )方法關(guān)閉文件。 在Abaqus操作如下:點(diǎn)擊File,Run Script, 若CAE界面下方出現(xiàn): New output database has been created successfully! You can view the odb_Create_ODB.odb file in the visualization module!
展開(kāi)
【高速傳輸】數(shù)據(jù)量激增,處理吃緊?高速光纖通信板實(shí)現(xiàn)的大數(shù)據(jù)高速處理方案
作為參考,表4給出了每個(gè)產(chǎn)品對(duì)內(nèi)存的500MB數(shù)據(jù)的寫(xiě)入和讀取時(shí)間。 表4 每個(gè)產(chǎn)品的數(shù)據(jù)寫(xiě)入時(shí)間和讀取時(shí)間 應(yīng)用示例 圖8 一臺(tái)相機(jī)和一個(gè)采集卡的硬件配置圖。 圖9 使用1臺(tái)PC時(shí)的節(jié)拍時(shí)間。 在使用1臺(tái)PC連接一臺(tái)相機(jī)和一個(gè)采集卡的一般環(huán)境中,獲取影像的順序?yàn)榈?個(gè)圖像采集→第1個(gè)圖像處理→第2個(gè)圖像采集→第2個(gè)圖像處理,由此連續(xù)獲取影像。 假如有如圖8所示的設(shè)置,將設(shè)備轉(zhuǎn)換為高分辨率、高速相機(jī),則可能會(huì)因數(shù)據(jù)增加導(dǎo)致數(shù)據(jù)處理時(shí)間延遲,從而降低生產(chǎn)量。 圖10 分散式處理示例。 圖11 使用3臺(tái)PC時(shí)的節(jié)拍時(shí)間。 圖10顯示了一臺(tái)相機(jī)對(duì)三臺(tái)PC的分散式處理。 如圖11所示,相機(jī)正在獲取數(shù)據(jù),通過(guò)在PC1、PC2和PC3依次處理從相機(jī)輸入的圖像數(shù)據(jù),以此來(lái)縮短整體生產(chǎn)節(jié)拍時(shí)間。 圖12 節(jié)拍時(shí)間比較。 如圖12顯示,使用3臺(tái)PC時(shí)的處理速度,比使用1臺(tái)PC時(shí)快約2.5倍。 可見(jiàn),分散式處理的在高速傳輸高分辨率數(shù)據(jù)的情況下,優(yōu)勢(shì)明顯。用戶(hù)可根據(jù)自身應(yīng)用目的,進(jìn)行分散式處理或集中處理。 在分散式處理的情況下,如圖13所示,將一臺(tái)相機(jī)拍攝的圖像數(shù)據(jù)傳輸?shù)饺齻€(gè)節(jié)點(diǎn)。 圖13 分散式處理示例 在集中處理的情況下,如圖14所示,三臺(tái)相機(jī)的影像數(shù)據(jù)被傳輸?shù)揭粋€(gè)節(jié)點(diǎn),作為一個(gè)集中過(guò)程進(jìn)行處理。 圖14 集中處理示例 結(jié)論 GiGA系列是基于光通信進(jìn)行數(shù)據(jù)處理的板卡,它可以傳輸大量數(shù)據(jù)以及圖像,因此應(yīng)用范圍廣泛。
展開(kāi)
Python數(shù)據(jù)處理圖2
Python零基礎(chǔ)入門(mén)Python數(shù)據(jù)分析最好的實(shí)戰(zhàn)項(xiàng)目
總結(jié) 本次分享旨在讓大家了解如何用Python做一個(gè)簡(jiǎn)單的數(shù)據(jù)分析,對(duì)于剛剛接觸數(shù)據(jù)分析的朋友無(wú)疑是一個(gè)很好的練習(xí)。不過(guò),這個(gè)分析還存在很多問(wèn)題需要解決,比如: 解決爬蟲(chóng)獲取的數(shù)據(jù)源準(zhǔn)確度問(wèn)題; 需要爬取或者尋找更多好的售房特征; 需要做更多地特征工程工作,比如數(shù)據(jù)清洗,特征選擇和篩選; 使用統(tǒng)計(jì)模型建立回歸模型進(jìn)行價(jià)格預(yù)測(cè);
垃圾一樣的數(shù)據(jù),含淚也要處理完呀~Matlab讓你提高數(shù)據(jù)處理效率!
它通過(guò)最小化誤差的平方和尋找數(shù)據(jù)的最佳函數(shù)匹配。利用最小二乘法可以簡(jiǎn)便地求得未知的數(shù)據(jù)并使得這些求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小。 那么對(duì)于任意的x值,就會(huì)有一個(gè)實(shí)際值y和一個(gè)擬合值y’,那么對(duì)于所有的x值,最小二乘的就是求解下面公式的最小值: 比如用一次函數(shù)y=ax+b來(lái)擬合,系數(shù)a、b的值就要通過(guò)不斷計(jì)算,使得誤差的平方和最小來(lái)確定。 如果你已知數(shù)據(jù)趨勢(shì),例如低碳鋼拉伸曲線(xiàn),或者擬合工具箱里的基本函數(shù)已經(jīng)不能滿(mǎn)足需求,也可以自定義曲線(xiàn)函數(shù)來(lái)擬合數(shù)據(jù)噠,我給大家提供一個(gè)算例,關(guān)注公眾號(hào),后臺(tái)回復(fù)“擬合”,即可領(lǐng)取啦! 上面是我處理后的兩張基坑排樁變形圖象呢,有人覺(jué)得這樣圖很丑,那就對(duì)了。畢導(dǎo)也說(shuō)過(guò):學(xué)術(shù)界是一個(gè)以丑為美的領(lǐng)域,沒(méi)有那么多的花里胡哨啦!學(xué)術(shù)圖表配色原則和理工男穿衣搭配原則是類(lèi)似的! 當(dāng)然數(shù)據(jù)處理是為了總結(jié)規(guī)律,切不可為了強(qiáng)湊規(guī)律而偽造數(shù)據(jù),畢竟我們要尊重科學(xué)!
展開(kāi)
Python零基礎(chǔ)入門(mén)數(shù)據(jù)分析實(shí)戰(zhàn)之小費(fèi)數(shù)據(jù)集應(yīng)用
一、數(shù)據(jù)來(lái)源 本節(jié)選用的是Python的第三方庫(kù)seaborn自帶的數(shù)據(jù)集,該小費(fèi)數(shù)據(jù)集為餐飲行業(yè)收集的數(shù)據(jù),其中total_bill為消費(fèi)總金額、tip為小費(fèi)金額、sex為顧客性別、smoker為顧客是否吸煙、day為消費(fèi)的星期、time為聚餐的時(shí)間段、size為聚餐人數(shù)。 import numpy as np from pandas import Series,DataFrame import pandas as pd import seaborn as sns #導(dǎo)入seaborn庫(kù) tips=sns.load_dataset('tips') #seaborn庫(kù)自帶的數(shù)據(jù)集 tips.head() 二、問(wèn)題探索 小費(fèi)金額與消費(fèi)總金額是否存在相關(guān)性? 性別、是否吸煙、星期幾、聚餐人數(shù)和小費(fèi)金額是否有一定的關(guān)聯(lián)? 小費(fèi)金額占小費(fèi)總金額的百分比是否服從正態(tài)分布? 三、數(shù)據(jù)清洗 tips.shape #數(shù)據(jù)集的維度 (244,7) 共有244條數(shù)據(jù),7列。 tips.describe() #描述統(tǒng)計(jì) 描述統(tǒng)計(jì)結(jié)果如上所示。 tips.info() #查看缺失值信息 此例無(wú)缺失值。 四、數(shù)據(jù)探索 tips.plot(kind='scatter',x='total_bill',y='tip') #繪制散點(diǎn)圖 由圖可看出,小費(fèi)金額與消費(fèi)總金額存在正相關(guān)性。
展開(kāi)
基于Python向Abaqus導(dǎo)入txt、dat數(shù)據(jù)(附abaqus中python二次開(kāi)發(fā)課程)
這次推送聚焦于解決采用Python向Abaqus里導(dǎo)入txt、dat數(shù)據(jù)的問(wèn)題(dat文件只需要將txt文件的后綴名改為dat就可以生成dat文件),Abaqus基于Python讀入txt、dat數(shù)據(jù)主要有read()、readlines()、readlines()、numpy.loadtxt()函數(shù),導(dǎo)入的txt文件放在工作目錄temp中。 1. read() 函數(shù) 可以一次性讀取txt文件中的內(nèi)容,并以字符串的結(jié)果返回來(lái),如下列代碼所示: with open("xyplot.dat", "r") as f: #打開(kāi)文件 data = f.read() #讀取文件 print(data) 其中, r是讀取人工書(shū)寫(xiě)的數(shù)據(jù),書(shū)寫(xiě)的時(shí)候是什么樣子,讀出來(lái)就是什么樣。 rb是讀取二進(jìn)制文件,非人工書(shū)寫(xiě)的數(shù)據(jù),如.jpeg等這些。 將該命令在Abaqus/CAE的命令行接口(Command Line Interface, CLI)運(yùn)行后,結(jié)果如圖1所示(圖中#注釋后的亂碼為作者安裝abaqus采用英文版,沒(méi)有漢化所致): 圖1 read()讀取txt、dat數(shù)據(jù)到Abaqus 需要注意的是,以上data數(shù)據(jù)類(lèi)型都是為字符,如下圖所示。調(diào)用data[0]為字符,因此data[0][0]也為字符,以及后續(xù)的data[20][0],data[60][0]等也都為字符。
展開(kāi)