不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

近鄰算法

關(guān)注
創(chuàng)建者:匿名 創(chuàng)建時間:2021-08-30
近鄰算法圖1

近鄰算法的實例教程

關(guān)鍵詞:人工智能, 算法 1. 算法簡介1.1 距離公式1.2 K值的選擇1.3 其它概念2. 實例:鳶尾花種類預(yù)測 1. 算法簡介 核心理念:根據(jù)你的鄰居來推斷出你的類別。 定義: 如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。 簡單講就是定義一組變量描述一個類,定義一種距離計算公式描述各個實例之間的差異大小,如果被推測的實例與某些已知目標值的實例最近(距離公式最短等),那么則仍為被推測實例的目標值也是該值。 K 近鄰算法使用的模型實際上對應(yīng)于對特征空間的劃分。距離度量、K 值的選擇和分類決策規(guī)則是該算法的三個基本要素。 適用范圍: 字符識別、文本分類、圖像識別等領(lǐng)域。 實現(xiàn)流程: 計算已知類別數(shù)據(jù)集中點與當(dāng)前點之間的距離。 按距離遞增次序排序。 選取與當(dāng)前點距離最小的k個點。 統(tǒng)計前k個點所在的類別出現(xiàn)的頻率。 返回前k個點出現(xiàn)頻率最高的類別作為當(dāng)前點的預(yù)測分類。 1.1 距離公式 距離公式在k近鄰算法中扮演著至關(guān)重要的角色,直接影響最終預(yù)測結(jié)果。常見的距離公式有: 歐式距離 曼哈頓距離 契比雪夫距離 閔可夫斯基距離 上述四種距離計算公式,都將各分量的量綱忽略了,也沒有考慮各分量的分布。 標準化歐式距離 余弦距離 向量夾角的余弦值,越接近與+1表明夾角越小,越接近于-1表明夾角越大。 漢明距離 兩個等長字符串s1與s2的漢明距離為:將其中一個變?yōu)榱硗庖粋€所需要做的最小字符替換次數(shù)。
展開
《鍛造行業(yè)智能制造發(fā)展回顧及新技術(shù)展望》(上)見《鍛造與沖壓》2020 年第19 期 K 近鄰算法在鍛造領(lǐng)域的研究 人工智能中的機器學(xué)習(xí) 圖7 人工智能的劃分領(lǐng)域 人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué),該領(lǐng)域的研究包含計算智能、機器感知、機器學(xué)習(xí)等,如圖7 所示。機器學(xué)習(xí)作為人工智能的一類,它是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。機器學(xué)習(xí)專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識或技能,重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。機器學(xué)習(xí)在工業(yè)中的典型應(yīng)用場景為:工況模式識別、設(shè)備故障診斷、產(chǎn)品質(zhì)量分類等。本文將從機器學(xué)習(xí)中的K 近鄰算法來對鍛造領(lǐng)域進行研究與探討。 K 近鄰算法 K 近鄰法(k-nearest neiors)是機器學(xué)習(xí)中較基礎(chǔ)的一類算法,它是由Cover 和Hart 于1968 年提出的,是懶惰學(xué)習(xí)(lazy learning)的著名代表。K 近鄰算法中每個數(shù)據(jù)都存在一個標簽(label),即數(shù)據(jù)的最終特征,此外還包含了影響數(shù)據(jù)特征的各影響因素,K 近鄰算法的工作機制如下:首先給定一個測試樣本,計算它到訓(xùn)練樣本的距離,然后取離測試樣本最近的k 個訓(xùn)練樣本,最終用“投票法”選出在這k個樣本中出現(xiàn)最多的類別,就是預(yù)測的結(jié)果。樣本可以根據(jù)比例分為訓(xùn)練集與測試集,訓(xùn)練集負責(zé)用于模型的訓(xùn)練,測試集負責(zé)模型的實際測試,測試集中測試成功數(shù)量與測試集總數(shù)量之比為準確率,準確率也是衡量K 近鄰算法好壞的唯一標準。圖8 是筆者運用傳統(tǒng)K 近鄰算法訓(xùn)練傳統(tǒng)Mnist 數(shù)據(jù)集的程序。
展開
分析KNN算法不同參數(shù)設(shè)置對模型預(yù)測精度的影響 數(shù)據(jù)來源于:https://software.intel.com/content/www/cn/zh/develop/training/course-machine-learning.html 數(shù)據(jù)文件、源程序等均可在QQ群517718332中下載。 第一步:獲取數(shù)據(jù) 導(dǎo)入數(shù)據(jù); 觀察數(shù)據(jù)格式; 對數(shù)據(jù)進行初步的處理,比如刪除一些沒有意義的特征,替換一些缺失值等。 # 導(dǎo)入模塊 import pandas as pd import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelBinarizer,MinMaxScaler from sklearn.model_selection import GridSearchCV from sklearn.neiors import KNeiorsClassifier import numpy as np import matplotlib.pyplot as plt # 導(dǎo)入數(shù)據(jù) file_path = ".
展開
手機垃圾短信過濾,就是分類算法給短信打的標簽,比如0代表正常短信,1代表垃圾短信。 在醫(yī)學(xué)領(lǐng)域,根據(jù)影像檢查判斷腫瘤是良性還是惡性。在工業(yè)領(lǐng)域,根據(jù)設(shè)備工作特征做故障診斷。在材料領(lǐng)域,根據(jù)配方快速預(yù)測新材料的特性是否符合要求。 前面這些例子大多是二分類,即只有兩個標簽,更細的還有多分類。 比如電子郵件分為正常郵件、廣告郵件、垃圾郵件或釣魚郵件。貸款風(fēng)險評估,分類為高風(fēng)險中風(fēng)險低風(fēng)險。工廠的質(zhì)量控制,分類為一級品、二級品以及廢品。 二、分類算法 分類算法的核心邏輯是找到數(shù)據(jù)中特征與標簽之間的映射關(guān)系。簡單來說,就是找到一個“函數(shù)”,根據(jù)輸入數(shù)據(jù)的特征,準確地判斷數(shù)據(jù)所屬的類別。 根據(jù)算法原理和實現(xiàn)方式,分類算法可以分為線性算法,非線性算法和集成學(xué)習(xí)算法。這三類算法分別適合不同的建模場景,訓(xùn)練出的模型復(fù)雜度一般也越來越高。 針對每一大類,數(shù)據(jù)建模軟件DTEmpower也內(nèi)置了多種算法。 比如線性算法里的邏輯回歸算法Logistic,它的優(yōu)點是簡單高效計算成本低,且可解釋性強,比如你能通過模型看出某個特征的重要性。 但線性算法更適合特征與目標變量之間存在線性關(guān)系的場景。所謂線性關(guān)系,就是因變量y可以寫成y=ax1+bx2+cx3...這種形式。 非線性分類算法里的比較著名的KNN,K近鄰算法。它的優(yōu)點是原理簡單且能處理非線性數(shù)據(jù),對異常值不敏感。但缺點就是計算效率低,處理大數(shù)據(jù)時比較慢,因此也更適合數(shù)據(jù)量不大且數(shù)據(jù)集維度不高的情況。 集成學(xué)習(xí)算法里,RandomForest隨機森林算法很有代表性,它最顯著的優(yōu)點是抗過擬合能力強。 所謂過擬合,指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)非常好,精度很高。但遇到新數(shù)據(jù),精度就崩了。 除了抗過擬合,隨機森林算法的魯棒性也很強。
展開
主要有下面幾種 1.基于統(tǒng)計的異常點檢測算法 (1).簡單統(tǒng)計分析: 比如對屬性值進行一個描述性的統(tǒng)計,從而查看哪些值是不合理的,比如針對年齡來說,我們規(guī)定范圍維 [0,100],則不在這個范圍的樣本,則就認為是異常樣本 (2).3δ原則(δ為方差): 當(dāng)數(shù)據(jù)服從正態(tài)分布:根據(jù)正態(tài)分布的定義可知,距離平均值3δ之外的概率為 P(|x-μ|>3δ) <= 0.003 ,這屬于極小概率事件,在默認情況下我們可以認定,距離超過平均值3δ的樣本是不存在的。 因此,當(dāng)樣本距離平均值大于3δ,則認定該樣本為異常值 (3).通過極差和四分位數(shù)間距,進行異常數(shù)據(jù)的檢測 2.基于距離的異常點檢測算法(其實和K近鄰算法的思想一樣) 主要通過距離方法來檢測異常點,將一個數(shù)據(jù)點與大多數(shù)點之間距離大于某個閾值的點視為異常點,主要使用的距離度量方法有絕對距離(曼哈頓距離)、歐氏距離和馬氏距離等方法 3.基于密度的異常點檢測算法 考察當(dāng)前點周圍密度,可以發(fā)現(xiàn)局部異常點 3.1.2缺失值處理 對于一個特征來說 如果所有樣本中的的缺失值極多,則可以直接去掉 如果缺失值不是很多,可以考慮用全局均值,或者中位數(shù)進行填充 將此特征作為目標,根據(jù)未缺失的數(shù)據(jù),利用相關(guān)算法模型,對缺失值進行預(yù)測 3.1.3數(shù)據(jù)采樣 數(shù)據(jù)采樣主要是為了處理樣本不均衡問題的。比如有些情況下,獲取來的數(shù)據(jù),正負樣本個數(shù)差距很大,而大多數(shù)模型對正負樣本比是敏感的(比如邏輯回歸),所以,需要通過數(shù)據(jù)采樣,來使數(shù)據(jù)正負樣本均衡 在處理樣本不均衡問題時,主要分為兩種情況 正負樣本個數(shù)差距很大,并且同時正負樣本個數(shù)本身也很大,這個時候可以采取下采樣方法。
展開
近鄰算法圖2

近鄰算法的最新內(nèi)容

非線性分類算法里的比較著名的KNN,K近鄰算法。它的優(yōu)點是原理簡單且能處理非線性數(shù)據(jù),對異常值不敏感。但缺點就是計算效率低,處理大數(shù)據(jù)時比較慢,因此也更適合數(shù)據(jù)量不大且數(shù)據(jù)集維度不高的情況。 集成學(xué)習(xí)算法里,RandomForest隨機森林算法很有代表性,它最顯著的優(yōu)點是抗過擬合能力強。 所謂過擬合,指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)非常好,精度很高。但遇到新數(shù)據(jù),精度就崩了。
問題描述 使用客戶特征數(shù)據(jù)預(yù)測客戶是否有流失的可能; 數(shù)據(jù)文件名稱Orange_Telecom_Churn_Data.csv。 分析KNN算法不同參數(shù)設(shè)置對模型預(yù)測精度的影響 數(shù)據(jù)來源于:https://software.intel.com/content/www/cn/zh/develop/training/course-machine-learning.html
1.1 距離公式 距離公式在k近鄰算法中扮演著至關(guān)重要的角色,直接影響最終預(yù)測結(jié)果。常見的距離公式有: 歐式距離 曼哈頓距離 契比雪夫距離 閔可夫斯基距離 上述四種距離計算公式,都將各分量的量綱忽略了,也沒有考慮各分量的分布。
算法的準確率高達97.41% 圖10 常規(guī)K 近鄰算法流程 K 近鄰算法中尋優(yōu)過程 ⑴超參數(shù)選擇。 K 近鄰算法并不是單一固定的算法,其中包含了諸多影響因素,而這些影響因素是影響算法優(yōu)劣的重要指標,本文將詳細介紹以下三類指標。 1) K 值。
因此,當(dāng)樣本距離平均值大于3δ,則認定該樣本為異常值 (3).通過極差和四分位數(shù)間距,進行異常數(shù)據(jù)的檢測 2.基于距離的異常點檢測算法(其實和K近鄰算法的思想一樣) 主要通過距離方法來檢測異常點,將一個數(shù)據(jù)點與大多數(shù)點之間距離大于某個閾值的點視為異常點,主要使用的距離度量方法有絕對距離(曼哈頓距離)、歐氏距離和馬氏距離等方法 3.基于密度的異常點檢測算法 考察當(dāng)前點周圍密度,可以發(fā)現(xiàn)局部異常點