發(fā)布

近鄰算法

關(guān)注

創(chuàng)建者：匿名創(chuàng)建時間：2021-08-30

近鄰算法的實例教程

關(guān)鍵詞：人工智能, 算法 1. 算法簡介1.1 距離公式1.2 K值的選擇1.3 其它概念2. 實例：鳶尾花種類預(yù)測 1. 算法簡介核心理念：根據(jù)你的鄰居來推斷出你的類別。定義：如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別，則該樣本也屬于這個類別。簡單講就是定義一組變量描述一個類，定義一種距離計算公式描述各個實例之間的差異大小，如果被推測的實例與某些已知目標值的實例最近（距離公式最短等），那么則仍為被推測實例的目標值也是該值。 K 近鄰算法使用的模型實際上對應(yīng)于對特征空間的劃分。距離度量、K 值的選擇和分類決策規(guī)則是該算法的三個基本要素。適用范圍：字符識別、文本分類、圖像識別等領(lǐng)域。實現(xiàn)流程：計算已知類別數(shù)據(jù)集中點與當(dāng)前點之間的距離。按距離遞增次序排序。選取與當(dāng)前點距離最小的k個點。統(tǒng)計前k個點所在的類別出現(xiàn)的頻率。返回前k個點出現(xiàn)頻率最高的類別作為當(dāng)前點的預(yù)測分類。 1.1 距離公式距離公式在k近鄰算法中扮演著至關(guān)重要的角色，直接影響最終預(yù)測結(jié)果。常見的距離公式有：歐式距離曼哈頓距離契比雪夫距離閔可夫斯基距離上述四種距離計算公式，都將各分量的量綱忽略了，也沒有考慮各分量的分布。標準化歐式距離余弦距離向量夾角的余弦值，越接近與+1表明夾角越小，越接近于-1表明夾角越大。漢明距離兩個等長字符串s1與s2的漢明距離為：將其中一個變?yōu)榱硗庖粋€所需要做的最小字符替換次數(shù)。

展開

鍛造行業(yè)智能制造發(fā)展回顧及新技術(shù)展望（下）

《鍛造行業(yè)智能制造發(fā)展回顧及新技術(shù)展望》（上）見《鍛造與沖壓》2020 年第19 期 K 近鄰算法在鍛造領(lǐng)域的研究人工智能中的機器學(xué)習(xí) 圖7 人工智能的劃分領(lǐng)域人工智能是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)，該領(lǐng)域的研究包含計算智能、機器感知、機器學(xué)習(xí)等，如圖7 所示。機器學(xué)習(xí)作為人工智能的一類，它是一門多領(lǐng)域交叉學(xué)科，涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。機器學(xué)習(xí)專門研究計算機怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為，以獲取新的知識或技能，重新組織已有的知識結(jié)構(gòu)使之不斷改善自身的性能。機器學(xué)習(xí)在工業(yè)中的典型應(yīng)用場景為：工況模式識別、設(shè)備故障診斷、產(chǎn)品質(zhì)量分類等。本文將從機器學(xué)習(xí)中的K 近鄰算法來對鍛造領(lǐng)域進行研究與探討。 K 近鄰算法 K 近鄰法(k-nearest neiors)是機器學(xué)習(xí)中較基礎(chǔ)的一類算法，它是由Cover 和Hart 于1968 年提出的，是懶惰學(xué)習(xí)(lazy learning)的著名代表。K 近鄰算法中每個數(shù)據(jù)都存在一個標簽(label)，即數(shù)據(jù)的最終特征，此外還包含了影響數(shù)據(jù)特征的各影響因素，K 近鄰算法的工作機制如下：首先給定一個測試樣本，計算它到訓(xùn)練樣本的距離，然后取離測試樣本最近的k 個訓(xùn)練樣本，最終用“投票法”選出在這k個樣本中出現(xiàn)最多的類別，就是預(yù)測的結(jié)果。樣本可以根據(jù)比例分為訓(xùn)練集與測試集，訓(xùn)練集負責(zé)用于模型的訓(xùn)練，測試集負責(zé)模型的實際測試，測試集中測試成功數(shù)量與測試集總數(shù)量之比為準確率，準確率也是衡量K 近鄰算法好壞的唯一標準。圖8 是筆者運用傳統(tǒng)K 近鄰算法訓(xùn)練傳統(tǒng)Mnist 數(shù)據(jù)集的程序。

展開

監(jiān)督學(xué)習(xí) K近鄰算法算例

分析KNN算法不同參數(shù)設(shè)置對模型預(yù)測精度的影響數(shù)據(jù)來源于：https://software.intel.com/content/www/cn/zh/develop/training/course-machine-learning.html 數(shù)據(jù)文件、源程序等均可在QQ群517718332中下載。第一步:獲取數(shù)據(jù) 導(dǎo)入數(shù)據(jù)；觀察數(shù)據(jù)格式；對數(shù)據(jù)進行初步的處理，比如刪除一些沒有意義的特征，替換一些缺失值等。 # 導(dǎo)入模塊 import pandas as pd import seaborn as sns from sklearn.model_selection import train_test_split from sklearn.preprocessing import LabelBinarizer,MinMaxScaler from sklearn.model_selection import GridSearchCV from sklearn.neiors import KNeiorsClassifier import numpy as np import matplotlib.pyplot as plt # 導(dǎo)入數(shù)據(jù) file_path = ".

展開

理論加案例，一文讀懂?dāng)?shù)據(jù)分析中的分類建模

手機垃圾短信過濾，就是分類算法給短信打的標簽，比如0代表正常短信，1代表垃圾短信。在醫(yī)學(xué)領(lǐng)域，根據(jù)影像檢查判斷腫瘤是良性還是惡性。在工業(yè)領(lǐng)域，根據(jù)設(shè)備工作特征做故障診斷。在材料領(lǐng)域，根據(jù)配方快速預(yù)測新材料的特性是否符合要求。前面這些例子大多是二分類，即只有兩個標簽，更細的還有多分類。比如電子郵件分為正常郵件、廣告郵件、垃圾郵件或釣魚郵件。貸款風(fēng)險評估，分類為高風(fēng)險中風(fēng)險低風(fēng)險。工廠的質(zhì)量控制，分類為一級品、二級品以及廢品。二、分類算法分類算法的核心邏輯是找到數(shù)據(jù)中特征與標簽之間的映射關(guān)系。簡單來說，就是找到一個“函數(shù)”，根據(jù)輸入數(shù)據(jù)的特征，準確地判斷數(shù)據(jù)所屬的類別。根據(jù)算法原理和實現(xiàn)方式，分類算法可以分為線性算法，非線性算法和集成學(xué)習(xí)算法。這三類算法分別適合不同的建模場景，訓(xùn)練出的模型復(fù)雜度一般也越來越高。針對每一大類，數(shù)據(jù)建模軟件DTEmpower也內(nèi)置了多種算法。比如線性算法里的邏輯回歸算法Logistic，它的優(yōu)點是簡單高效計算成本低，且可解釋性強，比如你能通過模型看出某個特征的重要性。但線性算法更適合特征與目標變量之間存在線性關(guān)系的場景。所謂線性關(guān)系，就是因變量y可以寫成y=ax1+bx2+cx3...這種形式。非線性分類算法里的比較著名的KNN，K近鄰算法。它的優(yōu)點是原理簡單且能處理非線性數(shù)據(jù)，對異常值不敏感。但缺點就是計算效率低，處理大數(shù)據(jù)時比較慢，因此也更適合數(shù)據(jù)量不大且數(shù)據(jù)集維度不高的情況。集成學(xué)習(xí)算法里，RandomForest隨機森林算法很有代表性，它最顯著的優(yōu)點是抗過擬合能力強。所謂過擬合，指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)非常好，精度很高。但遇到新數(shù)據(jù)，精度就崩了。除了抗過擬合，隨機森林算法的魯棒性也很強。

展開

機器學(xué)習(xí)之特征工程

主要有下面幾種 1.基于統(tǒng)計的異常點檢測算法 (1).簡單統(tǒng)計分析：比如對屬性值進行一個描述性的統(tǒng)計，從而查看哪些值是不合理的，比如針對年齡來說，我們規(guī)定范圍維 [0,100]，則不在這個范圍的樣本，則就認為是異常樣本 (2).3δ原則（δ為方差）: 當(dāng)數(shù)據(jù)服從正態(tài)分布：根據(jù)正態(tài)分布的定義可知，距離平均值3δ之外的概率為 P(|x-μ|>3δ) <= 0.003 ，這屬于極小概率事件，在默認情況下我們可以認定，距離超過平均值3δ的樣本是不存在的。因此，當(dāng)樣本距離平均值大于3δ，則認定該樣本為異常值 (3).通過極差和四分位數(shù)間距，進行異常數(shù)據(jù)的檢測 2.基于距離的異常點檢測算法（其實和K近鄰算法的思想一樣）主要通過距離方法來檢測異常點，將一個數(shù)據(jù)點與大多數(shù)點之間距離大于某個閾值的點視為異常點，主要使用的距離度量方法有絕對距離(曼哈頓距離)、歐氏距離和馬氏距離等方法 3.基于密度的異常點檢測算法考察當(dāng)前點周圍密度，可以發(fā)現(xiàn)局部異常點 3.1.2缺失值處理對于一個特征來說如果所有樣本中的的缺失值極多，則可以直接去掉如果缺失值不是很多，可以考慮用全局均值，或者中位數(shù)進行填充將此特征作為目標，根據(jù)未缺失的數(shù)據(jù)，利用相關(guān)算法模型，對缺失值進行預(yù)測 3.1.3數(shù)據(jù)采樣數(shù)據(jù)采樣主要是為了處理樣本不均衡問題的。比如有些情況下，獲取來的數(shù)據(jù)，正負樣本個數(shù)差距很大，而大多數(shù)模型對正負樣本比是敏感的（比如邏輯回歸），所以，需要通過數(shù)據(jù)采樣，來使數(shù)據(jù)正負樣本均衡在處理樣本不均衡問題時，主要分為兩種情況正負樣本個數(shù)差距很大，并且同時正負樣本個數(shù)本身也很大，這個時候可以采取下采樣方法。

展開

近鄰算法的相關(guān)專題、標簽、搜索

近鄰算法 KNN；K近鄰算法 A*算法折衷算法結(jié)冰算法 k近鄰算法近鄰傳播聚類算法在ｌｓｄｙｎａ中，有拉格朗日算法、歐拉算法和ａｌｅ算法三種處理連續(xù)體的算法退火算法遺傳算法顯示算法與隱式算法隱式算法顯式算法

近鄰算法的最新內(nèi)容

理論加案例，一文讀懂?dāng)?shù)據(jù)分析中的分類建模11個月前

非線性分類算法里的比較著名的KNN，K近鄰算法。它的優(yōu)點是原理簡單且能處理非線性數(shù)據(jù)，對異常值不敏感。但缺點就是計算效率低，處理大數(shù)據(jù)時比較慢，因此也更適合數(shù)據(jù)量不大且數(shù)據(jù)集維度不高的情況。集成學(xué)習(xí)算法里，RandomForest隨機森林算法很有代表性，它最顯著的優(yōu)點是抗過擬合能力強。所謂過擬合，指的是模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)非常好，精度很高。但遇到新數(shù)據(jù)，精度就崩了。

監(jiān)督學(xué)習(xí) K近鄰算法算例

問題描述使用客戶特征數(shù)據(jù)預(yù)測客戶是否有流失的可能；數(shù)據(jù)文件名稱Orange_Telecom_Churn_Data.csv。分析KNN算法不同參數(shù)設(shè)置對模型預(yù)測精度的影響數(shù)據(jù)來源于：https://software.intel.com/content/www/cn/zh/develop/training/course-machine-learning.html

01 K-近鄰算法介紹與實現(xiàn)

1.1 距離公式距離公式在k近鄰算法中扮演著至關(guān)重要的角色，直接影響最終預(yù)測結(jié)果。常見的距離公式有：歐式距離曼哈頓距離契比雪夫距離閔可夫斯基距離上述四種距離計算公式，都將各分量的量綱忽略了，也沒有考慮各分量的分布。

鍛造行業(yè)智能制造發(fā)展回顧及新技術(shù)展望（下）

算法的準確率高達97.41% 圖10 常規(guī)K 近鄰算法流程 K 近鄰算法中尋優(yōu)過程 ⑴超參數(shù)選擇。 K 近鄰算法并不是單一固定的算法，其中包含了諸多影響因素，而這些影響因素是影響算法優(yōu)劣的重要指標，本文將詳細介紹以下三類指標。 1) K 值。

機器學(xué)習(xí)之特征工程

因此，當(dāng)樣本距離平均值大于3δ，則認定該樣本為異常值 (3).通過極差和四分位數(shù)間距，進行異常數(shù)據(jù)的檢測 2.基于距離的異常點檢測算法（其實和K近鄰算法的思想一樣）主要通過距離方法來檢測異常點，將一個數(shù)據(jù)點與大多數(shù)點之間距離大于某個閾值的點視為異常點，主要使用的距離度量方法有絕對距離(曼哈頓距離)、歐氏距離和馬氏距離等方法 3.基于密度的異常點檢測算法考察當(dāng)前點周圍密度，可以發(fā)現(xiàn)局部異常點

不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

近鄰算法

近鄰算法的實例教程

近鄰算法的相關(guān)專題、標簽、搜索

近鄰算法的最新內(nèi)容

近鄰算法的相關(guān)專題、標簽、搜索