
發布
注冊
/
登錄余弦相似度
關注創建者:320科技工作室 創建時間:2019-12-15

余弦相似度的實例教程
機器學習實踐指南》第2版比第1版增加了更多的案例和算法解析,全書詳細介紹了機器學習發展及應用前景、科學計算平臺、Python計算平臺應用、R語言計算平臺應用、生產環境基礎、統計分析基礎、描述性分析案例、假設檢驗與回歸模型案例、神經網絡、統計算法、歐氏距離與余弦相似度、SVM、回歸算法、PCA降維、關聯規則、聚類與分類算法、數據擬合案例、圖像算法案例、機器視覺案例、文本分類案例等機器學習實踐與應用。
首先文件被分解成單句,并由SentenceTransformers嵌入,計算所有可能句子組合的余弦相似度,然后用Lexrank進行排序。
2 LexRank
SentenceTransformers使用Lexrank庫尋找文件中最核心的句子,這些中心句子用來構成文檔總結。Lexrank庫的最新版本仍然停留在0.1.0(2018/5/03),自此以后沒有再更新。LexRank以基于圖的句子中心性評分,是一種無監督的文本總結方法。其中心思想是,句子向讀者 "推薦 "其他類似的句子。因此,如果一個句子與其他許多句子非常相似,那么它將可能是一個非常重要的句子。這個句子的重要性也源于 "推薦 "它的句子的重要性。因此,為了獲得高排名并被放在摘要中,一個句子必須與許多句子相似,而這些句子又與其他許多句子相似。這具有直觀的意義,并允許將算法應用于任何任意的新文本。Lexrank的算法源于2004年的一篇論文:
Laxrank通過輸入degree_centrality_scores計算句子之間的相似度。不過這個函數處于測試階段,不能直接用pip install Laxrank實現,必須手動下載源碼通過python setup.py install
安裝,然后配置路徑,這個過程挺麻煩的。
import syssys.path.append("./lexrank/lexrank")
把測試代碼放在F:\Geotech\mydata\sentence-transformers\lexrank
目錄下(text-summarization-1.py), 這樣才能正確輸入laxrank庫。
3 抽取式總結
Laxrank只是根據句子的重要性進行抽取式總結,對原句不做任何改動。
展開 基本概念
圖像相似度計算就是對兩幅圖片之間內容的相似程度進行打分,根據分數的高低來判斷圖像內容的相似程度,這也是圖像分類的基礎。如下面這幅圖像的兩位人頭虎身獸,用不同的算法進行相似度計算,相似度在60%~87%之間~~
二。算法總結
計算圖像相似度的算法有很多,常見的有以下幾種:
1。基于直方圖。直方圖能夠描述一幅圖像中顏色的全局分布,是一種入門級的圖像相似度計算方法。該算法計算過程很容易理解,首先對于兩幅圖像分別計算其直方圖,然后根據某種衡量標準進行比較,比較結果即為兩幅圖像的相似度。這種方法精度較差。
2。SSIM(結構相似性度量)。這是一種全參考的圖像質量評價指標,分別從亮度、對比度、結構三個方面度量圖像相似性。SSIM取值范圍[0, 1],值越大,表示圖像失真越小。在實際應用中,可以利用滑動窗將圖像分塊,令分塊總數為N,考慮到窗口形狀對分塊的影響,采用高斯加權計算每一窗口的均值、方差以及協方差,然后計算對應塊的結構相似度SSIM,最后將平均值作為兩圖像的結構相似性度量,即平均結構相似性SSIM。該方法通常用來衡量一張圖片壓縮后的失真度,比較少的用來計算兩圖的相似度。
3。cosin相似度(余弦相似度)。把圖片表示成一個向量,通過計算向量之間的余弦距離來表征兩張圖片的相似度。該方法運算量較大,但準確率尚可。
4。基于互信息(Mutual Information)。通過計算兩個圖片的互信息來表征他們之間的相似度,如果兩張圖片尺寸相同,還是能在一定程度上表征兩張圖片的相似性的。但是,大部分情況下圖片的尺寸不相同,如果把兩張圖片尺寸調成相同的話,又會讓原來很多的信息丟失,所以很難把握。經過實際驗證,此種方法不夠穩定。
展開 - 模塊5——嵌入技術與語義搜索:學習向量嵌入如何表示語義,余弦相似度和點積的工作原理,以及如何使用分塊策略、嵌入生成和基于相似度的檢索構建語義搜索流水線。實踐實驗:使用FAISS和Chroma構建語義搜索系統,比較不同的分塊策略,并評估檢索準確性。
- 模塊6——檢索增強生成(RAG):學習如何通過RAG架構、文檔攝入流水線、檢索器-生成器流程和上下文窗口管理,將大型語言模型與外部知識相結合,消除幻覺現象。實踐實驗:構建完整的RAG流水線,實現混合搜索,應用重排序策略,并進行帶引用的多文檔推理。
- 模塊7——工具調用與基于函數的大型語言模型:學習如何通過函數調用、結構化JSON輸出和基于API的工具,讓大型語言模型與真實系統交互,使模型能夠采取有意義的行動。實踐實驗:構建使用工具的智能體,實現無狀態和有狀態工具,添加驗證和錯誤處理,并創建具有可觀測性的多步驟工具鏈。
- 模塊8——智能體AI系統:專注于構建具有規劃、記憶、執行和自我修正能力的自主AI智能體,采用ReAct、規劃器-執行器和多智能體系統等架構。實踐實驗:構建自主智能體,實現長期記憶,支持任務分解,并添加人機協同(HITL)控制。
- 模塊9——全棧大型語言模型應用開發:學習如何將AI集成到真實應用中,使用基于FastAPI的后端、流式響應和前端聊天界面,同時管理跨會話的狀態、記憶和上下文。實踐實驗:構建帶有流式聊天、會話記憶、持久存儲和上下文修剪策略的全棧大型語言模型應用程序。
- 模塊10——評估、成本與性能優化:學習如何通過人工和自動化評估、準確性、相關性和真實性指標來衡量和優化AI系統,以及如何通過令牌優化、緩存和模型路由降低成本。實踐實驗:構建評估工具,實現響應緩存,比較不同的模型層級,并進行延遲和負載測試。
展開 借助于注意力模型的思想,計算當前幀與前后幀之間的每個空間位置余弦相似度作為自適應權重,使通過warp的特征圖與當前幀越近的權重越大。
該工作由于對每幀都做了特征提取,計算開支很大,檢測速度不高。優勢是檢測精度得到提升,ImageNet VID 任務冠軍方案就使用了上述兩種方法。
與目標跟蹤結合的方法
鏈接:
https://link.zhihu.com/?

余弦相似度的相關專題、標簽、搜索
余弦相似度的最新內容
- 模塊5——嵌入技術與語義搜索:學習向量嵌入如何表示語義,余弦相似度和點積的工作原理,以及如何使用分塊策略、嵌入生成和基于相似度的檢索構建語義搜索流水線。實踐實驗:使用FAISS和Chroma構建語義搜索系統,比較不同的分塊策略,并評估檢索準確性。
為:
其中,
是第i個通道的權值,cos為余弦相似度函數
借助于注意力模型的思想,計算當前幀與前后幀之間的每個空間位置余弦相似度作為自適應權重,使通過warp的特征圖與當前幀越近的權重越大。
該工作由于對每幀都做了特征提取,計算開支很大,檢測速度不高。優勢是檢測精度得到提升,ImageNet VID 任務冠軍方案就使用了上述兩種方法。
首先文件被分解成單句,并由SentenceTransformers嵌入,計算所有可能句子組合的余弦相似度,然后用Lexrank進行排序。
2 LexRank
SentenceTransformers使用Lexrank庫尋找文件中最核心的句子,這些中心句子用來構成文檔總結。Lexrank庫的最新版本仍然停留在0.1.0(2018/5/03),自此以后沒有再更新。
機器學習實踐指南》第2版比第1版增加了更多的案例和算法解析,全書詳細介紹了機器學習發展及應用前景、科學計算平臺、Python計算平臺應用、R語言計算平臺應用、生產環境基礎、統計分析基礎、描述性分析案例、假設檢驗與回歸模型案例、神經網絡、統計算法、歐氏距離與余弦相似度、SVM、回歸算法、PCA降維、關聯規則、聚類與分類算法、數據擬合案例、圖像算法案例、機器視覺案例、文本分類案例等機器學習實踐與應用。
cosin相似度(余弦相似度)。把圖片表示成一個向量,通過計算向量之間的余弦距離來表征兩張圖片的相似度。該方法運算量較大,但準確率尚可。
4。基于互信息(Mutual Information)。通過計算兩個圖片的互信息來表征他們之間的相似度,如果兩張圖片尺寸相同,還是能在一定程度上表征兩張圖片的相似性的。