利用爬蟲自動(dòng)計(jì)算知網(wǎng)文獻(xiàn)引用次數(shù)的杰卡德相似性指數(shù)
一。背景介紹
Jaccard相似指數(shù)用來(lái)度量?jī)蓚€(gè)集合之間的相似性,它被定義為兩個(gè)集合交集的元素個(gè)數(shù)除以并集的元素個(gè)數(shù),值為0表示無(wú)相關(guān)性,值為1表示完全一致。對(duì)于兩篇論文a和b來(lái)說(shuō),如果用A表示a的被引用次數(shù),用B表示b的被引用次數(shù),則AB的杰卡德相似指數(shù)為:

從而,如果需要得到AB的杰卡德相似指數(shù),我們只需要知道A、B以及a和b的共引用次數(shù),其中A或者B可以通過(guò)知網(wǎng)的這個(gè)頁(yè)面查看:
獲取a和b的共引用次數(shù)比較麻煩,需要選中兩篇文獻(xiàn)再進(jìn)行分析得出,如下圖所示:

如果需要求得文獻(xiàn)數(shù)目比較少,手動(dòng)點(diǎn)擊也是ok的,可是如果需要對(duì)某個(gè)數(shù)據(jù)集(例如給定的100篇文獻(xiàn))來(lái)進(jìn)行求解,則會(huì)異常麻煩,這時(shí)候就需要用到咱們的爬蟲技術(shù)咯~~
二。代碼介紹
開發(fā)工具組合采用的是pycharm+requests組合進(jìn)行爬蟲,另外還用了pandas+chardet以及python自帶的一些庫(kù)。首先F12打開前端代碼,找到我們需要的數(shù)據(jù),然后用以下函數(shù)獲取該數(shù)據(jù):
之后,再對(duì)數(shù)據(jù)進(jìn)行加工處理既可以完成。
最后,歡迎有爬蟲需求的小伙伴或者擅長(zhǎng)爬蟲的小伙伴關(guān)注我們的微信公眾號(hào)聯(lián)系我們。
公眾號(hào):320科技工作室
工程師必備
- 項(xiàng)目客服
- 培訓(xùn)客服
- 平臺(tái)客服
TOP




















