利用爬蟲自動(dòng)計(jì)算知網(wǎng)文獻(xiàn)引用次數(shù)的杰卡德相似性指數(shù)

一。背景介紹

    Jaccard相似指數(shù)用來(lái)度量?jī)蓚€(gè)集合之間的相似性,它被定義為兩個(gè)集合交集的元素個(gè)數(shù)除以并集的元素個(gè)數(shù),值為0表示無(wú)相關(guān)性,值為1表示完全一致。對(duì)于兩篇論文a和b來(lái)說(shuō),如果用A表示a的被引用次數(shù),用B表示b的被引用次數(shù),則AB的杰卡德相似指數(shù)為:

利用爬蟲自動(dòng)計(jì)算知網(wǎng)文獻(xiàn)引用次數(shù)的杰卡德相似性指數(shù)的圖1

    從而,如果需要得到AB的杰卡德相似指數(shù),我們只需要知道A、B以及a和b的共引用次數(shù),其中A或者B可以通過(guò)知網(wǎng)的這個(gè)頁(yè)面查看:

1.jpg

獲取a和b的共引用次數(shù)比較麻煩,需要選中兩篇文獻(xiàn)再進(jìn)行分析得出,如下圖所示:

2.jpg

3.jpg

如果需要求得文獻(xiàn)數(shù)目比較少,手動(dòng)點(diǎn)擊也是ok的,可是如果需要對(duì)某個(gè)數(shù)據(jù)集(例如給定的100篇文獻(xiàn))來(lái)進(jìn)行求解,則會(huì)異常麻煩,這時(shí)候就需要用到咱們的爬蟲技術(shù)咯~~

二。代碼介紹

    開發(fā)工具組合采用的是pycharm+requests組合進(jìn)行爬蟲,另外還用了pandas+chardet以及python自帶的一些庫(kù)。首先F12打開前端代碼,找到我們需要的數(shù)據(jù),然后用以下函數(shù)獲取該數(shù)據(jù):

4.png

之后,再對(duì)數(shù)據(jù)進(jìn)行加工處理既可以完成。

最后,歡迎有爬蟲需求的小伙伴或者擅長(zhǎng)爬蟲的小伙伴關(guān)注我們的微信公眾號(hào)聯(lián)系我們。

公眾號(hào):320科技工作室

登錄后免費(fèi)查看全文
立即登錄
App下載
技術(shù)鄰APP
工程師必備
  • 項(xiàng)目客服
  • 培訓(xùn)客服
  • 平臺(tái)客服

TOP

1