網絡爬蟲實戰1-豆瓣top250影片名稱提?。?3)

00 什么是網絡爬蟲

網絡爬蟲,簡單來說,就是讓程序從網頁上爬取信息。也許一兩個網頁的信息,瀏覽者可以自己閱讀,但面對大量數據時,無疑需要網絡爬蟲為我們爬取并整理出來,方便我們查看和分析。

01 requests庫

requests庫用于下載網頁,

在python中的安裝方法是:pip install requests

使用時:import requests

02 bs4庫的BeautifulSoup模塊

BeautifulSoup用于解析HTML文本,

安裝方法是:pip install bs4

使用時: from bs4 import BeautifulSoup

03 實戰-爬取豆瓣top250影片名稱

廢話少說,進入實戰;

豆瓣top250電影網站:

第一頁:https://movie.douban.com/top250?start=0&filter=

第二頁:https://movie.douban.com/top250?start=25&filter=

第三頁:https://movie.douban.com/top250?start=50&filter=

01 導入模塊;

import requests
from bs4 import BeautifulSoup

02 定義請求頭,從瀏覽器中可以獲得相關信息,筆者的瀏覽器信息如下;

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:47.0)\
    Gecko/20100101 Firefox/47.0','Host': 'movie.douban.com'}

03 定義影片列表,暫時為空,用于寫入影片名稱;

movielist=[]

04 遍歷TOP250電影的10個網頁,注意URL上文的規律;

觀察網頁源代碼,HTML文件;

網絡爬蟲實戰1-豆瓣top250影片名稱提?。?3)的圖1

for i in range(10):
        link='https://movie.douban.com/top250?start='+str(i*25)  #URL
        re=requests.get(link,headers=headers,timeout=10) #下載網頁
        soup=BeautifulSoup(re.text,'lxml') #用lxml解析HTML文本
        divlist=soup.find_all('div',class_='hd') #遍歷網頁

        for j in divlist:
            movie=j.a.span.text.strip()
            movielist.append(movie)

查看movielist

網絡爬蟲實戰1-豆瓣top250影片名稱提取(03)的圖2

網絡爬蟲實戰1-豆瓣top250影片名稱提?。?3)的圖3

登錄后免費查看全文
立即登錄
App下載
技術鄰APP
工程師必備
  • 項目客服
  • 培訓客服
  • 平臺客服

TOP

1