不知火舞的被虐|伊人天伊人天天综合网|博洛尼亚天气|任你懆这里只有精品4|久久美日韩精品久久|掌中之物漫画免费阅读观看|0丨d老妇

<object id="mpjuz"><blockquote id="mpjuz"></blockquote></object>

<optgroup id="mpjuz"><center id="mpjuz"><tr id="mpjuz"></tr></center></optgroup>

網絡爬蟲實戰1-豆瓣top250影片名稱提?。?3）

博集華仿

瀏覽：2911

00 什么是網絡爬蟲

網絡爬蟲，簡單來說，就是讓程序從網頁上爬取信息。也許一兩個網頁的信息，瀏覽者可以自己閱讀，但面對大量數據時，無疑需要網絡爬蟲為我們爬取并整理出來，方便我們查看和分析。

01 requests庫

requests庫用于下載網頁，

在python中的安裝方法是：pip install requests

使用時：import requests

02 bs4庫的BeautifulSoup模塊

BeautifulSoup用于解析HTML文本，

安裝方法是：pip install bs4

使用時： from bs4 import BeautifulSoup

03 實戰-爬取豆瓣top250影片名稱

廢話少說，進入實戰；

豆瓣top250電影網站：

第一頁：https://movie.douban.com/top250?start=0&filter=

第二頁：https://movie.douban.com/top250?start=25&filter=

第三頁：https://movie.douban.com/top250?start=50&filter=

01 導入模塊；

import requests
from bs4 import BeautifulSoup

02 定義請求頭，從瀏覽器中可以獲得相關信息，筆者的瀏覽器信息如下；

headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:47.0)\
Gecko/20100101 Firefox/47.0','Host': 'movie.douban.com'}

03 定義影片列表，暫時為空，用于寫入影片名稱；

movielist=[]

04 遍歷TOP250電影的10個網頁，注意URL上文的規律；

觀察網頁源代碼，HTML文件；

網絡爬蟲實戰1-豆瓣top250影片名稱提?。?3）的圖1

for i in range(10):
        link='https://movie.douban.com/top250?start='+str(i*25) #URL
        re=requests.get(link,headers=headers,timeout=10) #下載網頁
        soup=BeautifulSoup(re.text,'lxml') #用lxml解析HTML文本
        divlist=soup.find_all('div',class_='hd') #遍歷網頁

        for j in divlist:
            movie=j.a.span.text.strip()
            movielist.append(movie)

查看movielist

網絡爬蟲實戰1-豆瓣top250影片名稱提取（03）的圖2

網絡爬蟲實戰1-豆瓣top250影片名稱提?。?3）的圖3

登錄后免費查看全文

立即登錄

App下載

技術鄰APP
工程師必備

項目客服
培訓客服
平臺客服

TOP

<noscript id="c6o38"></noscript>