久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

    <p id="vfaef"><kbd id="vfaef"></kbd></p>

    
    
    <pre id="vfaef"><u id="vfaef"></u></pre>

      <thead id="vfaef"><input id="vfaef"></input></thead>

    1. 站長(zhǎng)資訊網(wǎng)
      最全最豐富的資訊網(wǎng)站

      一文看懂Python爬蟲(chóng)

      本篇文章給大家?guī)?lái)了關(guān)于Python的相關(guān)知識(shí),其中主要介紹了關(guān)于爬蟲(chóng)的相關(guān)知識(shí),爬蟲(chóng)簡(jiǎn)單的來(lái)說(shuō)就是用程序獲取網(wǎng)絡(luò)上數(shù)據(jù)這個(gè)過(guò)程的一種名稱,下面一起來(lái)看一下,希望對(duì)大家有幫助。

      一文看懂Python爬蟲(chóng)

      爬蟲(chóng)是什么

      爬蟲(chóng)簡(jiǎn)單的來(lái)說(shuō)就是用程序獲取網(wǎng)絡(luò)上數(shù)據(jù)這個(gè)過(guò)程的一種名稱。

      爬蟲(chóng)的原理

      如果要獲取網(wǎng)絡(luò)上數(shù)據(jù),我們要給爬蟲(chóng)一個(gè)網(wǎng)址(程序中通常叫URL),爬蟲(chóng)發(fā)送一個(gè)HTTP請(qǐng)求給目標(biāo)網(wǎng)頁(yè)的服務(wù)器,服務(wù)器返回?cái)?shù)據(jù)給客戶端(也就是我們的爬蟲(chóng)),爬蟲(chóng)再進(jìn)行數(shù)據(jù)解析、保存等一系列操作。

      流程

      爬蟲(chóng)可以節(jié)省我們的時(shí)間,比如我要獲取豆瓣電影 Top250 榜單,如果不用爬蟲(chóng),我們要先在瀏覽器上輸入豆瓣電影的 URL ,客戶端(瀏覽器)通過(guò)解析查到豆瓣電影網(wǎng)頁(yè)的服務(wù)器的 IP 地址,然后與它建立連接,瀏覽器再創(chuàng)造一個(gè) HTTP 請(qǐng)求發(fā)送給豆瓣電影的服務(wù)器,服務(wù)器收到請(qǐng)求之后,把 Top250 榜單從數(shù)據(jù)庫(kù)中提出,封裝成一個(gè) HTTP 響應(yīng),然后將響應(yīng)結(jié)果返回給瀏覽器,瀏覽器顯示響應(yīng)內(nèi)容,我們看到數(shù)據(jù)。我們的爬蟲(chóng)也是根據(jù)這個(gè)流程,只不過(guò)改成了代碼形式。

      一文看懂Python爬蟲(chóng)

      HTTP請(qǐng)求

      HTTP 請(qǐng)求由請(qǐng)求行、請(qǐng)求頭、空行、請(qǐng)求體組成。

      一文看懂Python爬蟲(chóng)

      請(qǐng)求行由三部分組成:

      1.請(qǐng)求方法,常見(jiàn)的請(qǐng)求方法有 GET、POST、PUT、DELETE、HEAD
      2.客戶端要獲取的資源路徑
      3.是客戶端使用的 HTTP 協(xié)議版本號(hào)
      請(qǐng)求頭是客戶端向服務(wù)器發(fā)送請(qǐng)求的補(bǔ)充說(shuō)明,比如說(shuō)明訪問(wèn)者身份,這個(gè)下面會(huì)講到。

      請(qǐng)求體是客戶端向服務(wù)器提交的數(shù)據(jù),比如用戶登錄時(shí)需要提高的賬號(hào)密碼信息。請(qǐng)求頭與請(qǐng)求體之間用空行隔開(kāi)。請(qǐng)求體并不是所有的請(qǐng)求都有的,比如一般的GET都不會(huì)帶有請(qǐng)求體。

      上圖就是瀏覽器登錄豆瓣時(shí)向服務(wù)器發(fā)送的HTTP POST 請(qǐng)求,請(qǐng)求體中指定了用戶名和密碼。

      HTTP 響應(yīng)

      HTTP 響應(yīng)格式與請(qǐng)求的格式很相似,也是由響應(yīng)行、響應(yīng)頭、空行、響應(yīng)體組成。

      一文看懂Python爬蟲(chóng)

      響應(yīng)行也包含三部分,分別是服務(wù)端的 HTTP 版本號(hào)、響應(yīng)狀態(tài)碼和狀態(tài)說(shuō)明。

      這里狀態(tài)碼有一張表,對(duì)應(yīng)了各個(gè)狀態(tài)碼的意思

      一文看懂Python爬蟲(chóng)

      一文看懂Python爬蟲(chóng) 一文看懂Python爬蟲(chóng)

      第二部分就是響應(yīng)頭,響應(yīng)頭與請(qǐng)求頭對(duì)應(yīng),是服務(wù)器對(duì)該響應(yīng)的一些附加說(shuō)明,比如響應(yīng)內(nèi)容的格式是什么,響應(yīng)內(nèi)容的長(zhǎng)度有多少、什么時(shí)間返回給客戶端的、甚至還有一些 Cookie 信息也會(huì)放在響應(yīng)頭里面。

      第三部分是響應(yīng)體,它才是真正的響應(yīng)數(shù)據(jù),這些數(shù)據(jù)其實(shí)就是網(wǎng)頁(yè)的 HTML 源代碼。

      爬蟲(chóng)代碼怎么寫(xiě)

      爬蟲(chóng)可以用很多語(yǔ)言比如 Python、C++等等,但是我覺(jué)得Python是最簡(jiǎn)單的,

      因?yàn)镻ython有現(xiàn)成可用的庫(kù),已經(jīng)封裝到幾乎完美,

      C++雖然也有現(xiàn)成的庫(kù),但是它的爬蟲(chóng)還是比較小眾,僅有的庫(kù)也不足以算上簡(jiǎn)單,而且代碼在各個(gè)編譯器上,甚至同一個(gè)編譯器上不同版本的兼容性不強(qiáng),所以不是特別好用。所以今天主要介紹python爬蟲(chóng)。

      安裝requests庫(kù)

      cmd運(yùn)行:pip install requests ,安裝 requests。

      然后在 IDLE 或者編譯器(個(gè)人推薦 VS Code 或者 Pycharm )上輸入

      import requests 運(yùn)行,如果沒(méi)有報(bào)錯(cuò),證明安裝成功。

      安裝大部分庫(kù)的方法都是:pip install xxx(庫(kù)的名字)

      requests的方法

      requests.request() 構(gòu)造一個(gè)請(qǐng)求,支撐一下各方法的基本方法
      requests.get() 獲取HTML網(wǎng)頁(yè)的主要方法,對(duì)應(yīng)于HTTP的GET

      requests.head()

      獲取HTML網(wǎng)頁(yè)頭信息的方法,對(duì)應(yīng)于HTTP的HEAD

      requests.post() 向HTML網(wǎng)頁(yè)提交POST請(qǐng)求的方法,對(duì)應(yīng)于HTTP的POST
      requests.put() 向HTML網(wǎng)頁(yè)提交PUT請(qǐng)求的方法,對(duì)應(yīng)于HTTP的PUT
      requests.patch( ) 向HTML網(wǎng)頁(yè)提交局部修改請(qǐng)求,對(duì)應(yīng)于HTTP的PATCT
      requests.delete() 向HTML網(wǎng)頁(yè)提交刪除請(qǐng)求,對(duì)應(yīng)于HTTP的DELETE

      最常用的get方法

      r = requests.get(url)

      包括兩個(gè)重要的對(duì)象:

      構(gòu)造一個(gè)向服務(wù)器請(qǐng)求資源的Request對(duì)象;返回一個(gè)包含服務(wù)器資源的Response對(duì)象

      r.status_code HTTP請(qǐng)求的返回狀態(tài),200表示連接成功,404表示失敗
      r.text HTTP響應(yīng)內(nèi)容的字符串形式,即,url對(duì)應(yīng)的頁(yè)面內(nèi)容
      r.encoding 從HTTP header中猜測(cè)的響應(yīng)內(nèi)容編碼方式(如果header中不存在charset,則認(rèn)為編碼為ISO-8859-1)
      r.apparent_encoding 從內(nèi)容中分析的響應(yīng)內(nèi)容編碼方式(備選編碼方式)
      r.content HTTP響應(yīng)內(nèi)容的二進(jìn)制形式
      requests.ConnectionError 網(wǎng)絡(luò)連接錯(cuò)誤異常,如DNS查詢失敗、拒絕連接等
      requests.HTTPError HTTP錯(cuò)誤異常
      requests.URLRequired URL缺失異常
      requests.TooManyRedirects 超過(guò)最大重定向次數(shù),產(chǎn)生重定向異常
      requests.ConnectTimeout 連接遠(yuǎn)程服務(wù)器超時(shí)異常
      requests.Timeout 請(qǐng)求URL超時(shí),產(chǎn)生超時(shí)異常

      爬蟲(chóng)小demo

      requests是最基礎(chǔ)的爬蟲(chóng)庫(kù),但是我們可以做一個(gè)簡(jiǎn)單的翻譯

      我先把我做的一個(gè)爬蟲(chóng)的小項(xiàng)目的項(xiàng)目結(jié)構(gòu)放上,完整源碼可以私聊我下載。

      一文看懂Python爬蟲(chóng)

      下面是翻譯部分的源碼

      import requests def English_Chinese(): 	url = "https://fanyi.baidu.com/sug" 	s = input("請(qǐng)輸入要翻譯的詞(中/英):") 	dat = { 		"kw":s 		} 	resp = requests.post(url,data = dat)# 發(fā)送post請(qǐng)求 	ch = resp.json() # 將服務(wù)器返回的內(nèi)容直接處理成json => dict 	resp.close() 	dic_lenth = len(ch['data']) 	for i in range(dic_lenth): 		print("詞:"+ch['data'][i]['k']+" "+"單詞意思:"+ch['data'][i]['v'])
      登錄后復(fù)制

      代碼詳解:

      導(dǎo)入requests模塊,設(shè)置 url為百度翻譯網(wǎng)頁(yè)的網(wǎng)址。

      一文看懂Python爬蟲(chóng)

      然后通過(guò) post 方法發(fā)送請(qǐng)求,再把返回的結(jié)果打成一個(gè) dic (字典),但是這個(gè)時(shí)候我們打印出來(lái)結(jié)果發(fā)現(xiàn)是這樣的。

      一文看懂Python爬蟲(chóng)

      這是一個(gè)字典里套列表套字典的樣子,大概就是這樣的

      { xx:xx , xx:[ {xx:xx} , {xx:xx} , {xx:xx} , {xx:xx} ] }

      我標(biāo)紅的地方是我們需要的信息。

      假如說(shuō)我標(biāo)藍(lán)色的列表里面有 n 個(gè)字典,我們可以通過(guò) len() 函數(shù)獲取 n 的數(shù)值,

      并使用 for 循環(huán)遍歷,得到結(jié)果。

      dic_lenth = len(ch['data'] for i in range(dic_lenth):     print("詞:"+ch['data'][i]['k']+" "+"單詞意思:"+ch['data'][i]['v'])
      登錄后復(fù)制

      最后

      好了,今天的分享就到這里了,拜拜~

      哎?忘了一件事,再給你們一個(gè)爬取天氣的代碼!

      # -*- coding:utf-8 -*- import requests import bs4   def get_web(url):     header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59"}     res = requests.get(url, headers=header, timeout=5)     # print(res.encoding)     content = res.text.encode('ISO-8859-1')     return content   def parse_content(content):     soup = bs4.BeautifulSoup(content, 'lxml')      '''     存放天氣情況     '''     list_weather = []     weather_list = soup.find_all('p', class_='wea')     for i in weather_list:         list_weather.append(i.text)      '''     存放日期     '''     list_day = []     i = 0     day_list = soup.find_all('h1')     for each in day_list:         if i <= 6:             list_day.append(each.text.strip())             i += 1     # print(list_day)      '''     存放溫度:最高溫度和最低溫度     '''     tem_list = soup.find_all('p', class_='tem')     i = 0     list_tem = []     for each in tem_list:         if i == 0:             list_tem.append(each.i.text)             i += 1         elif i > 0:             list_tem.append([each.span.text, each.i.text])             i += 1     # print(list_tem)      '''     存放風(fēng)力     '''     list_wind = []     wind_list = soup.find_all('p', class_='win')     for each in wind_list:         list_wind.append(each.i.text.strip())     # print(list_wind)     return list_day, list_weather, list_tem, list_wind   def get_content(url):     content = get_web(url)     day, weather, tem, wind = parse_content(content)     item = 0     for i in range(0, 7):         if item == 0:             print(day[i]+':t')             print(weather[i]+'t')             print("今日氣溫:"+tem[i]+'t')             print("風(fēng)力:"+wind[i]+'t')             print('n')             item += 1         elif item > 0:             print(day[i]+':t')             print(weather[i] + 't')             print("最高氣溫:"+tem[i][0]+'t')             print("最低氣溫:"+tem[i][1] + 't')             print("風(fēng)力:"+wind[i]+'t')             print('n')
      登錄后復(fù)制

      贊(0)
      分享到: 更多 (0)
      網(wǎng)站地圖   滬ICP備18035694號(hào)-2    滬公網(wǎng)安備31011702889846號(hào)