做爬蟲不用說,就是用python就好,一個requests
包走天下。但是呢,聽說golang中內(nèi)置的http
包非常牛逼,咱就是說不得整點活,也剛好學(xué)習(xí)學(xué)習(xí)新東西,復(fù)習(xí)下http協(xié)議的請求和響應(yīng)相關(guān)的知識點。話不多說,咱直接開整
本文章爬下必應(yīng)壁紙先小試牛刀。狗頭保命 狗頭保命 狗頭保命
爬蟲流程概述
graph TD 請求數(shù)據(jù) --> 解析數(shù)據(jù) --> 數(shù)據(jù)入庫
登錄后復(fù)制
上圖的流程圖大家可以看到,其實爬蟲并不麻煩,整個流程就只有三步而已。接下來具體聊聊每一步需要做什么
-
請求數(shù)據(jù):在這里我們需要使用golang中的內(nèi)置包http包向目標(biāo)地址發(fā)起請求,這一步就完成了
-
解析數(shù)據(jù):這里我們需要對請求到的數(shù)據(jù)進(jìn)行解析,因為不是整個請求到的數(shù)據(jù)我們都需要,我們只需要某些具體的關(guān)鍵的數(shù)據(jù)而已。這一步也叫數(shù)據(jù)清洗
-
數(shù)據(jù)入庫:不難理解,這就是將解析好的數(shù)據(jù)進(jìn)行入庫操作
實戰(zhàn)分析
先到必應(yīng)壁紙官網(wǎng)上觀察,做爬蟲的話是需要對數(shù)據(jù)特別敏感的。這是首頁信息,整個頁面是非常簡潔的
接下來,需要調(diào)出瀏覽器的開發(fā)者工具(這個大家應(yīng)該都非常熟悉吧,不熟悉的話很難跟下去的喔)。直接按下F12
或者右鍵點擊檢查但是呢?在必應(yīng)壁紙上,右鍵不能調(diào)用控制臺,只能手動調(diào)出了。大家不用擔(dān)心,按照第一張圖操作就好。如果有同學(xué)的chrome是中文的,也是一樣的操作,選擇