久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

<p id="vfaef"><kbd id="vfaef"></kbd></p>

<pre id="vfaef"><u id="vfaef"></u></pre>

<thead id="vfaef"><input id="vfaef"></input></thead>

<menu id="mthlf"><listing id="mthlf"><dfn id="mthlf"></dfn></listing></menu>

<address id="mthlf"></address>

當(dāng)前位置：站長(zhǎng)資訊網(wǎng) > 編程知識(shí) > 正文

淺析怎么使用PHP做異步爬取數(shù)據(jù)

2023-01-13 分類(lèi)：編程知識(shí) 閱讀(1736) 評(píng)論(0)

說(shuō)到爬蟲(chóng)，很多人就會(huì)想到python爬蟲(chóng)，因?yàn)樗_實(shí)有很大的優(yōu)點(diǎn)。但其實(shí)PHP也是可以用來(lái)做異步爬取數(shù)據(jù)的，下面就來(lái)給大家介紹一下使用PHP做異步爬取數(shù)據(jù)的方法。

淺析怎么使用PHP做異步爬取數(shù)據(jù)

什么是網(wǎng)絡(luò)爬蟲(chóng)？

網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿(mǎn)足系統(tǒng)的一定停止條件。

爬蟲(chóng)有什么用？

做為通用搜索引擎網(wǎng)頁(yè)收集器。（google,baidu）
做垂直搜索引擎.
科學(xué)研究：在線人類(lèi)行為，在線社群演化，人類(lèi)動(dòng)力學(xué)研究，計(jì)量社會(huì)學(xué)，復(fù)雜網(wǎng)絡(luò)，數(shù)據(jù)挖掘，等領(lǐng)域的實(shí)證研究都需要大量數(shù)據(jù)，網(wǎng)絡(luò)爬蟲(chóng)是收集相關(guān)數(shù)據(jù)的利器。
偷窺，hacking，發(fā)垃圾郵件……

QueryList 簡(jiǎn)介與特性

QueryList是一套簡(jiǎn)潔、優(yōu)雅、可擴(kuò)展的PHP采集工具(爬蟲(chóng))，基于phpQuery。

特性：

擁有與jQuery完全相同的CSS3 DOM選擇器
擁有與jQuery完全相同的DOM操作API
擁有通用的列表采集方案
擁有強(qiáng)大的HTTP請(qǐng)求套件，輕松實(shí)現(xiàn)如：模擬登陸、偽造瀏覽器、HTTP代理等意復(fù)雜的網(wǎng)絡(luò)請(qǐng)求
擁有亂碼解決方案
擁有強(qiáng)大的內(nèi)容過(guò)濾功能，可使用jQuey選擇器來(lái)過(guò)濾內(nèi)容
擁有高度的模塊化設(shè)計(jì)，擴(kuò)展性強(qiáng)
擁有富有表現(xiàn)力的API
擁有高質(zhì)量文檔
擁有豐富的插件
擁有專(zhuān)業(yè)的問(wèn)答社區(qū)和交流群

通過(guò)插件可以輕松實(shí)現(xiàn)諸如：

多線程采集
圖片本地化
模擬瀏覽器行為，如：提交Form表單
網(wǎng)絡(luò)爬蟲(chóng)

環(huán)境要求

PHP >= 7.0

如果你的PHP版本還停留在PHP5，或者不會(huì)使用Composer,你可以選擇使用QueryList3,QueryList3支持php5.3以及手動(dòng)安裝。 QueryList3 文檔:http://v3.querylist.cc

安裝

通過(guò)Composer安裝:


composer require jaeger/querylist
登錄后復(fù)制

使用

元素操作

采集「昵圖網(wǎng)」所有圖片地址


QueryList::get('http://www.nipic.com')->find('img')->attrs('src');
登錄后復(fù)制

采集百度搜索結(jié)果


$ql = QueryList::get('http://www.baidu.com/s?wd=QueryList');  $ql->find('title')->text(); // 獲取網(wǎng)站標(biāo)題 $ql->find('meta[name=keywords]')->content; // 獲取網(wǎng)站頭部關(guān)鍵詞  $ql->find('h3>a')->texts(); //獲取搜索結(jié)果標(biāo)題列表 $ql->find('h3>a')->attrs('href'); //獲取搜索結(jié)果鏈接列表  $ql->find('img')->src; //獲取第一張圖片的鏈接地址 $ql->find('img:eq(1)')->src; //獲取第二張圖片的鏈接地址 $ql->find('img')->eq(2)->src; //獲取第三張圖片的鏈接地址 // 遍歷所有圖片 $ql->find('img')->map(function($img){     echo $img->alt;  //打印圖片的alt屬性 });
登錄后復(fù)制

贊(0)

標(biāo)簽：AI css list php python word 搜索引擎瀏覽器百度谷歌

相關(guān)推薦

網(wǎng)站地圖滬ICP備18035694號(hào)-2

滬公網(wǎng)安備31011702889846號(hào)