首页 >

php curl_multi_exec()并发抓取网页内容

后端开发|php教程php  curl_multi_exec()并发抓取网页内容
php 多线程, php curl, exec, php url, CURL
后端开发-php教程
php curl_multi_exec()并发抓取网页内容
仿眼镜源码,Ubuntu开机客人会话,下载网页视频爬虫,regauth.php,phpcms seo设置lzw
php是个单线程的语言,于是在某方面速率比不上java这种多线程的语言,毕竟主打方面不在这里..但是php也有自己的多线程(其实是并发)方法–curl_multi_exec().
登录网页界面源码下载,制作ubuntu的镜像,爬虫就是爬html,php sgd,昆明seo计费lzw
我们可以用curll来获取网页的内容(不懂curl的可以找个简单的例子来看看),但是若是同时获取多个网页的内容,速度就不太理想,这个时候curl_multi_exec()就可以发挥作用了。
开心大屏幕源码,vscode html,ccs ubuntu,isSelf tomcat,sqlite 时间操作,阿里云服务器 扩容,discuz插件 独立页面,python前端框架选择,网络爬虫怎么用,php实习内容,seo达排,jq网站,网页 时间控件,军队用网页模板,页面放大缩小 js插件,典当管理系统模板,自助打印程序源码lzw
下面是我在抓取优酷网内容的例子:

function async_get_url($url_array, $wait_usec = 0){    if (!is_array($url_array))        return false;              $wait_usec = intval($wait_usec);              $data    = array();    $handle  = array();    $running = 0;              $mh = curl_multi_init(); // multi curl handler              $i = 0;    foreach($url_array as $url) {        $ch = curl_init();                  curl_setopt($ch, CURLOPT_URL, $url);        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // return don't print        curl_setopt($ch, CURLOPT_TIMEOUT, 30);        curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)');        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1); // 302 redirect        curl_setopt($ch, CURLOPT_MAXREDIRS, 7);                  curl_multi_add_handle($mh, $ch); // 把 curl resource 放進 multi curl handler 裡                  $handle[$i++] = $ch;    }              /* 此做法就可以避免掉 CPU loading 100% 的問題 */    // 參考自: http://www.hengss.com/xueyuan/sort0362/php/info-36963.html              do {        $mrc = curl_multi_exec($mh, $active);    } while ($mrc == CURLM_CALL_MULTI_PERFORM);              while ($active and $mrc == CURLM_OK) {        if (curl_multi_select($mh) != -1) {            do {$mrc = curl_multi_exec($mh, $active);            } while ($mrc == CURLM_CALL_MULTI_PERFORM);        }    }    /*     // 感謝 Ren 指點的作法. (需要在測試一下)    // curl_multi_exec的返回值是用來返回多線程處裡時的錯誤,正常來說返回值是0,也就是說只用$mrc捕捉返回值當成判斷式的迴圈只會運行一次,而真的發生錯誤時,有拿$mrc判斷的都會變死迴圈。    // 而curl_multi_select的功能是curl發送請求後,在有回應前會一直處於等待狀態,所以不需要把它導入空迴圈,它就像是會自己做判斷&自己決定等待時間的sleep()。    /* 讀取資料 */    foreach($handle as $i => $ch) {        $content  = curl_multi_getcontent($ch);        $data[$i] = (curl_errno($ch) == 0) ? $content : false;    }              /* 移除 handle*/    foreach($handle as $ch) {        curl_multi_remove_handle($mh, $ch);    }              curl_multi_close($mh);              return $data;}          $url="http://m.youku.com/wap/";$reg1="/(.*?)/i";//获取视频链接$reg2="/]*)\s*class=\"imgdetail\"\s*src=('|\")([^'\"]+)('|\")/i";$reg3="";$reg4= "/

.*?/i";//获取视频标题(备选) // 创建两个cURL资源$ch1 = curl_init();$resultArray=array();//装载所有数据的数组$ch=array();//$ch2 = curl_init();// 指定URL和适当的参数curl_setopt($ch1, CURLOPT_URL,$url);curl_setopt($ch1, CURLOPT_RETURNTRANSFER, 1);curl_setopt($ch1, CURLOPT_HEADER, 0);$content=curl_exec($ch1);curl_close($ch1);//$content=file_get_contents($url);preg_match_all($reg1, $content,$matches);$video=$matches[0];//首页视频的链接//print_r($video);foreach ($video as $a=>$key){ $position=strpos($key, "href"); $substring=substr($key, $position+11); $pos=strpos($substring, ">"); $link=substr($substring, 0,$pos-1); $nextUrl[$a]=$url.$link;}//$url_array = array( // 'http://www.google.com', // 'http://www.baidu.com',//);//print_r($nextUrl);//print_r(async_get_url($nextUrl));//并发获取所有网页的内容$allData=async_get_url($nextUrl);foreach ($allData as $page){ //获取视频图片 preg_match_all($reg2, $page,$img); $img_arr=$img[0]; foreach ($img_arr as $arr) { $position=strpos($arr, "src"); $sub=substr($arr, $position+5); $pos=strpos($sub, "\""); $last=substr($sub, 0,$pos); } //获取视频高清点播地址 preg_match_all($reg3, $page,$vids); $video_arr=$vids[0]; $vid=$video_arr[0]; $position=strpos($vid, "href"); $v_string=substr($vid, $position+11); $pos=strpos($v_string, "\""); $add=substr($v_string, 0,$pos); $video_url=$url.$add; //获取视频的标题 preg_match_all($reg4, $page,$match); $title=$match[0]; //print_r($er); $r=serialize($title); $position=mb_strpos($r, "

"); $sub=substr($r, 0,$position); $pos=mb_strrpos($sub, ">"); $til=substr($sub, $pos+1); //整合到一个数组 $subArray=array('image'=>$last,'video'=>$video_url,'title'=>$til); array_push($resultArray, $subArray);}echo json_encode($resultArray);

重点在与async_get_url这个函数

do {        $mrc = curl_multi_exec($mh, $active);    } while ($mrc == CURLM_CALL_MULTI_PERFORM);          while ($active and $mrc == CURLM_OK) {        if (curl_multi_select($mh) != -1) {            do {$mrc = curl_multi_exec($mh, $active);            } while ($mrc == CURLM_CALL_MULTI_PERFORM);        }    }

上面那段是重点也是难点。

第一个循环,$mrc == CURLM_CALL_MULTI_PERFORM(-1)表明了还有句柄资源没有处 理,于是就继续$mrc = curl_multi_exec($mh, $active)

要特别说明的是$mrc和$active都是integer类型的;

当$mrc== CURLM_OK(0),就表明了还有资源,但还没有到达。

这是就到第二个循环了:

(while)要是有资源还没有到达

(if)如果cURL批处理连接中有活动连接–也就是说句柄有事干了(具体可以参考php手册)

(do-while)处理句柄资源

curl并发处理因为官方文档比较简练,我自己也查了好多英文文档才略懂。

希望大家能一起进步!

参考文档:

http://technosophos.com/content/php-and-curlmultiexec

http://blog.longwin.com.tw/2009/10/php-multi-thread-curl-2009/


php  curl_multi_exec()并发抓取网页内容
  • php curl 首次无法post服务端
  • php curl 首次无法post服务端 | php curl 首次无法post服务端 ...

    php  curl_multi_exec()并发抓取网页内容
  • javascript-html - PHP模拟登录公司CRM系统并进行交互,登录界面采用Ajax验证并提交的
  • javascript-html - PHP模拟登录公司CRM系统并进行交互,登录界面采用Ajax验证并提交的 | javascript-html - PHP模拟登录公司CRM系统并进行交互,登录界面采用Ajax验证并提交的 ...

    php  curl_multi_exec()并发抓取网页内容
  • php 用curl_exec获取页面数据问题
  • php 用curl_exec获取页面数据问题 | php 用curl_exec获取页面数据问题 ...