curl抓取页面时遇到重定向的解决方法

举报
lxw1844912514 发表于 2022/03/27 01:50:37 2022/03/27
【摘要】 用php的curl抓取网页遇到了问题,为阐述方便,将代码简化如下: <?phpfunction curlGet($url) {$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER,...

用php的curl抓取网页遇到了问题,为阐述方便,将代码简化如下:


    
  1. <?php
  2. function curlGet($url) {
  3. $ch = curl_init();
  4. curl_setopt($ch, CURLOPT_URL, $url);
  5. curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  6. curl_setopt($ch, CURLOPT_HEADER, true);
  7. return curl_exec($ch);
  8. }
  9. $url = 'http://144go.com';
  10. echo curlGet($url), "\n";

代码的目的很简单,抓取页面:http://www.144go.com
执行上述代码,得到的结果:


    
  1. HTTP/1.1 301 Moved Permanently
  2. Content-Length: 144
  3. Content-Type: text/html
  4. Location: http://www.144go.com/
  5. Server: Microsoft-IIS/6.0
  6. X-Powered-By: ASP.NET
  7. Date: Mon, 03 Sep 2012 04:25:22 GMT
  8. <head><title>Document Moved</title></head>
  9. <body><h1>Object Moved</h1>This document may be found <a HREF="http://www.144go.com/">here</a></body>


由结果中的
Location: http://www.144go.com/
可知http://144go.com被重定向到了http://www.144go.com/
怎么办呢,要用正则分析出Location部分的链接,重复执行执行curlGet吗?行到是行,就是有点麻烦。

其实只要加一条语就可以了:


    
  1. <?php
  2. function curlGet($url) {
  3. $ch = curl_init();
  4. curl_setopt($ch, CURLOPT_URL, $url);
  5. curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
  6. curl_setopt($ch, CURLOPT_HEADER, true);
  7. //函数中加入下面这条语句
  8. curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
  9. return curl_exec($ch);
  10. }

再次执行代码,可以抓取到想要的页面。
CURLOPT_FOLLOWLOCATION指明:
让curl递归的抓取http头中Location中指明的url。
当抓取次数超过CURLOPT_MAXREDIRS时,递归将终止。
在抓取中任何跳转带来的问题,都可通过设置此参数解决。


有关重定向的问题,可参考HTTP返回码中301与302的区别
---------------------

原文链接:https://blog.csdn.net/qmhball/article/details/7937534

文章来源: blog.csdn.net,作者:lxw1844912514,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/lxw1844912514/article/details/100029008

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。