curl抓取页面时遇到重定向的解决方法

举报
lxw1844912514 发表于 2022/03/27 01:50:37 2022/03/27
1.3k+ 0 0
【摘要】 用php的curl抓取网页遇到了问题,为阐述方便,将代码简化如下: <?phpfunction curlGet($url) {$ch = curl_init();curl_setopt($ch, CURLOPT_URL, $url);curl_setopt($ch, CURLOPT_RETURNTRANSFER,...

用php的curl抓取网页遇到了问题,为阐述方便,将代码简化如下:


        <?php
        function curlGet($url) {
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch, CURLOPT_HEADER, true);
        return curl_exec($ch);
        }
        $url = 'http://144go.com';
        echo curlGet($url), "\n";
    
   

代码的目的很简单,抓取页面:http://www.144go.com
执行上述代码,得到的结果:


        HTTP/1.1 301 Moved Permanently
        Content-Length: 144
        Content-Type: text/html
        Location: http://www.144go.com/
        Server: Microsoft-IIS/6.0
        X-Powered-By: ASP.NET
        Date: Mon, 03 Sep 2012 04:25:22 GMT
        <head><title>Document Moved</title></head>
        <body><h1>Object Moved</h1>This document may be found <a HREF="http://www.144go.com/">here</a></body>
    
   


由结果中的
Location: http://www.144go.com/
可知http://144go.com被重定向到了http://www.144go.com/
怎么办呢,要用正则分析出Location部分的链接,重复执行执行curlGet吗?行到是行,就是有点麻烦。

其实只要加一条语就可以了:


        <?php
        function curlGet($url) {
        $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $url);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
        curl_setopt($ch, CURLOPT_HEADER, true);
         //函数中加入下面这条语句
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
        return curl_exec($ch);
        }
    
   

再次执行代码,可以抓取到想要的页面。
CURLOPT_FOLLOWLOCATION指明:
让curl递归的抓取http头中Location中指明的url。
当抓取次数超过CURLOPT_MAXREDIRS时,递归将终止。
在抓取中任何跳转带来的问题,都可通过设置此参数解决。


有关重定向的问题,可参考HTTP返回码中301与302的区别
---------------------

原文链接:https://blog.csdn.net/qmhball/article/details/7937534

文章来源: blog.csdn.net,作者:lxw1844912514,版权归原作者所有,如需转载,请联系作者。

原文链接:blog.csdn.net/lxw1844912514/article/details/100029008

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

作者其他文章

评论(0

抱歉,系统识别当前为高风险访问,暂不支持该操作

    全部回复

    上滑加载中

    设置昵称

    在此一键设置昵称,即可参与社区互动!

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

    *长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。