- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

网页爬虫-通过已登录后的cookie，模拟登陆状态，保持会话进行后续操作

IT 叶新东老师发表于 2021/12/30 01:47:50 2021/12/30

【摘要】刚开始的时候打算使用java程序直接登陆网站在进行后续操作，后来发现有些网站的重定向太多不好操作，所以改用已登录的cookie 来保持会话，使用方式很简单，只需要在浏览器上登录你要操作的网站，然后获取cookie值，将cookie放到程序里就实现了保存会话的功能了， 1、添加maven 依赖 <dependenc...

刚开始的时候打算使用java程序直接登陆网站在进行后续操作，后来发现有些网站的重定向太多不好操作，

所以改用已登录的cookie 来保持会话，

使用方式很简单，只需要在浏览器上登录你要操作的网站，然后获取cookie值，将cookie放到程序里就实现了保存会话的功能了，

1、添加maven 依赖


  
   
    
     
    
    
      
     
    
   
    
     
    
    
     		<dependency>
     
    
   
    
     
    
    
     			<groupId>org.apache.httpcomponents</groupId>
     
    
   
    
     
    
    
     			<artifactId>httpclient</artifactId>
     
    
   
    
     
    
    
     			<version>4.1.2</version>
     
    
   
    
     
    
    
     		</dependency>
     
    
   
    
     
    
    
     		<dependency>
     
    
   
    
     
    
    
     			<groupId>org.apache.httpcomponents</groupId>
     
    
   
    
     
    
    
     			<artifactId>httpclient-cache</artifactId>
     
    
   
    
     
    
    
     			<version>4.1.2</version>
     
    
   
    
     
    
    
     		</dependency>
     
    
   
    
     
    
    
     		<dependency>
     
    
   
    
     
    
    
     			<groupId>org.apache.httpcomponents</groupId>
     
    
   
    
     
    
    
     			<artifactId>httpmime</artifactId>
     
    
   
    
     
    
    
     			<version>4.1.2</version>
     
    
   
    
     
    
    
     		</dependency>

2、登录网站，然后输入账号密码登录，按下F12功能键（或者在网页空白处右击->检查），

然后会弹出浏览器的调试页面--> 网络 --> 消息头 --> 下面的cookie一栏就是我们要的值了，先把它复制

3、上代码，header添加刚才复制的cookie值


  
   
    
     
    
    
     
      package com.html;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      import java.util.HashMap;
     
    
   
    
     
    
    
     
      import java.util.Map;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      import org.apache.http.Header;
     
    
   
    
     
    
    
     
      import org.apache.http.HttpEntity;
     
    
   
    
     
    
    
     
      import org.apache.http.HttpResponse;
     
    
   
    
     
    
    
     
      import org.apache.http.client.methods.HttpGet;
     
    
   
    
     
    
    
     
      import org.apache.http.impl.client.DefaultHttpClient;
     
    
   
    
     
    
    
     
      import org.apache.http.message.BasicHeader;
     
    
   
    
     
    
    
     
      import org.apache.http.util.EntityUtils;
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      public class HtmlRequest {
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     	public static void main(String[] args) {
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     		//需要爬数据的网页url
     
    
   
    
     
    
    
     		String url = "http://www.baidu.com";
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      		Map<String, String> header = new HashMap<String, String>();
     
    
   
    
     
    
    
     		//将浏览器的cookie复制到这里
     
    
   
    
     
    
    
     
      		header.put("Cookie", "Hm_lvt_9b04b6953ffb9872983f02eee2929d23=1536065531; Hm_lpvt_9b04b6953ffb9872983f02eee2929d23=1536066013; PHPSESSID=eemc0vbbmbr57d6s9rhvh6rav7; DedeUserID=6745; DedeUserID__ckMd5=ac9f8bd4bd2227be; DedeLoginTime=1536068126; DedeLoginTime__ckMd5=81e100997d01fca8");
     
    
   
    
     
    
    
     
      		System.out.println(httpGet(url, null, header));
     
    
   
    
     
    
    
     
      	}
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     	/**
     
    
   
    
     
    
    
     
       * 发送 get 请求
     
    
   
    
     
    
    
     
       * 
     
    
   
    
     
    
    
     
       * @param url
     
    
   
    
     
    
    
     
       * @param encode
     
    
   
    
     
    
    
     
       * @param headers
     
    
   
    
     
    
    
     
       * @return
     
    
   
    
     
    
    
     
       */
     
    
   
    
     
    
    
     	public static String httpGet(String url, String encode, Map<String, String> headers) {
     
    
   
    
     
    
    
     		if (encode == null) {
     
    
   
    
     
    
    
     
      			encode = "utf-8";
     
    
   
    
     
    
    
     
      		}
     
    
   
    
     
    
    
     		String content = null;
     
    
   
    
     
    
    
     		DefaultHttpClient httpclient = new DefaultHttpClient();
     
    
   
    
     
    
    
     		HttpGet httpGet = new HttpGet(url);
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     		// 设置 header
     
    
   
    
     
    
    
     
      		Header headerss[] = buildHeader(headers);
     
    
   
    
     
    
    
     		if (headerss != null && headerss.length > 0) {
     
    
   
    
     
    
    
     
      			httpGet.setHeaders(headerss);
     
    
   
    
     
    
    
     
      		}
     
    
   
    
     
    
    
     
      		HttpResponse http_response;
     
    
   
    
     
    
    
     		try {
     
    
   
    
     
    
    
     
      			http_response = httpclient.execute(httpGet);
     
    
   
    
     
    
    
     			HttpEntity entity = http_response.getEntity();
     
    
   
    
     
    
    
     
      			content = EntityUtils.toString(entity, encode);
     
    
   
    
     
    
    
     
      		} catch (Exception e) {
     
    
   
    
     
    
    
     
      			e.printStackTrace();
     
    
   
    
     
    
    
     
      		} finally {
     
    
   
    
     
    
    
     			//断开连接
     
    
   
    
     
    
    
     
      // httpGet.releaseConnection();
     
    
   
    
     
    
    
     
      		}
     
    
   
    
     
    
    
     		return content;
     
    
   
    
     
    
    
     
      	}
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     	/**
     
    
   
    
     
    
    
     
       * 组装请求头
     
    
   
    
     
    
    
     
       * 
     
    
   
    
     
    
    
     
       * @param params
     
    
   
    
     
    
    
     
       * @return
     
    
   
    
     
    
    
     
       */
     
    
   
    
     
    
    
     	public static Header[] buildHeader(Map<String, String> params) {
     
    
   
    
     
    
    
     
      		Header[] headers = null;
     
    
   
    
     
    
    
     		if (params != null && params.size() > 0) {
     
    
   
    
     
    
    
     
      			headers = new BasicHeader[params.size()];
     
    
   
    
     
    
    
     			int i = 0;
     
    
   
    
     
    
    
     			for (Map.Entry<String, String> entry : params.entrySet()) {
     
    
   
    
     
    
    
     
      				headers[i] = new BasicHeader(entry.getKey(), entry.getValue());
     
    
   
    
     
    
    
     
      				i++;
     
    
   
    
     
    
    
     
      			}
     
    
   
    
     
    
    
     
      		}
     
    
   
    
     
    
    
     		return headers;
     
    
   
    
     
    
    
     
      	}
     
    
   
    
     
    
    
      
     
    
   
    
     
    
    
     
      }

4、然后直接运行main方法，打印出已登录网站的html页面数据，

总结：使用java实现自动登录并且进行后续操作的功能目前还在研究中，一天进步一点点，rmb在向你招手，

宣传下个人网站：www.huashuku.top

文章来源: yexindong.blog.csdn.net，作者：java叶新东老师，版权归原作者所有，如需转载，请联系作者。

原文链接：yexindong.blog.csdn.net/article/details/82391605

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

网页爬虫-通过已登录后的cookie，模拟登陆状态，保持会话进行后续操作

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

网页爬虫-通过已登录后的cookie，模拟登陆状态，保持会话进行后续操作

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品