- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python模拟登录

Gere 发表于 2022/07/16 21:35:18 2022/07/16

【摘要】为什么要模拟登陆 Python网络爬虫应用十分广泛，但是有些网页需要用户登陆后才能获取到信息，所以我们的爬虫需要模拟用户的登陆行为，在登陆以后保存登陆信息，以便浏览该页面下的其他页面。保存用户信息模拟登陆后有两种方法可以保存用户信息，通过Session来保存登陆信息或者通过Cookie来保存登陆信息一、Session的用法# 导入requests模块import reques...

为什么要模拟登陆

Python网络爬虫应用十分广泛，但是有些网页需要用户登陆后才能获取到信息，所以我们的爬虫需要模拟用户的登陆行为，在登陆以后保存登陆信息，以便浏览该页面下的其他页面。

保存用户信息

模拟登陆后有两种方法可以保存用户信息，通过Session来保存登陆信息或者通过Cookie来保存登陆信息

一、Session的用法

# 导入requests模块
import requests 
# 通过requests的Session来请求网页
s = requests.Session()  
r = s.post(url, headers=headers)

二、Cookie的用法

import urllib.request, http.cookiejar
# 初始化Cookie
cookie = http.cookiejar.CookieJar()
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cookie))
# 把opener配置为全局 当然也可以不配置全局通过opener来请求网页
urllib.request.install_opener(opener)

模拟登陆实践

我们以豆瓣网为例模拟用户登陆，然后爬取登陆后的用户界面

（1）找到请求表单

登陆一般是通过Post请求来实现的，其传递参数为一个表单，如果要成功登陆，我们需要查看该表单传递了哪些内容，然后构造表单做Post请求。怎么获取表单了，我们只需要打开浏览器右键查看，然后输入账号密码，点击登陆查看其NetWork中的请求，找到表单信息即可（推荐使用谷歌浏览器），该信息中还能找到请求的url。

表单信息

URL

（2）构建表单

表单的key值我们可以通过右键页面检查页面源代码，在页面源码中获得静态的值（还有些动态信息需要手动获取）

formdata = {
    'redir': 'https://www.douban.com',
    'form_email': '账号',
    'form_password': '密码',
    'login': u'登陆'
}

（3）伪装成浏览器进行登录

我们只需要给请求添加上Headers即可

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/55.0.2883.87 Safari/537.36'}

（4）获取验证码

第二步的表单其实还不完整，还差两条跟验证码有关的信息，这两条信息是动态变化的，所以我们要手动获取

r = s.post(url_login, headers=headers)
content = r.text
soup = BeautifulSoup(content, 'html.parser')
captcha = soup.find('img', id='captcha_image')#当登陆需要验证码的时候
if captcha:
    captcha_url = captcha['src']
    re_captcha_id = r'<input type="hidden" name="captcha-id" value="(.*?)"/'
    captcha_id = re.findall(re_captcha_id, content)
    print(captcha_id)
    print(captcha_url)  # 打印验证码url
    captcha_text = input('Please input the captcha:')  # 手动输入验证码
    formdata['captcha-solution'] = captcha_text # 添加表单信息
    formdata['captcha-id'] = captcha_id

（5）登录

r = s.post(url_login, data=formdata, headers=headers) # 将表单信息传入参数中请求页面即可登录

完整代码

# -*- coding: utf-8 -*-
import requests
import re
from bs4 import BeautifulSoup

s = requests.Session()
url_login = 'https://accounts.douban.com/login'

formdata = {
    'redir': 'https://www.douban.com',
    'form_email': '账号',
    'form_password': '密码',
    'login': u'登陆'
}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                         'Chrome/55.0.2883.87 Safari/537.36'}

r = s.post(url_login, data=formdata, headers=headers)
content = r.text
soup = BeautifulSoup(content, 'html.parser')
captcha = soup.find('img', id='captcha_image')#当登陆需要验证码的时候
if captcha:
    captcha_url = captcha['src']
    re_captcha_id = r'<input type="hidden" name="captcha-id" value="(.*?)"/'
    captcha_id = re.findall(re_captcha_id, content)
    print(captcha_id)
    print(captcha_url)
    captcha_text = input('Please input the captcha:')
    formdata['captcha-solution'] = captcha_text
    formdata['captcha-id'] = captcha_id
    r = s.post(url_login, data=formdata, headers=headers)
with open('contacts.html', 'w+', encoding='utf-8') as f:
    f.write(r.text)

运行结果

登陆成功

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python模拟登录

为什么要模拟登陆

保存用户信息

模拟登陆实践

完整代码

运行结果

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python模拟登录

为什么要模拟登陆

保存用户信息

模拟登陆实践

完整代码

运行结果

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品