Python——简易代理池

举报
Vista_AX 发表于 2023/06/27 22:39:53 2023/06/27
【摘要】 Python——简易代理池

01 实现背景

免费代理IP网站:https://www.xicidaili.com/wt/1,我们爬取的IP就来源于该网站下的免费代理IP信息

requests模块,用于http形式请求访问网页

BeautifulSoup模块,用于解析获取到的网页内容

02 实现目标

利用Python代码实现爬取可用代理IP,并将爬取到的IP地址载入到本地文件,方便后期使用


03 注意事项

1、为防止网站可能存在的简单反爬机制,我们简单添加headers信息,尝试绕过反爬

2、为保证爬取到的代理IP的可用性,我们使用该代理IP尝试访问百度,若访问成功即写入本地文件



04 实现代码



import requests
from  bs4  import BeautifulSoup
from threading import Thread

headers = {
	'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
}

def get_ip():
	for page in range(1,100):
		resp = requests.get('https://www.xicidaili.com/wt/{}'.format(page),headers=headers)
		soup = BeautifulSoup(resp.text,'lxml')
		dates = soup.select('tr')
		for i in range(1,50):
			date = dates[i]
			date_detail = BeautifulSoup(str(date),'lxml')
			date_text = date_detail.select('td')
			IP = date_text[1].text
			Port =date_text[2].text
			Address = date_text[3].text
			Protocol = date_text[5].text
			print(f'{Protocol.lower()}://{IP}:{Port}\t{Address}')
			with open('get_ip.txt',mode ='a+') as file:
				file.write(f'{Protocol.lower()}://{IP}:{Port}\t{Address}\n')
			ip_judge = f'{Protocol.lower()}://{IP}:{Port}'
			proxy_list={}
			proxy_list[Protocol.lower()] = ip_judge
			resp_judge = requests.get(url = 'https://www.baidu.com',headers=headers,proxies=proxy_list)
			if resp_judge.status_code == 200:
				with open('get_ip.txt',mode ='a+') as file:
					file.write(f'{proxy_list}\n')
			else:
				print(f'This proxy is failed:{proxy_list}')

get_ip()



05 实现效果

image.png



image.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。