- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python爬虫：利用selenium爬取淘宝商品信息

彭世瑜发表于 2021/08/13 23:14:00 2021/08/13

【摘要】 # 项目简介：利用selenium爬取淘宝商品信息 """ 思路： 1、先打开浏览器，输入关键字，点击搜索，获取商品页总页数 2、通过遍历所有页面，获取商品页 3、获取页面的时候同时进行解析页面内容 4、将获取到的数据，存入mongodb中技巧： 1、先通过chrome测试需要的内容，再修改为phatomjs 2、每次需要模拟操作之前，可以设置等待条件，等待加载完...


# 项目简介：利用selenium爬取淘宝商品信息
"""
思路：
1、先打开浏览器，输入关键字，点击搜索，获取商品页总页数
2、通过遍历所有页面，获取商品页
3、获取页面的时候同时进行解析页面内容
4、将获取到的数据，存入mongodb中

技巧：
1、先通过chrome测试需要的内容，再修改为phatomjs
2、每次需要模拟操作之前，可以设置等待条件，等待加载完毕再操作
3、通过浏览器自带的路径选择器，可以较快的对网页元素进行选择
"""
  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14

代码实现

import re
import pymongo
from pyquery import PyQuery as pq
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException


# 配置mongo数据库
client = pymongo.MongoClient("localhost")
db = client["taobao"]

# 设置浏览器参数
service_args = ["--load-images=false"]

browser = webdriver.PhantomJS(service_args=service_args)
browser.set_window_size(1400, 900) # 不设置可能访问不到正确的页面
wait = WebDriverWait(browser, 10)

# 输入网址，搜索关键字
def search_page(): print("正在搜索...") try: browser.get("https://www.taobao.com/") # 搜索 search = wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, "#q")) ) submit = wait.until( EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')) ) search.send_keys("美食") submit.click() # 获取总页数 total = browser.find_element_by_css_selector( "#mainsrp-pager > div > div > div > div.total") total = int(re.compile("(\d+)").search(total.text).group(1)) return total except TimeoutException: return search_page()


# 翻页访问
def next_page(page_num): print("正在翻页...", page_num) try: number = wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input"))) confirm = wait.until( EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit"))) number.clear() number.send_keys(page_num) confirm.click() wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > ul > li.item.active"), str(page_num))) # 解析页面 parse_page() except TimeoutException: next_page(page_num)


# 解析页面，获取商品信息
def parse_page(): wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-itemlist .items .item"))) # 用pyquery解析 doc = pq(browser.page_source) items = doc("#mainsrp-itemlist .items .item").items() for item in items: product = {} product["image"] = item.find(".pic .img").attr("src") product["title"] = item.find(".title").text() product["price"] = item.find(".price").text() product["shop"] = item.find(".shop").text() product["deal-cnt"] = item.find(".deal-cnt").text()[:-3] product["location"] = item.find(".location").text() print(product) # 保存数据 save_to_mongo(product)

# 将字典格式的数据保存到mongodb中
def save_to_mongo(data): try: db["taobao"].insert(data) print("保存成功", data) except Exception: print("保存失败")

# 程序主函数
def main(): total = search_page() for i in range(1, total+1): next_page(i) browser.close()

if __name__ == "__main__": main()

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34
  35
  36
  37
  38
  39
  40
  41
  42
  43
  44
  45
  46
  47
  48
  49
  50
  51
  52
  53
  54
  55
  56
  57
  58
  59
  60
  61
  62
  63
  64
  65
  66
  67
  68
  69
  70
  71
  72
  73
  74
  75
  76
  77
  78
  79
  80
  81
  82
  83
  84
  85
  86
  87
  88
  89
  90
  91
  92
  93
  94
  95
  96
  97
  98
  99
  100
  101
  102
  103
  104
  105
  106
  107
  108
  109
  110
  111

文章来源: pengshiyu.blog.csdn.net，作者：彭世瑜，版权归原作者所有，如需转载，请联系作者。

原文链接：pengshiyu.blog.csdn.net/article/details/80160780

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python爬虫：利用selenium爬取淘宝商品信息

代码实现

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python爬虫：利用selenium爬取淘宝商品信息

代码实现

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品