Python爬虫:利用selenium爬取淘宝商品信息

举报
彭世瑜 发表于 2021/08/13 23:14:00 2021/08/13
【摘要】 # 项目简介:利用selenium爬取淘宝商品信息 """ 思路: 1、先打开浏览器,输入关键字,点击搜索,获取商品页总页数 2、通过遍历所有页面,获取商品页 3、获取页面的时候同时进行解析页面内容 4、将获取到的数据,存入mongodb中 技巧: 1、先通过chrome测试需要的内容,再修改为phatomjs 2、每次需要模拟操作之前,可以设置等待条件,等待加载完...

# 项目简介:利用selenium爬取淘宝商品信息
"""
思路:
1、先打开浏览器,输入关键字,点击搜索,获取商品页总页数
2、通过遍历所有页面,获取商品页
3、获取页面的时候同时进行解析页面内容
4、将获取到的数据,存入mongodb中

技巧:
1、先通过chrome测试需要的内容,再修改为phatomjs
2、每次需要模拟操作之前,可以设置等待条件,等待加载完毕再操作
3、通过浏览器自带的路径选择器,可以较快的对网页元素进行选择
"""
  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

代码实现

import re
import pymongo
from pyquery import PyQuery as pq
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException


# 配置mongo数据库
client = pymongo.MongoClient("localhost")
db = client["taobao"]

# 设置浏览器参数
service_args = ["--load-images=false"]

browser = webdriver.PhantomJS(service_args=service_args)
browser.set_window_size(1400, 900) # 不设置可能访问不到正确的页面
wait = WebDriverWait(browser, 10)

# 输入网址,搜索关键字
def search_page(): print("正在搜索...") try: browser.get("https://www.taobao.com/") # 搜索 search = wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, "#q")) ) submit = wait.until( EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')) ) search.send_keys("美食") submit.click() # 获取总页数 total = browser.find_element_by_css_selector( "#mainsrp-pager > div > div > div > div.total") total = int(re.compile("(\d+)").search(total.text).group(1)) return total except TimeoutException: return search_page()


# 翻页访问
def next_page(page_num): print("正在翻页...", page_num) try: number = wait.until( EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > input"))) confirm = wait.until( EC.element_to_be_clickable((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit"))) number.clear() number.send_keys(page_num) confirm.click() wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, "#mainsrp-pager > div > div > div > ul > li.item.active"), str(page_num))) # 解析页面 parse_page() except TimeoutException: next_page(page_num)


# 解析页面,获取商品信息
def parse_page(): wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#mainsrp-itemlist .items .item"))) # 用pyquery解析 doc = pq(browser.page_source) items = doc("#mainsrp-itemlist .items .item").items() for item in items: product = {} product["image"] = item.find(".pic .img").attr("src") product["title"] = item.find(".title").text() product["price"] = item.find(".price").text() product["shop"] = item.find(".shop").text() product["deal-cnt"] = item.find(".deal-cnt").text()[:-3] product["location"] = item.find(".location").text() print(product) # 保存数据 save_to_mongo(product)

# 将字典格式的数据保存到mongodb中
def save_to_mongo(data): try: db["taobao"].insert(data) print("保存成功", data) except Exception: print("保存失败")

# 程序主函数
def main(): total = search_page() for i in range(1, total+1): next_page(i) browser.close()

if __name__ == "__main__": main()

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 45
  • 46
  • 47
  • 48
  • 49
  • 50
  • 51
  • 52
  • 53
  • 54
  • 55
  • 56
  • 57
  • 58
  • 59
  • 60
  • 61
  • 62
  • 63
  • 64
  • 65
  • 66
  • 67
  • 68
  • 69
  • 70
  • 71
  • 72
  • 73
  • 74
  • 75
  • 76
  • 77
  • 78
  • 79
  • 80
  • 81
  • 82
  • 83
  • 84
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • 95
  • 96
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • 104
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111

文章来源: pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。

原文链接:pengshiyu.blog.csdn.net/article/details/80160780

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。